10.1.1集算器中的并行服务器

集群计算时,集群体系由多个分机(sub node构成,指挥分机工作的进程称为主机(main node,分机运行时,可以接收计算请求,并计算本地的网格文件,将计算结果返回到主机。在集群网络中,分机可以在多台不同的计算机中运行;每个分机上可运行一个或者多个进程(process,进程以分机IP地址和端口号标识。所有运行中的服务器,共同构成并行计算的分机系统。一个分机上运行的多个进程被称为分进程,其中存在一个主进程,用来管理分机上所有的分进程。

集算器提供了服务器类com.raqsoft.ide.dfx.UnitServerConsole,可以根据配置文件获取地址和端口,启动并行服务器。

在集算器并行体系下没有中心并行管理器,每次执行时临时指定可使用的机器

在每个并行计算任务中都有逻辑中心,主机向分机发出任务,并回收结果以归并。在执行过程中,如果主机发生错误则任务将会失败;如果分机发生错误,主机会重新分配这个子任务,寻找另一个可以的分机来执行。如果想详细了解集算器中并行任务的执行情况,请阅读10.2集群计算

数据也可以存放在可被节点机访问到的网络文件系统中(Network File System),比如HDFS。由NFS管理冗余数据以确保容错能力比使用节点机更简单些,但与节点机本地文件读取的机制相比,采用NFS存储数据时会由于网络传输造成性能损失。