让我们首先定义什么不是集群:它不具有多个 GPU 或 CPU 插槽的单台计算机。
这种单个服务器/系统的一般分类将被视为计算节点,更具体地说,是 CPU或GPU 计算节点。
那么,什么是集群?集群本质上是互连在一起的计算机系统的集合,以提供先进而强大的交钥匙解决方案,允许并行处理计算作业,如深度学习训练、AMBER 分子动力学模拟,甚至是一些较旧的 CPU 计算软件,如使用的在超级计算机和实验室。通常,我们可以将集群分解为五个组件:
1) 机柜
2) 管理节点
3) 计算节点
4) 存储
5) 网络交换
机柜是电气设备中不可或缺的组成部分,是电气控制设备的载体。一般由冷轧钢板或合金制作而成。用于容纳机架式服务器、交换机、PDU、内部组织的布线。可以提供对存放设备的防水、防尘、防电磁干扰等防护作用。常见高度42U,36U,24U。
通常建议使用 42U 机柜,因为占用空间与半高机柜相同,将来扩展集群有更多的空间。
管理节点,通常称为登录节点或头节点,是集群的主要编排器。这是一个高度可用的系统,提供一个登录系统,因此学生、研究人员可以登录、运行和或安排他们项目的工作。
管理节点功能的很大一部分基于安装的集群管理软件,帮助跟踪节点,允许对添加的新节点进行调试/成像,最重要的是它将所有系统联系在一起。
一个示例管理节点场景:
假设从属节点(计算节点)在集群内启动。该从属节点将通过管理网络内的 PXE 引导引导至管理节点,并且管理节点将通过 MAC 地址识别计算节点的相应角色。管理节点会将各自保存的引导映像部署或映像回从属节点;然后,从属节点将根据特定的启动映像启动、设置软件和网络,并准备好接受传入的作业以在其上运行计算。
计算节点是“工人”系统,本质上是执行繁重计算的系统。
这些可以分为两种主要类型:
1) CPU 节点
2) GPU 计算节点。
CPU 节点通常使用大量 CPU 内核(如 AMD EPYC CPU)、高频(快速)计算内核或两者的组合。
GPU 节点可以配备 GPU、FPGA 或其他并行加速器,并依赖于这些企业级设备的大规模并行计算能力和内存。
许多研究小组将拥有一个同时装有 CPU 和 GPU 计算节点的机柜,整个集群可以灵活地适应特定用例。通过这种方式,集群可以灵活地为需要更多种硬件的多个用户和多个应用程序提供服务。例如:CPU 加速的应用程序可以在高性能 CPU 节点上运行,而 GPU 加速应用程序可以在 GPU 节点上运行。
顾名思义,存储是通用的共享存储池,可以存放结果数据、图像、代码或任何其他特定于研究组的东西。存储可以是简单的NAS(网络附加存储)挂载,也可以是更复杂的高速、高可用并行存储组件,如DDN、Panasas等解决方案,甚至是 迎达 定制的BeeGFS并行存储集群。
这些组件中的每一个都可以根据自己的权利进行进一步解释和剖析。通常,迎达 建议使用单个共享存储库/挂载,它甚至可以在管理节点内组建,成为最简单实现方式。
集群内的网络通常有两种形式:
1) 管理网络
2) 内部网络,可选用的高速网络(10/25/40/100/200GBE、IB 等)。
管理网络和基础设施通常是集群管理软件中使用的低成本和廉价的千兆网络,以允许系统启动、配置和内部管理(如IPMI)所有管理节点和计算节点。
内部网络一般是将管理节点与计算节点互连的网络,是运行作业期间计算节点和管理节点之间传输数据的主要网络。通常,这可以是 10GBase-T(或对于 AMBER 集群最低为 1GbE)到高速互连和结构,如 100GbE 或 InfiniBand。使用这种高速网络,这通常具有来自外部网络的入口点(或上行链路),因此研究人员和学生可以远程登录到集群以运行或以其他方式安排他们的工作。
总之,集群是高度可定制的,通常是为研究小组或机构量身定制的。
联系迎达,了解和构建满足您需求的最佳集群解决方案。
苏州英睿特信息科技有限公司版权所有 备案号: 苏ICP备16008440号-1