大部分计算材料和计算化学程序属于计算密集型和访存密集型应用,对处理器的浮点运算能力和内存性能要求很高。
需求分析
大部分计算材料和计算化学程序属于计算密集型和访存密集型应用,对处理器的浮点运算能力和内存性能要求很高。对于典型的物理化学应用,计算节点推荐使用双路服务器,根据CPU型号不同,每个计算节点提供16~40处理器核心,平均每个核心可以配置2~4 GB内存。对于ADF、VASP、Gaussian等以OpenMP共享式内存并行方式为主的并行程序,推荐采用计算核心较多和内存较大的SMP胖节点,可以达到最佳的性能加速比。大部分物理化学软件都是MPI并行程序,并行加速比较好,通常可以扩展到32~128进程以上,程序运行方式通常是跨节点并行运行;从并行算法分析,计算材料软件的进程间通信比较频繁,属于通信密集型应用。因此,节点间网络的延迟和带宽对程序的并行加速比起着决定性的作用。使用传统的千兆以太网很难发挥程序的并行性能,跨节点运行时会导致严重的性能下降,成为整个计算过程的瓶颈。因此,推荐用户使用高带宽、低延迟的InfiniBand网络。
解决方案
上图是典型的计算物理化学集群系统配置,系统具有优异的性能和良好的扩展性。
计算节点选用高密度服务器平台,2U双路多节点服务器,满足一般计算软件和计算任务的需求;计算系统还可以根据需要配置几台四路或八路SMP胖节点,专为 Gaussian等OpenMP并行程序或其它一些大内存应用配 ADF、VAS。
集群系统配置了两台服务器作为管理登录节点,两台登录管理节点配置双机热备,对作业调度、用户管理等系统服务实现双保险,提高整个集群的高可用性; 计算网络采用高带宽、低延迟的FDR InfiniBand网络,为并行程序提供无阻塞的通信高速通道;另外,配置一套或两套千兆网络,用于集群管理和监控,千兆网络也可作为备用计算网络,提高系统的高可用性; 存储系统采用磁盘阵列,提供了海量数据存储能力的同时,其创新的RAID 级别提供了更高的数据保护功能。强大的硬件设计,灵活的扩展操作和友好的管理界面,为客户不同应用提供简单方便的解决方案。
方案优势
高性能
本方案选择了业界领先的高密度机架服务器,采用最新的Sancdy Bridge处理器架构,计算网络使用56Gb的FDR Infiniband,非常适合计算物理、计算化学这样的计算密集型和通信密集型应用;大容量、高性能、高容错、高可扩展性的分布式并行存储系统为集群提供了强大的存储支持。
高可靠性
冗余电源,热插拔硬盘,高可靠的服务器存储系统等设备和技术保证系统的可靠稳定运行;双登录管理节点、备用计算网络、存储系统的高容错技术为集群的提供了更高的可靠性;
可扩展性
系统设计为用户预留了自由的可扩展空间,用户可根据业务系统的增长,灵活地增配计算节点,扩充计算网络,提升计算性能;扩充存储系统的容量和性能,满足增长的数据存放和IO性能需求。
绿色节能
集群选用设备均关注绿色节能,选取低功耗部件,采用专业的散热设计,避免不必要的能耗损失;智能功耗控制系统能够根据集群负载实时调整整个系统功耗,在不影响集群性能的情况下,实现20%节能,真正实现绿色高效能计算。