再夺Green500桂冠，一文全解联想高性能计算

联想元宇宙 04-16 88

前言：

如今我们对“计算机操作系统作业调度算法包括”可能比较注意，咱们都需要学习一些“计算机操作系统作业调度算法包括”的相关文章。那么小编同时在网络上收集了一些有关“计算机操作系统作业调度算法包括””的相关文章，希望姐妹们能喜欢，大家一起来学习一下吧！

在高性能计算领域，TOP500排名用来衡量全球高性能计算机的算力性能。随着算力规模的指数级增长，双碳背景下，如何在限定的功耗下做到最高算力成为新的挑战。Green500排名不仅关注计算机系统的性能，还着重考虑其能源利用效率，以促进更加可持续的算力技术发展。

与TOP500榜单发布周期一样，Green500榜单也是每年6月份和11月份各公布一次。今年6月份的Green500榜单显示，美国纽约Flatiron研究所的Henri高性能计算集群以65.40GFlops/W（每瓦654亿次浮点运算）的能效，再次夺得Green500排行榜第一名。更重要的是，经过进一步的系统改进，Henri系统在TOP500榜单上的成绩有了更优异的表现。其排名从去年11月份的第405位提升至第255位，当前HPL（高性能Linpack基准测试）得分为2.88PFlops（每秒2880万亿次浮点运算）。

2023年6月，Green500榜单截图

Flatiron研究所成立于2016年，科学研究方向涉及天体物理、生物学、量子物理、数学、神经科学等多个前沿领域。这些领域的研究都离不开算力的支撑。仅以天体物理中的黑洞模拟为例，为了模拟超大质量黑洞在星系演化中的作用及影响，就需要数百个CPU并行工作，并要花费数百万CPU小时的时间。为了能够快速获得结果，这种资源密集型的模拟，就需要高性能计算设施的支持。

Flatiron研究所Henri高性能计算集群

Flatiron研究所的Henri高性能计算集群由联想集团搭建。Henri采用了联想ThinkSystem SR670 V2 AI服务器。这款AI服务器采用3U高密度设计，搭载两个第三代英特尔至强可扩展处理器，不仅最早支持NVIDIA的Hopper旗舰型GPU，更可以支持庞大的NVIDIA Ampere数据中心产品组合。

同时，SR670 V2接入了NVIDIA量子级200Gb/s InfiniBand网络，为高性能计算集群各节点之间提供了高带宽，低时延，高可靠的网络互联，最大限度地释放了集群内的计算潜能。

去年，Henri系统创造了65.091GFlops/W能效纪录，超越了之前的纪录保持者，取得Green500榜单第一的成绩。当时，Henri系统规模共有10个计算节点，包含80套最新的NVIDIA H100 GPU。面对不断增加的数据分析及建模需求，Flatiron研究所在联想的协助下，今年对Henri进行了系统优化升级。

最新的Henri系统具备了14个计算节点，NVIDIA H100 GPU数量增至112套，在算力有效增强的前提下，能效也得到了进一步提升。

联想ThinkSystem SR670 V2是全球第一个采用NVIDIA H100 PCIe协议的AI服务器。SR670 V2独特的体系结构没有将PCIe显卡“硬连接”到特定的CPU，而是允许将GPU动态分配给CPU。先进的系统设计思路，允许客户可根据其正在运行的作业，优化系统的GPU资源。

由于采用PCIe协议，使得一套联想ThinkSystem SR670 V2可以容纳8个最新GPU，获得惊人的计算性能。从实测性能来看，一个容纳13套SR670 V2的标准机架上，就可以产生高达2 PFlops的算力，这个成绩足以进入TOP500排名。

另外，联想ThinkSystem SR670 V2也有支持4个GPU的混合液冷型号。通过原生NVLink协议互联，SR670 V2可提供更高的带宽和更低的延迟，实现显存的叠加和性能扩展，从而最大限度满足大规模AI计算工作负载的需求。

在优化系统性能，提升最佳能效比的过程中，除了对服务器硬件的性能优化外，软件平台对于发挥高性能计算集群的硬件优势也至关重要。

● 为了更加高效地利用平台性能，充分发挥硬件平台算力优势，联想专门为用户提供了高性能计算管理平台LiCO（Lenovo Intelligent Computing Orchestration）。LiCO平台可为用户提供简单、易用、可视化管理服务，具备了管理、监控、报警、作业调度等多种高性能计算功能，有效提升了高性能计算集群的管理和性能利用能力。另外，LiCO管理平台也提供了一系列优化策略，可以在减少集群能耗的同时提高计算性能，从而提升高性能计算集群的能效。

联想LiCO HPC管理平台监控管理面板

其中，在能源管理方面，LiCO管理平台可以监控集群的能耗情况，并提供能源管理策略。LiCO能够动态调整CPU的运行频率，并根据系统运行情况，动态调整风扇的运行速度。同时，通过动态调整能耗，可以让系统运行在兼顾性能和节能的状态，更有效地利用能源，并降低整个集群的能耗。

在作业调度优化方面，LiCO可以通过智能的作业调度算法，将并行计算任务合理地分配到计算节点上，以最大程度地利用计算资源。通过减少任务之间的资源竞争和排队等待时间，可以提高集群的效率，降低能耗。

针对人工智能模型训练需要使用GPU的特点，为了最大化利用GPU性能，联想LiCO提供了一站式解决方案，在一套集群中通过统一的资源调度，可同时支持HPC作业和AI作业运行。LiCO集成了集群需要的调度软件、监控软件、计算库及分布式文件系统等，可以帮助客户快速部署好一个HPC和AI集群。

特别是联想LiCO中提供了Platform LSF集群管理软件，实现了软硬件资源的共享调度。Platform LSF可以将所有软硬件资源有机地组合在一起，根据事先定义的调度策略统一管理，大幅提升软硬件资源的利用率。

Spectrum LSF Suites三大版本

通过持续的硬件优化和软件优化，联想大幅度提升了高性能计算平台的能效，为绿色算力和双碳目标的实现做出了显著贡献。同时，联想在算力领域的不断耕耘也取得了丰硕的成果。联想x86服务器已连续三个季度蝉联全球第三，呈现迅猛增长势头，进一步巩固了联想在助力算力基础设施建设方面的领导地位。

另外，联想全球AI基础设施业务年度收入已突破20亿美元。为了加速全球企业的AI部署，联想宣布将在未来三年追加投资10亿美元。这一雄心勃勃的战略举措凸显了联想布局AI算力的决心和实力。此举也必将进一步推动人工智能技术的发展，并为千行百业的智能化转型提供强有力的支持。

展望未来，联想不会止步于目前在算力领域取得的成绩。作为联想方案服务的重要组成部分，联想在算力方面将不断投入，为助力高性能计算和人工智能持续迈向新高度贡献力量。

本文地址：http://www.longkongtuishu.com/ca6abBA1sDVcDCl0.html

标签： #计算机操作系统作业调度算法包括

再夺Green500桂冠，一文全解联想高性能计算

一文读懂运输车辆调度管理工作

再夺Green500桂冠，一文全解联想高性能计算