龙空技术网

自主研发国产高端企业云服务器,浪潮商用机器如何聚沙成塔?

云科技时代杂志 1271

前言:

而今同学们对“企业用云服务器”大致比较关怀,姐妹们都需要学习一些“企业用云服务器”的相关内容。那么小编在网摘上搜集了一些对于“企业用云服务器””的相关资讯,希望看官们能喜欢,朋友们一起来了解一下吧!



沙子是半导体集成电路芯片的源材料,硅谷在近半个世纪以来利用世界上最普通的材料,制造出了世界上最高精尖的芯片,可以用“聚沙成宝”一词形容西方科技史上这一奇迹般的成就。而中国在最近几十年,特别是近二三十年,也在奋力追赶半导体和集成电路这一战略级高科技领域的成就。其中之一,就体现在2018年5月2日开门营业的浪潮商用机器公司。

Power芯片是世界上最强的处理器之一,当前全球排名第一和第二的超级计算机均采用的是POWER9芯片。POWER9处理器使用14纳米制程工艺,集成了80亿个晶体管,在芯片里实现了17层布线,系统内的互联带宽达2.3倍内存带宽,可以实现7GB的片内数据转换。作为高端服务器芯片的最新一代技术结晶,POWER9芯片可以说是集大成。

自浪潮与IBM成立合资公司浪潮商用机器以来,浪潮商用机器基于之前浪潮长达25年的高端服务器K1的设计实践和经验,结合POWER9芯片的高精尖工艺,自主创新设计了K1 Power系列企业级高端Unix服务器,可满足金融、电信及互联网、政府和制造业等对超高业务稳定性、巨大数据吞吐、高数据一致性、频繁的并发访问能力和要求。

作为混合云时代的最高端科技成果之一,国产高端Unix服务器K1 Power的自研过程体现了当代中国在自主科技创新方面的成就。2019年底,浪潮商用机器的技术专家分享了K1 Power的研发过程。

让IBM惊讶的中国高端服务器



浪潮与IBM在技术方面的合作,早于浪潮商用机器公司的成立。浪潮早在1993年就研制出了中国首台小型机服务器SMP2000,当时该服务器基于X86架构。后来,浪潮成立了高效能服务器和存储技术国家重点实验室,并于2010年设计成功了高端安腾服务器,也是我国863计划重大专项“高端容错计算机研制与应用推广”项目成果,这在当时属于一个重大科研突破。

2010年,400多位浪潮工程师耗费4年研制成功K1小型机,突破多项小型机核心技术,使得中国成为除美国、日本之外全球第三个具备关键应用主机研制能力的国家,浪潮成为全球第五家具备关键应用主机研制能力的企业。K1安腾服务器克服的一大挑战即多级处理器互联过程中的Cache缓存一致性。浪潮自研了处理器协同芯片,集成了4.5亿个晶体管、有2577根管脚,而Intel当时最高端的通用处理器至强E7集成的晶体管数量也不过14亿个、针脚数只有1567个。

正因为有了K1关键应用小型机,当浪潮把两台机器送到多伦多给IBM进行DB2数据库的移植时,让IBM对浪潮产品的研发能力有了新的认知。当时,国际上认为中国无法达到这么高精尖的工艺水平,以为K1是OEM惠普的机器,后来当打开K1仔细研究后才发现与惠普的机器完全不一样,出乎了IBM工程师的意料。

正是因为有了对浪潮K1服务器创新能力的认知,才有了后来2017年IBM与浪潮合资公司围绕Power处理器开发K1 Power系列高端机。浪潮商用机器在北京、济南建立了面向Power生态的K1 Power团队,浪潮一半的K1研发团队整合到合资公司共同打造K1 Power服务器。现在浪潮商用机器K1 Power研发团队有一百多位核心人员,该研发团队骨干精英全部拥有10年以上高端服务器设计经验,全程参与了浪潮K1、M13、4/8路X86高端服务器产品的研发,具有从系统原理到主板PCB设计的全流程设计能力,可对结构、电源、信号、散热等服务器核心模块进行快速研发。

而K1 Power服务器除了芯片采用POWER9外,其余全部是浪潮商用机器自行研发,浪潮商用机器北京、济南两大研发实验室投资上千万元配备PCIe 4.0误码仪、59GHz 高速示波器、矢量网络分析仪等顶级硬件研发测试设备,可进行业界领先的高速信号仿真和测试。此外,实验室除了配备专业的电子设计自动化工具(EDA),还配备了专业测试设备能快速诊断定位设计故障,打造可靠性高于99.9994%的高品质高端服务器产品。

K1 Power服务器的四大特点



作为K1 Power服务器的代表作,K1 Power E980是浪潮商用机器自主研发的16路旗舰级关键应用服务器,单台E980最高可部署成192个逻辑分区或1000个微分区,支撑更大规模虚拟机、更高吞吐、更高性能和更高扩展性,通过云化的方式可将几十乃至上百个应用负载整合到一台高端服务器上。而针对分布式大规模机器学习,K1 Power面向加速器、异构计算的Cache一致高速互联,可以实现多种领域中不同算法近10倍的性能加速;在大数据应用场景中,也使得数据压缩和解压缩性能提高了440~740倍。

K1 Power服务器具有高可用、高品质、高可靠和高安全的特点。首先,在高可用方面,POWER9处理器目前是业界性能最高的处理器之一,主频方面可达到业界最高4Ghz,CPU之间、CPU与内存之间、CPU与I/O之间具备更大的带宽,相比X86可提高数倍。POWER9支持PCIe4.0协议,而X86 CPU只支持到PCIe3.0;POWER9原生支持NVLink2.0协议,保证CPU和I/O之间高带宽,以满足核心数据库等高性能负载应用的需求,对DB2、Oracle、SPARC等核心数据库应用系统都可提升两倍以上性能,开源数据库也有两倍以上性能提升。在资源的整合方面,K1 Power服务器可以在一台服务器上通过分区的形式满足更多应用需求,整机硬件负载效率高、使用效率高、资源整合能力强;而X86服务器更多是一台服务器承载一个应用,再通过服务器集群满足不同的应用,单机负载效率并不高。

在高可靠方面,K1 Power不但保证强大的性能,更看重整个系统的长期高可靠性。这就是通常所说的RAS(可靠性、可用性、自诊断)设计理念:与X86不同,K1 Power服务器增强了硬件的冗余设计,采用了外带独立的故障服务处理器,以及从部件、系统、测试、散热等各个方面严格、高标准的测试,以保证整个系统的高可靠。冗余设计是K1 Power服务器的一大特色,主要从时间冗余、空间冗余和信息冗余三个维度实现了容错服务器。

除了冗余外,错误捕获是保障长期稳定可靠的必要部件,一旦捕获故障就可以立即隔离并修复,整个K1 Power服务有多达16万个故障检查器,遍布系统各个方面以实时监测系统运行状态。K1 Power服务器的首错数据捕获机制FFDC(First Failure Data Capture),可以在设计阶段进行各类错误模拟,在实际运行阶段进行错误捕获,在维护阶段对所有可能产生的错误提前预警、备案和处理。K1 Power服务器在软件层面提供纠错机制,包括内存和缓存的纠错机制,对于没有纠错机制的部件则提供重试机制,也就是有些偶发故障可能出现一次但不一定是真正的故障,则通过重试来判断是否为真故障,内存控制器和指令集的重试机制也是K1 Power服务器特有功能。对于发生的故障,K1 Power服务能做到更细腻度的隔离与修复,例如X86处理器在内部某个区域或者某个功能故障后整个CPU就宕掉了,而POWER9处理器可以做到CPU内部某个核心故障就单独把这个核心隔离出去,整个处理器还能继续工作,对于内存模块或者是逻辑内存块也能做到故障的捕获、隔离和修复。

通过全栈式的可靠保障,包括整个RAS冗余、基于FSP的故障检测隔离机制以及在线修复更新等纠错机制,K1 Power系统在物理可靠性方面做到:可抗震、扩低温、抗粒子干扰;系统时钟、OSP、FSP、PSU、Fan风扇、Cable线缆等冗余;以及电源与散热OCC等散热可靠性;在软错误方面则能处理服务器处理器校验、MEM循环校验及冗余、I/O总线冗余、HDD冗余和RAID、Hyervisor虚拟机冗余、操作系统高可用以及灾备等。

在高品质方面,K1 Power服务器则提供高达40层主板设计、高效散热设计、高品质和长寿命器件及部件、精确设计与仿真、高标准检测、全面认证和检测等保证。其中,在高品质部件方面,整个K1 Power系统底层,从元器件和部件选型的层级都采用更高标准,例如:电阻采用了更严苛环境测试下、远超7年设计寿命的抗硫化电阻,从而提高电阻本身的寿命和可靠性;风扇是铝制框设计,通常X86服务器都是塑料框体,而铝框设计增加了整体可靠性,特别是增加自重以获得更好的系统减震效果,因为震动也会极大影响系统性能和运行的可靠,同时稳定的自身散热系统能够提升导热效率,在硫化环境下能避免老化,这样就能在风扇工作周期内大幅减少故障概率,让风扇达到甚至超过22年的设计使用寿命。

仿真对于K1 Power服务器的设计也很重要,K1 Power服务器的研发阶段周期很长,通过大量仿真工作把各种可能的风险在设计阶段规避掉。在系统高精度仿真方面,K1 Power服务器在设计阶段就进行了:结构仿真,模仿静态、形变、动态跌落和冲击等对系统的影响;散热仿真则建立精度更高、粒度更细的散热仿真模型,仿真各种可能影响散热的因素,保障在各种条件下散热的稳定性;高速信号以及电源信号仿真,在仿真阶段提前分析风险,采取优化措施规避风险,确保信号传输质量和抗干扰能力。

K1 Power服务器还采用了更高标准的检测和测试,例如在生产测试上测试的老化时间更长、达到了48小时,而普通的X86服务器的老化时间测试是6到8小时。Power服务器在出厂之前要求每台服务器都要做到全检测,而且要求检测的测试项要做到100%,相比许多X86服务器出厂前主要为抽检模式。K1 Power服务器经历的是全自动化测试脚本的执行,即为了规避手动测试偶发故障产生的可能。在K1 Power服务器自研部件的引入过程中,还对自研部件进行阶段性测试和整机测试,以保障自研部件质量和性能达到业界最高标准。对一些核心部件,还会增加特殊测试以保障部件的高可靠性,例如PCB板的热冲击测试是急剧升温维持一段时间后再降温,而X86测试曲线则是缓慢升温后再降温。

在高安全方面,因为K1 Power服务器主要是满足核心数据库和核心应用,对安全性的考虑与X86服务器相比也有特殊的考虑。K1 Power服务器不会依赖于操作系统层面的安全性来保障机器或系统的安全性,而是在更底层技术层面做安全加固,例如在部件层通过全自主开发的部件来保证整个系统的稳定,K1 Power服务器所有部件的维护都需要通过认证,随便外插部件不会被识别,而必须经过认证的安全机制。当然,浪潮商用机器自研的K-UX操作系统是全球五大通过UNIX认证的操作系统之一, K-UX本身也是通过安全认证的可信操作系统,还会通过自研的操作系统安全加固模块,保证操作系统层面系统级安全可靠。

浪潮商用机器有限公司产品研发部副总经理尹宏伟表示,K1 Power服务器从很多维度保证了系统的安全可靠和高性能,而大量的研发工作难以从外部直接感知,只有在产品运行很长时间之后才能发现高可用、高可靠、高品质、高安全的服务器与普通服务器的差距。

K1 Power服务器的自研挑战



K1 Power作为国产自研的高端关键应用服务器,在产品设计、生产和制造方面的故事可以说举不胜举,前面已经提及高可用、高可靠、高品质和高安全,而在这四个领域的每个领域都可以深入再详细展开诸多细节设计。以下从几个关键细节的深入了解,即可知道为什么关键应用服务器是国家级战略科技重点。

首先,冗余是K1 Power服务器的一大特色,也极具挑战。在空间冗余方面,K1 Power服务器通过VRM虚拟资源管理实现了DRAM芯片冗余,而在多级CPU之间的I/O通信则采用了总线冗余,CPU与DRAM之间则为内存总线冗余,此外还有I/O控制器、I/O柜、I/O柜链路、电源、SMP线缆、FSP模块等多种关键部件、路径等的冗余。例如,电源的稳压模块做到了N+2冗余设计,相当于有多套变压器把系统12伏电压分给板机的各个元器件使用,而X86则是一套变压器。

在时间冗余方面,K1 Power服务器的每个系统控制单元中有两个冗余的时钟卡,通过线缆对系统提供冗余的时钟,当任意一个时钟卡出现故障时,另一组时钟可以无缝切换保持系统稳定运行。在电源时序控制信号冗余方面,对Enable、Power good等信号进行了冗余设计,实现更加可靠的电源开关控制。这里要强调的是,系统时钟冗余本身是一个小概率事件,对于X86服务器的设计没有必要这样做,但是K1 Power服务器对可靠性的要求特别高,所以即使是系统时钟这种极小概率故障也要做到冗余。加上电源持续信号控制冗余,说明K1 Power服务器系统对小电路或者器件的设计都要做到冗余,确保万无一失。

在信息冗余方面,例如Power服务器的校验数据很多,当一部分校验数据无法读出时,可以通过校验计算恢复回来。

总体来说,K1 Power服务器承载的都是高价值业务,而当服务器系统规模增大之后半导体失效是必然的,怎样把失效控制在局部范围并且能够在线地修复,这是K1 Power服务器设计耗费大量设计时间和精力所在,也是K1 Power服务器RAS的精华所在。与实现计算和存储等功能相比,K1 Power服务器的RAS设计工作量更大。例如捕获故障再隔离出来就非常困难,一方面要从硬件芯片角度能处理,另一方面从板机到系统、操作系统固件、操作系统BIOS等都需要与操作系统同时实现,还要在操作系统加入更有针对性的内核驱动去处理这些故障。

浪潮商用机器有限公司副总经理黄家明表示,设计一台服务器实现计算、存储等功能,本身不是太大问题,但是如何处理必然的失效,其实体现了K1 Power服务器与X86服务器的巨大不同,其中也蕴含着巨大的工作量,这些工作量也不是一个部门、一个团队就能处理的,需要专门面向高可靠性设计的团队联合在一起来实现,这也是最困难的一部分。

其次,40层主板的设计。为什么K1 Power服务器要做40层主板设计?因为Power的信号都是高速信号,高速信号对信号之间的干扰更敏感。为了完全隔绝高速信号相互的影响,保证高速信号的完整性,要做到每两层信号之间都是有一个D层,总体板机层数就特别高,而X86服务器通常是表面和底层为D层,中间都是多层信号。除了工艺的挑战之外,K1 Power服务器也经过了更严苛的板机测试,以保障出货的良品率。因为要挑战新工艺,不可避免的是良品率的降低,但可以通过技术手段来保障整个成品的良品率。

第三是高效散热的设计。整个K1 Power服务器系统很复杂,包括了各类的元器件。系统可靠性与热量密切相关,散热是影响系统可靠性的一个重要指标。K1 Power服务器用更高效的散热设计和更高效的散热管理,从散热角度提升整个系统的可靠性。例如在导热材质方面,X86在CPU和散热器之间采用的是导热膏,而K1 Power服务器采用的是铟片。为什么选铟片?因为铟片的稳定性和可靠性。导热膏可能一年之后就挥发了,性能会逐渐下降,而金属铟片可长期运行,对可靠性是极大的保障。K1 Power服务器系统对热的管理采用了动态分区散热控制技术,这种动态、智能化的散热控制,提高了散热的效率,也保障了CPU等元器件工作在舒适的温度里,从而提高器件的寿命。

第四是安全。K1 Power能保持系统一致性,不被篡改。在Secure Boot模式中,X86服务器通常可以用U盘引导服务器启动,引导启动后就可以把硬盘拷贝走,而K1 Power服务器的每一个部件都有类似于可信计算的模式,部件的指纹信息在TPM芯片里面已经内置好,如果更换的部件或者硬盘不在指纹库里,就无法通过该部件引导系统重启。也就是说,虽然K1 Power服务器可以使用标准的商业部件,但也要刷入key、指纹信息等,从系统部件角度保证安全性。这样,即使固件被篡改过,例如从网站下载一个固件再修改,就无法通过K1 Power服务器的认证了,因为整个固件是经过校验过且校验信息是在工厂模式时写进去的,在使用用户模式下无法修改,从而避免恶意软件直接被内置到系统固件层面。

第五是K1 Power供应链整合了原先浪潮K1的供应链以及IBM供应链。例如工艺管控方面包括热冲击实验管控就从国内测试转到IBM实验室测试。本身K1 Power的PCB热冲击实验是交由国内顶级实验室,开始的时候实验室认为浪潮X86服务器都可以测试,K1 Power服务器也没有问题,结果K1 Power服务器要求产品温度在一分钟之内上升到300多度,接近玻璃融化温度,而且要保持两分钟再降温,然后一直做循环,结果几次测试后对方领导说再做的话测试机器就废了,于是转由IBM实验室提供测试服务。

此外,在板机的生产和设计等方面,实际上X86极致的设计能力已经很强了,因为X86本身是成本敏感型的设计,要求板层减到最少的同时保证稳定性,对布线的能力和要求都有提升。K1 Power服务器在设计的时候,也会引入原来在X86大规模环境下验证过的设计,然后再增加新工艺、新材料。不同的K1 Power服务器产品体现了不同的自研程度,比如E950 4路和E924 2路服务器就体现了更多浪潮的设计,基本上重新设计了。浪潮商用机器希望从用户端和客户端保持K1和Power的口碑,在继承IBM Power设计的同时,更多地融入浪潮原先K1的设计经验和实践。

浪潮商用机器有限公司产品营销部总经理江豫京介绍,浪潮商用机器的产品线总体来说分为两大品牌和两大产品线:两大品牌是K1 Power与Inspur Power,两大产品线为纵向扩展(Scale up)、横向扩展(Scale out),其中K1 Power为基于POWER9芯片的机器,而Inspur Power则为基于OpenPOWER9芯片的机器。除了E950和E980以外,其它所有机型都为横向扩展产品线。目前,浪潮商用机器在国内非X86的小型机市场占有率达到了65%,获得了市场的认可。在关键应用场景下面,K1 Power有很好的纵向扩展性能,能够承载大量业务并发情况;对于新兴业务场景,包括分布式存储、大数据、AI等,Power服务器也有其优势。

整体来说,2020年是私有云和混合云的大年,不少企业级应用从公共云回归到企业本地部署,而K1 Power服务器系列及虚拟化和云化解决方案,在一个芯片架构下就可实现从物理机到多云/混合云的多种云平台形态,满足企业纵向(核心应用)和横向(云化应用)的扩展需求,这为K1 Power和Inspur Power服务器在混合云时代提供了广阔的市场空间,而浪潮商用机器则演绎着新时代的“聚沙成塔”。(文/宁川)

标签: #企业用云服务器