一台服务器,要经历多少打磨与雕琢,方能抵达客户?
因果相承,已是全球第二、中国市场第一的浪潮服务器,耀眼成绩的背后有着怎样的努力和坚持?
高品质的代名词,何以得来?
满足客户需求,一句说易行难的行业口头禅,要如何做到的?
浪潮信息边缘计算产品总设计师孙波,讲述关于服务器诞生的那些事……
视频https://haokan.baidu.com/v?pd=bjh_app&vid=5706178650990524594
小风扇,大学问
随着业务负载的激增,服务器计算、存储的性能也在不断提升,CPU、GPU等部件功耗快速攀升,比如CPU最大功耗从原来的150瓦提升到200瓦、250瓦甚至300瓦,服务器内部热量疏导面临巨大挑战,散热风扇的转速从每分钟1万转提升到2万转,甚至达到3万转。但对于高精密度的服务器来说,看似简单的风扇转速提升可能会产生一系列复杂影响,就像气象学家提出的“蝴蝶效应”——亚马逊流域的一只蝴蝶扇动翅膀,可能会掀起密西西比河流域的一场风暴。
因此,散热仿真成为服务器设计中很重要的一环,他决定着在不同业务负载中,如何为整个系统提供最合适的温度环境,以保证计算、存储发挥最佳实力。但就在日常的散热仿真中,工程师发现风扇随着转速提升,吹出来的风流实际上会有湍流效应,也就是说风并非平稳的沿着直线流动,而是旋转着往前走,数个风扇之间的风流就会“打架”、产生“乱流”,造成内部气流、部件的振动。如何解决该问题呢?
这需要机箱结构方面,对风扇进风口的风流、风道,进行约束、整流。浪潮信息在其新一代产品M6系列服务器之上,新增“波导网”设计——当风流通过这个六边形蜂窝状波导网时,旋转的湍流被切割成平流,为整个空间提供平行稳定且强劲的气流。
这一巧思收益显著,不仅大幅降低因为空气扰动带来的振动,还提升了17%~22%散热效率。
另外还有一些设计,比如将硬盘悬浮使其与机箱软连接,缓冲、吸收振动,以及加装吸音棉来减少振动及噪音。
服务器,是一类成熟已久的产品形态,其架构、组件、搭配、布局等诸多环节经过几十年的发展,业已定型。可供研发人员施展的空间,更多的是在细节——基于“大处着眼、小处着手”,浪潮信息工程师从细节入手,发挥创新及工匠精神,力求做到精益求精。
大机柜,大动作
风扇紧随硬盘,是业内通行的做法。硬盘自身的振动和风扇转速提高带来的振动,对硬盘的损伤极大,导致故障发生,两者叠加带来的影响更是明显。
如果将风扇移至到服务器机柜的后端呢?浪潮整机柜服务器就采用了这样的结构,将风扇移至机柜的最后部,拉远与硬盘的距离,而和机柜柜体形成了一个整体。相比风扇,机柜的体量巨大,两者的振动叠加实际上起到了“削峰填谷”的功效。此振动再传到硬盘之时,就已经有了大幅降低。
“如此设计的效果明显,相比传统的服务器结构,硬盘故障率下降了将近一个数量级。”
事实上,这样的设计并非是简单的移位而已,既定的服务器电源、硬盘、存储等内部结构需要重新规划,其间的组件需要重新布局,是牵一发而动全身的大动作。
不仅仅是产品设计的“大动作”,全新结构的整机柜服务器还要考虑如何保障运输过程中不受道路颠簸的振动影响。因此测试工程师在货车轮轴、车体、服务器机柜柜体及节点、硬盘、内存,以及机柜的木托,几乎所有会受到振动的位置都安装传感器,驱车从济南出发到杭州千岛湖,又北上一直到内蒙古,全程奔袭约三千公里,为的就是抓取沿途所有的振动信息,形成基于路谱的振动测试数据样本,以此路谱测试而形成服务器机柜测试的标准和规范。
同时,此标准和规范还要更严格于路谱测试中取得的数值,从而保证机柜成品在运输及交付过程中万无一失。
尽管如上文所言,服务器这种成熟型产品给予研发的施展空间有限,但浪潮信息似乎未曾受此制约,敢让旧貌换新颜,其创造力颠覆了业界规则,重新定义了IDC,将整机柜作为大规模数据中心部署的“积木”。如今,不断升级的整机柜形态的服务器成为近50%的大规模数据中心的主流形态。
从数据中心到边缘,服务器开始防水、防尘、耐高温
相比通用服务器,边缘计算对服务器的要求更高。其部署场景从“条件优越”的数据中心迁移至沙漠戈壁、江河湖海、东北油田等“极端恶劣”的场景要承受风沙、雨水、酷热、严寒等多重考验。
比如在户外场景中,服务器难免会遇到雨水淋浸,如果密封性不达标,雨水通过缝隙渗到电子元器件或者PCB板上,极易引起元器件短路甚至设备报废。针对这样的使用环境,工程师要进行防水防尘实验,并优化服务器内部散热结构,以保障无论是高温、暴雨还是风沙、极寒的恶劣户外环境中依然可以稳定运行。
比如路边的信号控制箱,由于箱体内没有散热装置,一些简单的通风孔因避免雨水进入而将出口设置为朝下,热气流很难排出,所以当外界温度达到40℃时,箱体内部会远远高于这一数字——相应的,浪潮边缘服务器要求支持到65℃甚至70℃的高温。
无空想不臆断,一切结论来源于实践,取自于真实需求。
品质的守门员
以上案例,只是在“浪潮澎湃实验室”进行过的几个小片段,窥斑见豹,这样的场景在此地时时上演、发生着。
在澎湃实验室里,拥有包括气候环境、机械环境、结构散热、电磁兼容、系统验证、精密测量、失效分析和数据中心等实验室,涵盖服务器创新技术预研、产品部件验证、新品定型、出厂质量检测等一系列测试环节。
同时,其间的每一项测试,都有着细致的流程及管控措施。
浪潮每年研发两三百款产品,据统计,每一款产品在出厂前都会经过超2000次的测试,涵盖30余种极限测试——毫无疑问,“浪潮澎湃实验室”严苛的研发标准和测试机制,保障着服务器产品的高品质。
高标准严要求
值得特别指出的是,针对一些具有国标的产品线,需要在国标基础上再额外提高标准。例如通用服务器,其国标要求是在35℃高温下持续运行两小时,而在澎湃实验室里会将此标准做进一步的细化和加严测试——在高温高湿和高温低湿环境下将温度上提至40℃,持续运行16小时甚至24小时。
而针对一些暂时没有国标或者新产品,需要积极摸索、提炼其测试标准,这个从零到一的过程,实际上更多源于经验和测试手段总结而来。前文提到的,边缘服务器支持65℃甚至70℃高温,即是一例证。
无论有无国标,工程师都会按照业界实际使用的环境、应用场景来不断打磨其产品,并提高标准,即“高标准严要求”。
在遵循并超越标准的同时,浪潮信息还积极参与制定标准。
截至目前,浪潮信息牵头和参与标准制修订99项,其中国际标准8项,国行标79项;在服务器领域,牵头和参与标准制修订11项,其中国际标准1项,国行标8项;牵头制修订的5项服务器国家标准已发布,其中GB/T 39680-2020《信息安全技术—服务器安全技术要求和测评准则》,适用于服务器的研制、生产、维护和测评。
围绕着服务器做足文章,浪潮对此不遗余力。
联合定制开发
不仅如此,浪潮首创的JDM(Joint Design Manufacture,联合设计开发制造)模式,也正在凸显出惊人的爆发力。
而今,客户需求的差异化愈加明显,需要服务器产品在品类、功能和配置等更加丰富、多样。特别是边缘服务器,面对的应用场景千差万别,连接的设备五花八门,都极具“个性”。
如何做到模块化设计,将个性需求“产品化”?在保证高品质的前提下,如何进行快速迭代、缩短交付周期?如何将计算、AI、网络处理、接口等功能单元独立出来,并可以灵活地按需组合?……
JDM就是浪潮正在推行并取得显著成效的“方法论”——从其具备的五项要素及特点,就可看出这一模式具有的优越性,即共同挖掘需求、协同研发、产品管控、供应链对接、全球交付与服务。
归结到底,JDM模式即是“联合定制开发”的理念:从产品立项研发之时,客户就深度参与,双方紧抓实际需求予以产品定制,并将定制这一核心理念贯穿于产品全生命周期。
近几年,浪潮先后与阿里、百度、腾讯、京东、网易等客户进行了JDM合作,在AI、边缘、云计算领域联合创新。
系出“澎湃”
研发及测试工作,从来都不是脑洞大开、灵感乍现、一蹴而就,而是无数的测试、纷繁的数据、反复地打磨、辛勤的日与夜……也唯有“精益求精”一词来描述。
自1993年推出首款服务器,近30年心无旁骛,积跬步致千里,浪潮信息的成功实属必然,夺得全球第二即是市场对其授予的军功章——之上,亦有“澎湃”之名……