GPU-AI服务器选型浪潮这款密度做到全球先进-服务器专区

GPU-AI服务器选型浪潮这款密度做到全球先进

作者：谢涛编辑：谢涛 2017-08-16 15:11 IT168网站原创

　　【IT168 评论】在很久很久以前(其实也就五六年前)，GPU还只是装在显卡里，用于游戏视觉、图像渲染。那个时候，机器学习计算使用的还是通用性更好、更普遍的CPU。但随着技术及应用的不断发展，大家发现CPU的计算能力已经无法满足机器学习超大的运算量需求。于是，几乎所有目光都转向了，计算能力更强的GPU。作为“专用型”处理器，GPU的优势就体现在这里——研发人员可以专注于提升它的性能，而无需考虑通用性的问题。单就计算能力而言，GPU可达到CPU的几十上百倍。

　　人工智能的核心是机器学习，使计算机具有智能的根本途径也是机器学习。图像识别、自然语言处理、医疗诊断、市场分析、故障检测……机器学习的应用已经十分广泛，因此为其提供计算能力的GPU自然也成了市场上的“香饽饽”。GPU领导者英伟达的股价更是因此大幅上涨，自2016年1月起，从29美元左右狂飙至160美元以上——涨幅超过570%。

　　AI的浪潮拍打的不只是GPU这片沙滩，更是整个服务器产业链的发展。在处理器厂商们纷纷推出主打AI计算产品的同时，处于下游的服务器厂商们也相继推出了专为AI而设计的、搭载GPU的服务器。

　　这次我们就来聊一聊各大服务器厂商所推出的更具代表性的“GPU-AI服务器”，而今天我们首先要谈到的是浪潮公司在7月中旬推出的M5系列成员——NF5288M5服务器，目前全球密度最高，2U空间内配置8个GPU。数据中心的空间资源是非常宝贵的，而AI训练也需要超高的计算能力，拥有更高的密度，就意味着在同样空间下能够获得更高的计算能力。

　　NF5288M5由浪潮与英伟达联合研发，可更换模组，支持基于NVIDIA NVLink技术的Tesla P100和基于PCIe 3.0接口的TeslaP40 GPU，同时也支持10种GPU拓扑配置，以应对多种深度学习和HPC应用场景。

　　在此基础上，该产品也支持纵横双向扩展。GPU纵向扩展，双路系统最大支持16个GPU;单节点支持4*100G可远程内存直接访问的高速网络，为横向扩展优化。

　　值得一提的是，当前多数AI训练中通常会采用CPU+GPU异构计算架构，即CPU下发训练指令，GPU则进行计算，并将结果反馈给CPU。这种架构下，CPU和GPU分担着不同的任务，但同时也有一定的缺点，就是两者之间互相通讯的问题，往往需要花费大量时间，对整个计算架构的效率产生影响。

▲浪潮NF5288M5服务器

　　浪潮NF5288M5则放弃了传统异构架构，在不通过CPU的前提下，可实现机内点到点通讯，减少了通讯耗时。同时，采用NVIDIA最新的Tesla系列GPU，可实现GPU之间高达300 GB/s的互联带宽，多块GPU并行效率提升60%以上。NF5288M5采用PCIe线缆的方式连接CPU和GPU，可对CPU的连接带宽和数量进行灵活调整，在不同的AI训练中，将PCIe资源进行按需分配。其计算架构可以让一颗或两颗CPU管理8颗GPU，该产品搭载的是2个英特尔至强可扩展处理器。

　　在电源及散热方面，由于搭载了8个功耗达300W的GPU，再加上其他的存储计算等资源，浪潮NF5288M5整机功耗达到3000W，其峰值发热量6倍于传统2U服务器。因此在设计之初，如何更好地实现散热就成为了非常重要的问题。此服务器支持冗余热插拔系统风扇及风冷/液冷混合冷却方式，风冷散热可支持35°环温，GPU部分可选提供液冷散热，可在更低PUE要求的数据中心环境中工作。

　　总结：对于机器学习，特别是深度学习而言，其计算平台往往需要极高的计算力和平台弹性。计算力自然不用多说，为提升准确率，模型训练通常需要对数十万个样本进行十万级以上的训练迭代，训练量、计算量是非常庞大的。至于平台弹性的需求，则出于目前世面上的多种AI框架。不同的框架包含不同的模型和算法，产生不同规模的数据，训练场景会变得十分多样化。与此同时，结合数据中心空间资源的重要性，也产生了对产品密度的需求。

　　从以上的介绍中我们能看到，号称“目前全球密度最高”的浪潮NF5288M5，其优势可以说不止是在密度方面。搭载NVIDIA最新Tesla系列GPU，且另辟蹊径般地选择同构计算架构，因此在计算力及效率方面是可圈可点的。而在弹性方面，该产品的设计也让人眼前一亮——可更换模组，支持10种GPU拓扑配置，同时支持双向扩展——“弹性十足”。

　　因此，作为一款主打AI计算的服务器，浪潮NF5288M5在各方面的表现都算优秀，在浪潮AI服务器系列产品中，更具代表性。

关注我们

GPU-AI服务器选型 浪潮这款密度做到全球先进

GPU-AI服务器选型浪潮这款密度做到全球先进