服务器 频道

NVIDIA再放“大招”,拓宽高性能计算边界

  【IT168 资讯】11月19日,在丹佛2019全球超级计算大会(SC19)上,NVIDIA创始人兼首席执行官黄仁勋进行了主题演讲,并宣布了NVIDIA在高性能计算领域的最新动态与成果。这些成果表明,NVIDIA正在将自身能力赋能给更多生态伙伴,推进高性能计算领域的全面发展,同时帮助人工智能专家、数据科学家更高效地开展工作。

  在数字经济时代,计算力已成为支撑各领域发展与转型的重要基石,在许多科研应用以及商业场景中已不可或缺。“高性能计算领域正在同时朝各个方向扩展。实际上,高性能计算已无处不在,比如超级计算中心、云和边缘等。”黄仁勋在演讲中表示:“所有这一切都在发生巨变。”

  高性能计算的飞速发展与应用普及,为更多领域带来了巨大的动能。对于NVIDIA来说,其围绕GPU而展开的一系列软硬件创新以及生态合作,让我们看到了NVIDIA深耕在高性能计算领域的实力与决心。

  新的参考设计平台:为Arm服务器提供GPU加速

  在SC19上,NVIDIA发布了一款参考设计平台,使企业能够快速构建GPU加速的Arm服务器,以满足日益多样化的科学和工业应用需求。该平台由硬件和软件基础模块组成,能够满足高性能计算(HPC)社区对于类型更加多样化的CPU架构日益增长的需求。通过该平台,超级计算中心、超大型云运营商和企业能够将NVIDIA加速计算平台的优势与最新的Arm服务器平台相结合。

  为了构建这一参考平台,NVIDIA与Arm及其生态合作伙伴(包括Ampere、富士通和Marvell)联手,以确保NVIDIA GPU与Arm处理器之间的无缝协作。该参考平台还得益于与HPE旗下公司Cray和HPE这两家早期采用Arm服务器的供应商之间的紧密合作。此外,许多高性能计算软件公司已使用NVIDIA CUDA-X库来构建可在Arm服务器上运行、并可通过GPU实现的管理和监控工具。

  黄仁勋表示:“高性能计算正在崛起。机器学习和AI领域的突破正在重新定义科学研究方法,并且可能带来激动人心的新架构。从超大规模云到百万兆级超级计算,NVIDIA GPU与ARM的组合让创新者们能够为不断增加的新应用创建系统。”

  发布云上GPU超算:让每位科学家都能拥有一台超级计算机

  会上,NVIDIA还发布了在Microsoft Azure云上的一种新型GPU加速超级计算机。此次发布的全新NDv2实例是Azure上规模最大的一次部署,该产品专为处理要求苛刻的AI和高性能计算应用而设计,是全球速度最快的超级计算机之一。它能在一个Mellanox InfiniBand后端网络上提供多达800个互联的NVIDIA V100 Tensor Core GPU。

  这是首次用户可以根据需求,在自己的桌面上租用整台AI超级计算机,而且其性能与那些需要数个月时间才能完成部署的大型本地超级计算机相匹配。

  这款新产品十分适用于复杂的AI、机器学习和高性能计算工作负载。相比基于CPU的传统计算,它具有显著的性能和成本优势。对于需要快速解决方案的AI研究人员来说,它可以快速启动多个NDv2实例,并在短短几小时内完成复杂的会话式AI模型的训练。

  此前,微软和NVIDIA的工程师已在该集群的预览版本上使用64个NDv2实例进行了实验。他们用了约三小时完成了BERT会话式AI模型的训练。能够实现这一速度的原因之一是使用了NCCL(一款NVIDIA CUDA X库)提供的多GPU优化以及高速Mellanox 互联解决方案。

  另一个优点是客户可以使用多个NDv2实例运行复杂的高性能计算工作负载,比如LAMMPS,这是一种流行的分子动力学应用程序,用于在药物开发和探索等领域中模拟原子级物质。相比于一个专用于特定应用程序(如深度学习)的、未使用GPU的 HPC计算节点,单个NDv2实例就能实现高达一个数量级的速度提升。如果需要进行大规模的模拟,还可以将这一性能线性扩展至一百个实例。

  所有NDv2实例都能够受益于NVIDIA NGC容器注册表和Azure Marketplace中所提供的TensorFlow、PyTorch和MXNet等GPU优化高性能计算应用、机器学习软件及深度学习框架。该注册表还提供Helm图表,让用户在Kubernetes集群上可以轻松地部署AI软件。

  全新软件套件,将数据移动时间从数小时缩短至几分钟

  另外一项重磅发布是NVIDIA Magnum IO软件套件。该产品让数据科学家及AI和高性能计算研究者可以在数分钟内处理好以往需要数小时才能处理完毕的海量数据。

  Magnum IO专为解决存储和输入/输出(I/O)遇到瓶颈这一问题进行了优化。优化之后,执行财务分析、气候建模等复杂的、需要处理大量数据集的高性能计算工作负载时,多服务器、多GPU计算节点的数据处理速度比之前提高了20倍。

  Magnum IO是NVIDIA与众多网络和存储行业领导企业(包括DataDirect Networks、Excelero、IBM、Mellanox和WekaIO)密切合作的成果。

  Magnum IO的核心是GPUDirect Storage。它提供了一条连通GPU内存和存储的直接数据路径,使数据能够绕过CPU,在由GPU、存储和网络设备提供的“开放式高速公路”上快速传输,快速访问用于模拟、分析或可视化的数据文件。GPUDirect Storage由点对点和RDMA组件组成,兼容多种通信互联产品与API,包括NVIDIA NVLink和NCCL以及OpenMPI和UCX。

  NVIDIA Magnum IO软件现已上市,但GPUDirect Storage仅为部分用户提供了早期访问权限。NVIDIA计划在2020年上半年向所有客户提供GPUDirect Storage。

  NVIDIA与高性能计算

  随着数据的增长,以及对数据价值的不断挖掘,高性能计算拥有广阔的发展与应用前景。自从开始布局高性能计算领域以后,我们可以看到,NVIDIA就持续扮演着行业赋能者与驱动者的角色,通过聚集生态的力量,不断为整个高性能计算领域的良性发展提供助力,为更多高性能计算的用户带来便利。此次NVIDIA在SC19上的发布,再次印证了这一点。

0
相关文章