服务器 频道

HPC CHINA 2019:面向E级计算时代的HPC/AI协同设计

  蓝天飘白云,牧场奶茶香。蒙古大营雄风在,琴声传远方。骑马又滑沙,豪饮河套王。敖包相会歌一曲,笑发少年狂。

  中国一年一度高性能计算领域的盛会——全国高性能计算学术年会(HPC CHINA 2019)在内蒙古呼和浩特盛大开幕!

  本届大会由中国计算机学会主办,中国计算机学会高性能计算专业委员会、内蒙古和林格尔新区管理委员会、清华大学和内蒙古大学共同承办,北京并行科技股份有限公司协办。以“计算 见智 赢未来”为主题,聚焦E级计算机研制挑战、HPC重大应用等主题展开,汇聚业界前沿学术与应用动态。

  此次大会,行业各界顶级人才齐聚一堂,共同探讨HPC系统在大数据、人工智能、E级计算、航空航天等领域的应用趋势和融合发展。参会人数超过2500名,参展科研院所及企业50余家,特邀报告及主题演讲总共21场,论坛会议将近50场。

  如今,HPC和AI系统正在由以CPU为核心向以数据为核心转变,CPU/GPU计算、网络计算和存储计算的协同设计将会是通往E级高性能HPC和AI计算中心的必经之路。网络和存储正在变成分布式的CPU和分布式的内存,成为分布式计算单元的一部分。这个转型解决了旧的HPC和AI系统存在的瓶颈问题,为实现更高性能及更大规模的系统提供了新的思路和方案。

  在本届大会上,由国际高性能咨询委员会组织的“面向E级计算时代的HPC/AI协同设计”的专场论坛邀请到了国内外的顶级公司来分享他们在由CPU为核心向以数据为核心转变过程中的心得和体会,以及他们如何利用他们的创新技术来应对转型过程中的各种挑战。

  首先是国际高性能计算和人工智能咨询委员会主席Gilad Shainer为我们带来了开场致辞。他介绍了目前国际高性能计算的发展情况,并表示HPC和AI采用相似的技术以及基础架构,在高校、研究型实验室和商业机构中发挥着重要作用。HPC和AI技术能够帮助它们开发面向未来的产品和服务,进而改善人们的生活。

  国际高性能计算和人工智能咨询委员会主席Gilad Shainer

  接下来由中国科学院计算机技术研究所研究员、国家超级计算济南中心主任张云泉为我们分享了中国高性能计算力分析,表示高性能计算已经进入了大数据、超算、云计算和人工智能融合创新的算力经济时代。

  张老师带来了四大观察:观察一:虚拟化云计算向高性能容器云计算的演进;观察二:大数据与并行计算、机器学习的融合创新;观察三:大数据与机器学习和并行计算的融合创新;观察四:高性能计算与人工智能的融合创新。

  中国科学院计算机技术研究所研究员、国家超级计算济南中心主任张云泉

  我们得出超级计算的新应用:算力经济。随着超级计算技术的普及和成本大幅降低,其应用领域也从具有国家战略意义的核武器研制、信息安全和高冷的科学计算领域向更广泛的国民经济主战场快速扩张,近几年其速度和应用出人预料。

  在本场论坛中,来自AMD、Mellanox、焱融云、华为、清华同方等众多著名公司的代表纷纷登台,畅所欲言中国的HPC发展。

  来自AMD中国区商用事业部服务器产品架构师唐峰进行了题为《通往最强超算的“罗马大道”》的报告。

  AMD中国区商用事业部服务器产品架构师唐峰

  据介绍,美国旧金山时间8月7日,AMD正式发布了第二代AMD EPYC(霄龙)系列处理器,第二代AMD EPYC处理器最高搭载64颗采用前沿的7nm制造工艺的“Zen 2”核心,带来了创纪录的性能表现,在多种工作负载下最高能将总体拥有成本(TCO)降低50%.

  对于高性能计算领域,第二代AMD EPYC处理器提供了一个组合,包括:创纪录的浮点性能,同类产品最高的DRAM内存和I/O带宽,以实现超强的HPC负载;高达2倍的计算流体力学性能,以及最高可提升72%的结构分析性能。

  在安全性方面,第二代AMD EPYC处理器提供了“硬核”芯片级嵌入式安全子系统,以及安全内存加密和安全加密虚拟化等高级安全功能,帮助客户保护他们最重要的资产和数据。

  来自Mellanox技术市场总监冯高锋进行了题为《面向高性能E级机的关键-网络计算技术》的报告。在以数据为中心的时代,我们的计算架构也需要变革,由此而诞生了各种新的计算技术,如网络计算(In-Network Computing)、存储计算等。

  Mellanox技术市场总监冯高锋

  网络计算,是相对于CPU计算而言的。顾名思义,就是利用网络来代替CPU处理某些计算工作,让CPU的计算效率变得更高。通过网络计算不仅可以解决通信瓶颈的问题,还可以将CPU和GPU的资源释放出来,让应用获得更多的计算资源,从整体应用的性能上得以提升。

  作为端到端的网络设备提供商,Mellanox不光提供InfiniBand和以太网互连解决方案,还将网络计算融入到自身的产品和方案中,实现无缝集成,通过将各种通信相关的计算从CPU卸载到网络中来,提升计算效率,帮助企业应对数据挑战。

  HPC是Mellanox的传统领域,但是现在HPC和AI呈现了融合趋势,人工智能也被Mellanox锁定为今后的重点领域。中国有很多合作伙伴正在使用Mellanox的InfiniBand和以太网高速网络解决方案在实现深度学习或人工智能等技术。

  接下来是来自焱融云产品总监黎俊鸿带来了题为《基于YRCloudFile的AI基础架构》的分享。焱融云是一家以软件定义存储技术为核心竞争力的高新技术企业,针对各行业业务特性,打造个性化行业解决方案,提供一站式的产品与服务。

  焱融云产品总监黎俊鸿

  基于自研的分布式软件定义存储产品,焱融云为用户提供了高效稳定的存储服务,保护用户投资。YRCloudFile是一款软件定义的高性能分布式文件系统,YRCloudFile元数据集群可扩展,支持百亿级海量文件,YRCloudFile的智能分层功能,可对接第三方对象存储,将冷数据自动迁移至对象存储层中,上层应用仍使用文件访问接口,应用对数据分层无感知,智能分层实现了对数据生命周期的高效管理。

  在传统高性能计算( HPC )、生命科学、天气分析预测、地质及石油勘探等需要对数据进行大规模分析和计算的场景中,YRCloudFile也可以发挥其高性能及海量小文件支持的特性和优势。YRCloudFile提供全面的POSIX接口支持,可替换传统的文件存储,解决其性能瓶颈等问题,加快业务处理速度,极大降低总体成本。

  来自华为2012LAB交换技术实验室的何春志带来了题为《RDMA在计算网络中的应用》的分享。

  华为2012LAB交换技术实验室的何春志

  什么是RDMA技术?RDMA(Remote Direct Memory Access,远程直接内存访问)技术直接颠覆了传统的TCP/IP的通信方式,可以直接从网络的传输层将所有的通信相关的计算交由网卡设备来做,不需要CPU参与任何通信计算,甚至在整个通信过程中都不需要和CPU有任何沟通。

  目前RDMA技术已经被广泛使用到了各种不同的应用当中,如机器学习的各种框架、大数据分析应用、数据库应用、存储应用、HPC应用。

  据介绍,RoCE是RDMA over Converged Ethernet的简称,是一种允许通过以太网使用远程直接内存访问(RDMA)的网络协议。RDMA可绕过CPU和其他计算组件直接将网络数据传输到内存中,不需要进行拷贝,从而提高效率。基于标准以太网的IP/UDP消息传递的一个主要架构问题是业务承载需要对报文进行排队。

  华为依靠独创的AI芯片和智能无损交换算法,解决了当前以太网易丢包,吞吐率低的难题,引领数据中心网络迈入AI时代,匹配AI业务的快速普及,助力客户加速实现智能化转型。

  下一位演讲者是同方超算产品高级总监周卫岩,他带来了主题为《以数据为中心 同方服务器和高性能计算的核心》的分享。

  同方超算产品高级总监周卫岩

  毋庸置疑,我们现在处于一个数据大爆炸的时代,数据无处不在,数据成为企业创新的重要来源。数据影响我们的行为,但是数据价值的实现并不是一蹴而就的,这需要在计算力的支撑下,通过一定的算法来实现。我们正在从CPU为中心到以数据为中心的改变。

  据周卫岩介绍,在这样的背景下,我们推出了超强G858系列服务器。同方超强G858采用新的服务器设计概念和技术,支持Intel Xeon Skylake-SP处理器,在处理器性能,总线带宽,内存带宽等方面均有质的飞跃,在PCIE数量,硬盘数量,网络扩展等方面提供超强规格,适用于高性能计算(HPC)和大规模并行计算环境。可广泛应用于人脸识别,视频分析,气象研究与分析,大数据分析等应用场景。

  本场分论坛的最后一位压轴嘉宾是来自中国石油集团东方地球物理公司研究院的赖能和,他分享的主题是《PB级数据驱动高性能计算架构的转变》。

  中国石油集团东方地球物理公司研究院的赖能和

  高性能计算已经成为当下能源行业的主要IT应用模式,但随着应用水平的不断提升和软件优化的逐步展开,在应用领域也面临着许多挑战。

  赖能和表示,高性能计算和油气勘探是密切不可分的。计算机40年的发展推动了油气勘探发展的四大阶段,从光电、全数字、全三维,到今天的高精度勘探,物探技术相互促进,油气勘探实际上就是给地球的近地表做CT,计算量很大。

  目前,高性能计算在勘探上的难点主要是四个方面,分别是计算能力提升、海量数据存储、高性能并行架构优化和算法优化。过去,由于计算力不足,很多算法无法实现,随着计算力的提升,高性能计算和人工智能已经融合到了一起。

  赖能和举例表示,在油气勘探行业有一种算法是初至波,初至波拾取非常费人工,曾经有一个30T的数据,30多个人同时干也得需要60多天,全是重复劳动。有了人工智能+高性能计算以后,用机器拾取每一秒钟就可以完成一千个点,速度得到了大幅提升,通过训练以后能够很好的提升生产效率。

  写在最后,15年来,全国高性能计算学术年会的足迹遍及大江南北,让高性能计算薪火相传。此次年会在呼和浩特市举办,将有力地促进内蒙古和林格尔新区步入大数据、人工智能等产业发展的快车道,形成大数据、高性能计算发展的良好生态环境,在支撑内蒙古自治区经济和社会转型发展中发挥关键性引领作用。

0
相关文章