服务器 频道

Mellanox:为实现百亿亿次计算铺平道路

    【IT168 特别报道】10月27日-30日,北京,国家会议中心,高性能计算领域的一场大戏即将上演。今年的全国高性能计算学术年会(HPC China 2010)由中国计算机学会高性能计算专业委员会主办、中国软件行业协会数学软件分会协办、北京市科学技术研究院和北京市计算中心承办。作为网络媒体合作伙伴,IT168将对此次盛会进行专题报道【点击专题】。

    Mellanox高性能计算全球技术市场经理刘通先生在29号的高性能计算年会演讲中为我们带来了题为“为百亿亿次计算铺平道路”的演讲,主要针对Mellanox为更高性能计算的后台网络所做的技术储备。

Mellanox:为实现百亿亿次计算铺平道路
▲Mellanox高性能计算全球技术市场经理 刘通先生

    1、承诺非常先进的技术和产品 全球近一半超算用户认可Mellanox  

    Mellanox公司是一家致力于为数据中心提供高性能计算、存储和云服务解决方案的知名企业。据刘通先生介绍,截止2010年6月,Mellanox已经成功为全球数据中心交付了超过660万个互联端口,并协助全球高性能计算排行榜Top 500中42%的系统完成后台网络系统搭建。

    Mellanox的产品拥有高带宽/低延迟的特点,性能普遍比竞争对手高出25%~50%左右;此外,由于支持Transport Offload技术,可以允许处理器在计算完自身任务后自动进行下一个运算,而不必等待其他处理器的回馈,把这一等待网络响应的工作交给了网络设备。此外,Mellanox的可扩展方案还支持网络自适应和避免拥塞的智能机制,配合其Core-Direct技术可以再多种网络拓扑环境中保证网络传输的可靠性。

    2、为百亿亿次GPUDirect技术介绍

   刘通先生表示,针对目前的混合架构计算趋势,GPU已经日益成为高性能计算机中的另一个重要的计算单元。但目前GPU与网络的通讯模式仍然采用了古旧的总线控制芯片并经过CPU寻址,因此Mellanox也优化了GPU的数据传输逻辑。这里简单说说新传输方式与旧方式的区别(如下图):


 

    本图体现了GPU计算过程中数据是如何传递的:CPU内存中读取需要GPU计算的原始数据,传递给北桥芯片的PCI-E控制器,北桥芯片将数据传给GPU,GPU将其存入缓存,计算的结果也存入GPU缓存(注意这一过程是不断进行的,动态的);计算结果再从GPU缓存流经GPU传回给北桥控制器,北桥传回CPUCPU将之存入内存

    如果说以上过程足够繁琐,效率很低的话。那么来看看GPU计算好的结果是如何传输的——CPU内存里重新读取GPU计算的结果,将需要传输的部分再存入内存中网络模块读取的指定区域——infiniband网卡通过CPU再读取相关信息传出去。因此可以说,GPU计算时的数据传输是最大瓶颈。


 

    Mellanox的解决方案很简单,在不改变现有IT架构的情况下——意即原先那套计算流程不变。变化只有一点点:GPU计算结果在存储到内存之后,直接被infiniband读取传输走,减少了再次通过CPU读取转存的步骤。从而降低了数据传输的时延——这一点点的改进使得GPU之间的时延降低30%,消除了数据在infiniband和GPU之间的拷贝,用心良苦可以想见。

Mellanox:为实现百亿亿次计算铺平道路
▲从评测结果来看,使用了GPUDirect将明显优化了系统的运行速度,而且规模越大越明显

     最后,刘通先生介绍了最新使用了Mellanox传输技术的服务器系统——Oracle Sun Exadata和Exalogic两套数据库专用服务器。其服务器与存储器的传输是由40Gb/s的infiniban完成的——可提供至少10倍于传统Oracle数据仓库的查询速度。

Mellanox:为实现百亿亿次计算铺平道路

0
相关文章