服务器 频道

千万亿次机用上国产CPU比排名更有意义

  【IT168 报道】作为我国高性能计算领域的优异峰会,HPCChina年会每年举办一次。10月29日-31日,2009年全国高性能计算学术年会(HPCChina 2009)在湖南长沙举行,此次大会由中国计算机学会高性能计算专业委员会主办,中国软件行业协会数学软件分会协办,国防科技大学承办,来自全国各地的300多位高性能计算从业人员参加了会议。

  在大会上,中国高性能计算机性能TOP100排行榜创始人之一、中科院软件所张云泉博士发布了《2009年中国高性能计算机TOP100排行榜》。该排行榜一出,对于国内高性能计算机领先厂商曙光公司来说,可谓一得一失:去年NO.1的曙光5000A让位给了由国防科技大学制造的千万亿次超级计算机“天河一号”,退居第二位;但从厂商入选系统数量的份额来看,却以27套入选占据了第一名,取代了过去七届一直占着头把交椅的惠普。

  用上国产CPU比排名更有意义

  很多网友原以为我国首台千万亿次超级计算机非曙光莫属,谁知半路杀出了个程咬金。会后,曙光公司副总裁聂华接受了记者的采访。“曙光此时的重点并不在于要去造一个更大的机器出来竞争,更关键的是要反思曙光在整个产业发展中应该起到的作用。”聂华还表示,“天河一号的技术对曙光有借鉴意义。”

  据介绍,“天河一号”采用多阵列可配置协同并行体系结构,硬件系统由计算阵列、加速阵列、服务阵列以及互连通信子系统、I/O存储子系统和监控诊断子系统等六部分组成,软件系统由操作系统、编译系统、资源管理系统和并行程序开发环境等部分组成。该系统拥有6144颗英特尔CPU和5120颗AMD GPU,内存总容量为98TB,点点通信带宽为40Gbps,共享磁盘总容量达到1PB,系统峰值性能为1206万亿次每秒,Linpack测试性能超过560.3万亿次每秒。该系统将于2009年底至2010年部署于国家超级计算天津中心。

  根据计划,曙光公司将于2010年推出采用龙芯处理器的千万亿次超级计算机曙光6000,预计会落户于深圳的华南超算中心。与天河一号类似,曙光6000也将采用异构计算的结构,不同的是,天河一号用的是“英特尔CPU+AMD GPU“,而曙光6000将使用“普通CPU+国产龙芯处理器”。聂华告诉记者,“明年4月份之前曙光的千万亿次计算机肯定出不来,因为曙光6000要用的龙芯CPU还出不来,用国产CPU的意义显然比去争取排名要重要得多。”

  相比GPU,曙光倾向用龙芯做协处理器

  “天河一号”使用CPU+GPU构建大规模计算机系统也引起了人们的极大兴趣。对此,聂华谈到,“GPU确实是高性能计算业内人士非常关注的热门技术,曙光也提供采用Nvidia或AMD/ATI的GPU的服务器产品,但根据一线用户的反馈来看,喜忧参半。”一方面,GPU的并行计算性能很高,对于某些专业领域来说确实可以实现几十倍、上百倍的性能提升,比如石油勘探领域已经有证明,但另一方面,也有很多应用无法实现那么高的性能加速比。

  他分析说,跟CPU不同,GPU协同并行计算颠覆了传统的计算理念。对高性能计算来说,首要的是确保计算结果的正确无误,而GPU出身于图形处理卡,从设计结构上就是无法绝对保证计算结果的正确。而今天,我们的编程模型、算法模型都是传统的,因此只有按GPU的体系架构重新去编程才容易获得高性能,否则可能得不偿失。

  实际上,今天的GPU走的仍是专有路线,没有统一的编程环境,Nvidia和ATI GPU两种平台的编程模型都不一样,编写的软件不能兼容。“如果能够统一到OpenCL上来,GPU在高性能计算的应用会得到强有力的推动。”而现实中,Nvidia虽然表示支持OpenCL,但力推的仍是其自已的CUDA。

  此外,GPU计算单元密度高,但数据吞吐受限,单精度性能很强,双精度性能较弱,缺少校验机制等也受到人们的诟病。不过,Nvidia新推出的Fermi已经针对双精度性能、ECC校验等方面进行了“重大”的革新——引入L1、L2缓存机制,双精度性能是上一代产品的8倍,显存控制器支持ECC显存等。

  基于这些方面的考虑,“CPU通用计算仍然是基础,同时我们更倾向于用龙芯来做协处理器。”聂华表示。

0
相关文章