千万亿次机用上国产CPU比排名更有意义-服务器专区

千万亿次机用上国产CPU比排名更有意义

作者：IT168 洪钊峰编辑：洪钊峰 2009-10-30 00:43 来源：IT168�

　　【IT168 报道】作为我国高性能计算领域的优异峰会，HPCChina年会每年举办一次。10月29日-31日，2009年全国高性能计算学术年会(HPCChina 2009)在湖南长沙举行，此次大会由中国计算机学会高性能计算专业委员会主办，中国软件行业协会数学软件分会协办，国防科技大学承办，来自全国各地的300多位高性能计算从业人员参加了会议。

　　在大会上，中国高性能计算机性能TOP100排行榜创始人之一、中科院软件所张云泉博士发布了《2009年中国高性能计算机TOP100排行榜》。该排行榜一出，对于国内高性能计算机领先厂商曙光公司来说，可谓一得一失：去年NO.1的曙光5000A让位给了由国防科技大学制造的千万亿次超级计算机“天河一号”，退居第二位；但从厂商入选系统数量的份额来看，却以27套入选占据了第一名，取代了过去七届一直占着头把交椅的惠普。

　　用上国产CPU比排名更有意义

　　很多网友原以为我国首台千万亿次超级计算机非曙光莫属，谁知半路杀出了个程咬金。会后，曙光公司副总裁聂华接受了记者的采访。“曙光此时的重点并不在于要去造一个更大的机器出来竞争，更关键的是要反思曙光在整个产业发展中应该起到的作用。”聂华还表示，“天河一号的技术对曙光有借鉴意义。”

　　据介绍，“天河一号”采用多阵列可配置协同并行体系结构，硬件系统由计算阵列、加速阵列、服务阵列以及互连通信子系统、I/O存储子系统和监控诊断子系统等六部分组成，软件系统由操作系统、编译系统、资源管理系统和并行程序开发环境等部分组成。该系统拥有6144颗英特尔CPU和5120颗AMD GPU，内存总容量为98TB，点点通信带宽为40Gbps，共享磁盘总容量达到1PB，系统峰值性能为1206万亿次每秒，Linpack测试性能超过560.3万亿次每秒。该系统将于2009年底至2010年部署于国家超级计算天津中心。

　　根据计划，曙光公司将于2010年推出采用龙芯处理器的千万亿次超级计算机曙光6000，预计会落户于深圳的华南超算中心。与天河一号类似，曙光6000也将采用异构计算的结构，不同的是，天河一号用的是“英特尔CPU+AMD GPU“，而曙光6000将使用“普通CPU+国产龙芯处理器”。聂华告诉记者，“明年4月份之前曙光的千万亿次计算机肯定出不来，因为曙光6000要用的龙芯CPU还出不来，用国产CPU的意义显然比去争取排名要重要得多。”

　　相比GPU，曙光倾向用龙芯做协处理器

　　“天河一号”使用CPU+GPU构建大规模计算机系统也引起了人们的极大兴趣。对此，聂华谈到，“GPU确实是高性能计算业内人士非常关注的热门技术，曙光也提供采用Nvidia或AMD/ATI的GPU的服务器产品，但根据一线用户的反馈来看，喜忧参半。”一方面，GPU的并行计算性能很高，对于某些专业领域来说确实可以实现几十倍、上百倍的性能提升，比如石油勘探领域已经有证明，但另一方面，也有很多应用无法实现那么高的性能加速比。

　　他分析说，跟CPU不同，GPU协同并行计算颠覆了传统的计算理念。对高性能计算来说，首要的是确保计算结果的正确无误，而GPU出身于图形处理卡，从设计结构上就是无法绝对保证计算结果的正确。而今天，我们的编程模型、算法模型都是传统的，因此只有按GPU的体系架构重新去编程才容易获得高性能，否则可能得不偿失。

　　实际上，今天的GPU走的仍是专有路线，没有统一的编程环境，Nvidia和ATI GPU两种平台的编程模型都不一样，编写的软件不能兼容。“如果能够统一到OpenCL上来，GPU在高性能计算的应用会得到强有力的推动。”而现实中，Nvidia虽然表示支持OpenCL，但力推的仍是其自已的CUDA。

　　此外，GPU计算单元密度高，但数据吞吐受限，单精度性能很强，双精度性能较弱，缺少校验机制等也受到人们的诟病。不过，Nvidia新推出的Fermi已经针对双精度性能、ECC校验等方面进行了“重大”的革新——引入L1、L2缓存机制，双精度性能是上一代产品的8倍，显存控制器支持ECC显存等。

　　基于这些方面的考虑，“CPU通用计算仍然是基础，同时我们更倾向于用龙芯来做协处理器。”聂华表示。

关注我们