服务器 频道

阻挡HPC前行的“最后一公里”,打破“存储墙”迫在眉睫

  当下,无论是上天揽月的“嫦娥五号”,飞往火星的“天问一号”,还是下万米深海潜航的“蛟龙号”,或是抗击疫情中利用AI进行CT影像识别,几乎任何一项伟大的科学成就与工业创新,都离不开高性能计算机的强力支撑。

  比如为保证嫦娥五号能顺利从月球取回土壤,在发射之前,需要对发射的整个过程进行模拟,包括轨道修正、近月制动、组合体分离、月面着陆、月面采样、月面上升、交会对接与样品转移、环月等待与月地转移、轨道器和返回器分离、着陆地球等,这一过程需要利用高性能计算机进行大量的仿真分析,以论证方案的可行性。除发射前的模拟测试,在发射后的飞行控制过程中,还需要实时采集大量的飞控数据进行实时处理分析,以更好地判断相关设备的运行状态,及时做好飞控调整。

  这就是为什么领先的科技与工业大国宁愿投入巨资,也要在全球超级计算机产业中占据一席之地的原因所在。超级计算机不仅是一个国家综合科技实力的象征,也是工业创新、国防建设、科学研究、石油勘探等重要经济行业的发展基础和动力之源。

  HPC的诞生与发展

  超级计算机是与高性能计算机相对应的概念。一般将信息处理能力比个人计算机快至少一到两个数量级的计算机,归类为高性能计算(High Performance Computing)。超级计算机发展源于大型科学工程对于超高密集计算、海量数据处理应用需求。

  说到世界第一台计算机,都知道是1946年诞生于美国宾夕法尼亚大学"ENIAC",但很少人知道,ENIAC是美国军方为满足美国奥伯丁试验场计算弹道需要而研制的。在那个中国还大量使用“算盘”的时代,"ENIAC"堪称当时的超级计算机。

  从"ENIAC"诞生算起,到上世纪50年代中后期,以美苏争霸为背景,计算机被广泛应用于导弹、核武器的计算研究,这一时期的计算机特点是体积大、功耗高、可靠性差。直到1958年晶体管的出现,计算机体积开始大幅缩小,运算速度提升至最高可达300万次,这些可以算作是超级计算机发展的前身,但仅限用于国家主导的军事科研工程。

  超级计算机真正迎来大发展,是从1964年集成电路被大规模应用开始的。我国超级计算机研制就起步于这一时期。到目前为止,大体经历了三个阶段:第一阶段,自60年代末到70年代末,主要从事大型机的并行处理技术研究;第二阶段,自70年代末至80年代末,主要从事向量机及并行处理系统的研制;第三阶段,自80年代末至今,主要从事MPP系统及工作站集群系统的研制。

  1983年12月22日,中国第一台每秒钟运算一亿次以上的“银河一号”巨型计算机的研究成功,才真正跨入超算竞争的行列。时至今日,中国神威·太湖之光、天河二号不仅成为全球超级计算机TOP500的“常客”,也曾成为榜单的实力担当。如今,这些浮点计算能力达每秒万亿亿次的超级计算机,其应用范围也不再局限于军事科研项目,在CAE仿真、动漫渲染、物理化学、石油勘探、生命科学、气象环境都有着广泛应用。

  HPC逐渐走向平民化

  在大型机时代,高性能计算基本上是IBM最擅长的阵地。从上世纪60年代到本世纪初,在全球超级计算机排行榜上,基本都是以IBM POWER处理器为内核,通过大规模并行级联打造的平台。

  近二十年,随着PC及服务器需求的迅猛增长,庞大的市场需求支撑了X86处理器性能的快速提升,在不断提升的性价比优势,以及全新高速互连技术架构Omni-Path的合击下,以X86处理器为核心的高性能计算产品越来越成熟,在GPU计算加速卡的加持下,正推动着HPC向更多领域普及。同时,针对典型行业HPC的蓝图参考架构、高性能生态联盟、高性能应用框架,降低了HPC架构部署管理难度和应用开发强度,使HPC的技术门槛进一步降低。

  除此之外,不断深化的企业数字化转型和智能化升级需求,也成为HPC走向普及的的一个重要的推动力量。随着企业数据量的快速增长,以及大数据、人工智能以及深度学习等技术快速融入,企业依赖更高性能的算力提供业务创新和数据分析决策。特别是近两年备受关注的自动驾驶汽车、人脸识别、医疗诊断、工业智能以及商业决策,其核心是大数据支持,HPC成为人工智能模型训练的重要支撑平台。

  大数据与HPC的结合衍生出了HPDA(High Performance Data Analysis,高性能数据分析)技术。IDC数据显示,目前有67%的HPC资源用于HPDA,而机器学习/深度学习、欺诈检测的需求就是其中较为典型的应用。大数据时代的到来将使HPDA应用成为HPC的下一个强力增长点。预计到2021年,全球HPC存储市场空间可达148亿美金,其中新兴的HPDA和HPC-based AI场景将以年化17%、29.5%的增速快速增长。

  在最新发布的超级计算机TOP500榜单上,连续两届蝉联第一的Fugaku(富岳)超级计算机将其在新的混合精度HPC-AI基准上的性能提高到了2.0 exaflops,超过了6个月前1.4 exaflops的纪录。之所以日本方面非常强调这一指标,一定程度上反应了日本超级计算机的发展思路,即瞄准日趋丰富的AI场景化应用打造更高性能超算平台。这一技术构建趋势,很好匹配了IDC最新研究报告对于新兴HPDA和HPC-based AI场景应用的预测。

  随着CPU、GPU等处理器性能的快速提升,以及多元化算力的融合发展,打造HPC的门槛和难度正在大幅降低,HPC从小众走向大众是必然趋势。HPC作为一种计算能力更强的平台,不仅作为数字经济时代和新基建的重要基础,继续在诸如科研、天文、能源、军事等方面继续发挥重要作用,同时在基因测序、气象科学、工业创新、大数据分析、智能医疗、深度学习、人脸识别等新兴领域,更广泛的服务于大众需求。

  HPC前行的存储瓶颈

  这是一个最好的时代,也是一个最坏的时代。

  随着5G、大数据、AI等技术的快速发展,我们看到了HPC与大数据、AI的融合趋势,也坚定地认为,HPDA、HPC-based AI等新兴HPC场景将在各行各业全面开花,HPC普及化的时代已经到来。

  然而,在CPU以摩尔定律为牵引快速提升性能的过程中,HPC发展却面临存储以及I/O速度与计算能力越来越不匹配所带来的“存储墙”问题。众所周知,在计算机发展过程中,CPU性能的增长是远高于存储性能和I/O性能的,这导致在计算机不断发展过程中,计算、存储、I/O 间的速度差距会越来越显著。

  2014年某机构针对数据中心的性能调查显示,当年CPU性能增长52%,内存性能增长9%,I/O性能增长6%,而存储性能的提升最慢,因为这不仅与介质物理性能有关,还与存储协议有关,这种介质与协议的变化其实非常缓慢。存储性能落后于CPU、内存带宽性能,就意味着数据访问能力落后于数据的处理能力。

  对高性能计算机而言,由于采用的是并行计算机体系架构,由多CPU和GPU级联打造的高性能并发算力,会如潮水一般涌入,使得“存储墙”问题更难以克服。最终导致的结果是,CPU空转等待存储器访问的时间占了很大比例,并行计算效率大幅下降。目前大规模并行计算机在实际应用中的效率只有5%左右,存储性能成为提升效率的最大制约。

  随着HPDA、HPC-based AI等新兴场景应用的全面爆发,企业对于高性能、实时化的大数据分析需求将变得更加迫切。

  在HPC领域,目前包括华为、英特尔都在通过统一多元化的异构算力来解决HPC产业发展中的算力需求,并取得明显的成效。为克服“存储墙”问题,包括华为在内的一批厂商也在努力,正在通过技术革新,深入研究智能存储体系结构、高性能存储技术等关键技术,减少存储与计算之间的性能差距,打通HPC前行的“最后一公里”。

0
相关文章