服务器 频道

案例解读:HPC网格助力克服研究瓶颈

  【IT168 专稿】宾夕法尼亚大学文理学院(SAS)隶属全美主要的研究型大学之一:宾夕法尼亚大学。这所学院开设的课程占了宾夕法尼亚大学总课程的一半以上,其中教授许多课的是享有学术界最高荣誉的科学家和学者,包括美国国家科学奖章、麦克阿瑟奖、普利策奖和诺贝尔奖。

  要是没有足够的计算能力,所有这些重要的研究工作都无法开展。宾夕法尼亚大学是一类研究型大学,拥有全美顶尖的高性能计算中心。这个计算引擎主要基于宾夕法尼亚大学的戴尔高性能计算(HPC)网格,支持众多的研究平台。

  研究瓶颈必须克服

  学术界总是不断存在谁更快地完成研究、发表成果的激烈竞争。宾夕法尼亚大学能够屡屡取得成功,关键在于第一个发表关于科学前沿的新信息。文理学院开展的研究大部分是数据密集型工作,需要很大的存储容量和很快的速度。为了力求更好地支持这种需求,文理学院设法升级了现有的直接连接存储阵列,该阵列支持它的其中一个HPC集群。

  宾夕法尼亚大学文理学院的信息安全和UNIX系统高级系统编程员Gavin Burris说:“我们需要一套完整的网络文件系统解决方案,又要有很高的可靠性和性能,以便处理我们的天体物理学家开展的数据密集型科研工作。”

  如果采用以前的存储解决方案,研究人员处理数据的工作需要排队等候,因为每项工作比实际所需的时间多几小时才能完成。Burris明白,是时候该对存储解决方案进行升级了。他强调:“天体物理学家运行的任务包括减少望远镜图像,分析望远镜数据,并寻找模式。如果使用以前的存储解决方案,在存储阵列的每秒输入/输出操作(IOPS)次数达到最大值之前,他们最多只能同时运行四个任务。”

  这个瓶颈归因于原有存储解决方案的容量和性能很有限。存储流量与服务器和工作调度流量在同一条千兆网络连接上传输;在任何一个特定的时间,文理学院的HPC集群中只有四个节点能访问存储系统——该集群由16个运行CentOS Linux的戴尔PowerEdge服务器节点组成。这16个节点想全部利用起来,就会导致所需容量增加四倍。鉴于这个瓶颈问题,Burris比较了升级后的存储解决方案需要什么条件,才能达到足够的速度和容量,以便所有服务器节点可以同时访问存储系统。他说:“为了克服这个瓶颈,我们的研究人员一直在进行尝试,我们需要更多磁盘和一条相当快的专用网络连接与该存储系统相连接。”

0
相关文章