案例解读：HPC网格助力克服研究瓶颈-服务器专区

案例解读：HPC网格助力克服研究瓶颈

作者：chuansir 编辑：唐蓉 2011-05-31 08:29 IT168网站原创

　　【IT168 专稿】宾夕法尼亚大学文理学院(SAS)隶属全美主要的研究型大学之一：宾夕法尼亚大学。这所学院开设的课程占了宾夕法尼亚大学总课程的一半以上，其中教授许多课的是享有学术界最高荣誉的科学家和学者，包括美国国家科学奖章、麦克阿瑟奖、普利策奖和诺贝尔奖。

　　要是没有足够的计算能力，所有这些重要的研究工作都无法开展。宾夕法尼亚大学是一类研究型大学，拥有全美顶尖的高性能计算中心。这个计算引擎主要基于宾夕法尼亚大学的戴尔高性能计算(HPC)网格，支持众多的研究平台。

　　研究瓶颈必须克服

　　学术界总是不断存在谁更快地完成研究、发表成果的激烈竞争。宾夕法尼亚大学能够屡屡取得成功，关键在于第一个发表关于科学前沿的新信息。文理学院开展的研究大部分是数据密集型工作，需要很大的存储容量和很快的速度。为了力求更好地支持这种需求，文理学院设法升级了现有的直接连接存储阵列，该阵列支持它的其中一个HPC集群。

　　宾夕法尼亚大学文理学院的信息安全和UNIX系统高级系统编程员Gavin Burris说：“我们需要一套完整的网络文件系统解决方案，又要有很高的可靠性和性能，以便处理我们的天体物理学家开展的数据密集型科研工作。”

　　如果采用以前的存储解决方案，研究人员处理数据的工作需要排队等候，因为每项工作比实际所需的时间多几小时才能完成。Burris明白，是时候该对存储解决方案进行升级了。他强调：“天体物理学家运行的任务包括减少望远镜图像，分析望远镜数据，并寻找模式。如果使用以前的存储解决方案，在存储阵列的每秒输入/输出操作(IOPS)次数达到最大值之前，他们最多只能同时运行四个任务。”

　　这个瓶颈归因于原有存储解决方案的容量和性能很有限。存储流量与服务器和工作调度流量在同一条千兆网络连接上传输;在任何一个特定的时间，文理学院的HPC集群中只有四个节点能访问存储系统——该集群由16个运行CentOS Linux的戴尔PowerEdge服务器节点组成。这16个节点想全部利用起来，就会导致所需容量增加四倍。鉴于这个瓶颈问题，Burris比较了升级后的存储解决方案需要什么条件，才能达到足够的速度和容量，以便所有服务器节点可以同时访问存储系统。他说：“为了克服这个瓶颈，我们的研究人员一直在进行尝试，我们需要更多磁盘和一条相当快的专用网络连接与该存储系统相连接。”

　　找到合适的解决方案

　　Burris考虑过使用甲骨文公司名为Lustre的开源并行文件系统以及IBM的通用并行文件系统(GPFS)解决方案，但后来认为戴尔HPC NFS存储解决方案(NSS)更合适。他说：“戴尔HPC NSS解决方案吸引我的地方是，它很容易管理，而且借助一家供应商随时可以投入使用，这是一大优点。而且，我也不想为这等规模的系统采用并行文件系统。”

　　戴尔把戴尔HPC NSS作为一套完整的解决方案来销售和服务，该解决方案充分利用了戴尔PowerEdge R710服务器的强大功能，而这款服务器搭载运行红帽企业Linux操作系统的英特尔至强处理器5600系列，以及戴尔PowerVault MD1200存储阵列。标准的NSS解决方案产品以一个产品满足了文理学院的所有要求：硬件、软件、文件系统、冷备用磁盘，还有戴尔3年IT专业支持与关键任务、4小时上门服务。Burris说：“关键部件能享受3年IT专业支持与关键任务、4小时上门服务，这让我们吃下了定心丸，不用担心无法赶在最后期限之前发表研究成果。”

　　戴尔将性能提升33%，通过了测试

　　Burris在采购之前，着手逐一核实戴尔HPC NSS解决方案在技术文档中描述的特性和功能。他说：“戴尔HPC NSS似乎是最具成本效益的、高质量的解决方案，可以满足我们的所有要求。我只想测试一下该解决方案，确保它能实现戴尔文档声称的功能。戴尔公司让我有机会进入匹兹堡超级计算中心，他们在那里建立了一套演示系统。我使用IOzone运行了自己的合成基准测试，并且用我们研究人员使用的同一套AstrOmatic软件工具运行了应用基准测试。戴尔HPC NSS解决方案的性能比预期的要高出33%，将以前的存储系统花三个小时才能完成的任务缩短了一个小时。”

　　由于基准测试所得的结果超过预期，Burris放心地购买了戴尔HPC NSS解决方案，计划分配一个网络来专门传输存储流量，避免与节点之间的通信和管理协议争夺资源。

　　容量提升4倍，网络吞吐量提升10倍以上

　　戴尔HPC NSS解决方案配置了万兆以太网连接与文理学院的网络相连接，那样文理学院可以使用服务器节点中的专用网卡，把存储流量与网络上其余流量分离开来。多个千兆客户机现在可以通过戴尔PowerConnect 6248以太网交换机，访问万兆端口。对于存储系统来说，这相当于总网络吞吐量比文理学院以前的吞吐量提升了10倍。Burris强调：“现在我们从系统中的众多磁盘得到了更好的性能，有专用的存储服务器来存储这些数据，有专用的网络供这个存储系统使用，还有交换机本身让我可以调整TCP/IP设置，比如启用巨型帧(jumbo frame)。这让我们得以传输更多的数据，使用数量更少，但有效载荷更多的数据包。”

　　除了运行任务更快外，文理学院现在还可以同时运行更多任务。Burris说：“我们现在有96TB的存储容量，四倍于我们之前拥有的磁盘容量。从理论上来说，IOPS提升了四倍，这意味着我们将来能运行多达四倍的任务，而且可以更快地运行任务。我们将来能够同时使用全部16个节点，而不是只能使用4个节点。”

　　Burris很喜欢这一点：戴尔HPC NSS解决方案??基于红帽企业Linux操作系统，而红帽可扩展文件系统附加组件(Red Hat Scalable File System Add-On)可用于智能化组织管理文件系统的元数据。他说：“这不是我们无法在必要时登录、进行调试的黑盒子或设备。我们实际上可以登录进入到服务器，使用标准的Linux文件系统、守护程序和协议，进行配置。”

　　能够及时开展研究

　　性能的提升在帮助文理学院赶在重要研究项目的最后期限之前发表成本，这对于Burris来说才是最终目标。他说：“我们能够处理将来项目更高的数据要求，同时还能提升性能。我们的研究人员将来使用戴尔HPC NSS解决方案，能够以更多的方式分析更多的数据，运行更多的任务，开展更广泛更细致的寻找工作，更迅速地从数据中找到模式。各方面的周转时间会加快。”

　　在文理学院的HPC集群上处理的研究工作对于人类健康和环境可持续发展问题有直接影响——这两大问题影响着每个人。Burris强调：“许多人将毕生心血用于这项研究;他们每天致力于这项研究。我们之所以选择戴尔来支持这项重要工作，是因为这款完整的解决方案非常稳定，又得到了最好的支持。”

　　宾夕法尼亚大学眼下得益于戴尔HPC NSS解决方案的研究人员包括物理天文学系的助理教授James Aguirre和研究生Danny Jacobs，他们在研究最初的恒星和星系可能对周围的氢气可能有什么影响。戴尔HPC NSS解决方案让他们得以处理再电离时期精密探测阵列(PAPER)检测仪器生成的海量数据。

　　助理教授Masao Sako和研究生John Fischer在使用该集群来挖掘以前很难发现的超新星方面的望远镜数据。戴尔HPC NSS解决方案让他们能够装入来自斯隆数字化巡天(Sloan Digital Sky Survey)项目的庞大归档数据集。

　　宾夕法尼亚大学的其他研究人员使用一个单独的31个节点组成的HPC集群(包括戴尔PowerEdge R610和R410服务器)，该集群得到戴尔PowerVault MD1000直接连接存储阵列的支持。一个例子是地球与环境科学系开展的、研究人员兼讲师Irina Marinov牵头的一个项目。

　　Marinov强调：“我们在模拟大气和海洋流动，以便研究碳循环。我们在获取一些重要信息，了解全球变暖对于海洋流动和影响我们气候系统的其他方面有什么影响。这方面的一部分工作就是研究海洋碳循环、海洋生态系统结构、海洋流动与气候之间的反馈。这涉及大量数据。”

　　另一个例子是教授Andrea Liu。Liu教授与物理系同事和芝加哥大学的研究人员一起合作，努力了解某些质点系相互挤压时，行为如何慢慢变得像刚体。Liu解释：“我们一直想搞明白的问题是，为什么物体相互挤压时其行为会如同刚体?也就是说，它们的结构变乱后，为什么会有刚体的机械特性?我们能不能用一种通用的框架来思考它们?我们能否使所有这些相互挤压的不同系统成为一体?”

　　支持基本使命

　　宾夕法尼亚大学的研究使命可以追溯至19世纪，当时这所大学刚变成一家研究型大学。上面介绍的这些项目仅仅是宾夕法尼亚大学目前在开展的无数研究项目的一小部分代表。

　　Burris说：“我们大学的基本使命是研究和教育。我们的广大教授是这个使命的拥护者。只要我们能够简化他们的工作，让他们能够顺利地开展研究活动，任何举动显然都是明智之举。”

　　与戴尔合作有助于支持这个基本使命。Burris下结论说：“我也可以买另一个品牌的更便宜的硬件，但那样我就得不到购买戴尔产品所带来的支持和专长。戴尔提供了非常适合我们的产品。”