服务器 频道

微软:让七千万人一起用上高性能计算

  IT168:谈到HPC的资源管理和作业管理,PLATFORM是很专业的一家厂商。您本人之前也在这家公司呆了8年,然后现在开发微软的HPC产品也有6年时间了。在您看来,这两家公司的产品设计理念上会有哪些不同?是否两家公司的产品针对不同的用户群?

  徐明强:PLATFORM主要是针对高端客户,这些高端客户可以产生最大的利润,也可以提供最多的反馈,比如世界前几百强企业的数据中心。这些用户对产品的要求是功能强大、可定制,所以PLATFORM的管理员手册往往很厚,对需要定制的参数和属性有非常详细的描述。

  不过,参数太多,调度策略以及策略交互产生的影响也比较复杂。比如PLATFORM LSF支持多个队列,每个队列中可以定制多种排序方法,包括先到先得、反填、合理共享等,队列之间还可以根据用户和作业的优先权相互抢占等等。而微软的设计理念是只有一个队列,大大简化管理监控过程,同时通过“作业模版”的方式来解决多用户群共享的问题,这些模版可以设置一些资源使用条件,比如多少个内核、多少内存、哪些用户有权限使用等等。

  在我看来,作业调度已经发展了三代,第一代是PBS,每个节点就是一个队列,某一个节点死了,后面的作业要等上很久;第二代是PLATFORM的LSF,队列不是在节点上,而是在网络中,有一个节点死了,作业可以运行在其他节点上。微软要做的是第三代,在提供强大功能的同时,减少复杂性。当然我们也是站在巨人的肩膀上,如果没有PBS和PLATFORM和大量用户使用经验的积累,我们也不可能这么做。

  微软的作业调度器还有很重要的一个特点是和管理系统无缝集成。当节点加入和脱离集群时,作业调度器都能自动识别,或为其分配作业,或清理作业。另外,作业调度器还为管理报表系统提供大量资源使用数据,如作业提交时间、运行时间、资源使用数量、软件许可证数量等等,借此可以简化管理员的工作复杂度。

  总的来看,就当前的现状,PLATFORM与微软的客户群不大一样,前者主要是针对高端的使用Linux的数据中心,据IDC统计,全球有7千万人需要高性能计算能力,即他们的应用在本地遇到资源瓶颈,而其中只有1百万人能享用这种能力。 微软在不忽视数据中心用户的同时,更加重视仍未使用高性能计算的 6千9百万另外客户,把HPC市场这块蛋糕做大。当然,PLATFORM也是微软的合作伙伴,他们的作业调度器也可以在Windows上跑。并可以管理混合Linux和Windows集群。

0
相关文章