服务器 频道

戴尔HPCC解决方案助中国首例月球软着陆

  主动监控可降低风险

  为了确保天文台团队可以监控基础设施并提供积极主动的支持,他们安装了戴尔OpenManage Essentials。以往每台机器都需要人工监控,但OpenManage的系统管理控制台却提供了简单、自动化的硬件管理。

  通过使用OpenManage,戴尔团队在项目启动前一个月检查了所有的基础设施并对所有固件进行升级。这两项任务有助于大大减少可能影响探月任务的潜在风险。

高可用性助力关键系统控制落月

  高可用性助力关键系统控制落月

  数据中心成功实施几个月后, HPCC平台在筹备降落月球所需的数据处理过程中发挥了关键作用。探测器数据通过网络实时传递到HPCC的处理平台,接着转发到后台系统进行精细处理和分析,以便在降落月面时减少风险。

  通过与戴尔团队的广泛规划,天文台消除了单点故障带来的风险并实现了高可用性。为了确保天文台满足其应用程序的I/O密集需求,并避免HPCC的NFS瓶颈,该解决方案利用Lustre的并行分布式文件系统,通过在四个存储节点传播数据来提供冗余。这意味着在落月时用来控制探测器所需的数据即使系统发生故障也仍旧可以保持高度可用。

  陈中表示,“作为整个过程的中间点,HPCC提供了一项关键的功能。在系统完全不宕机的情况下,我们实现了高可用性,同时满足了实时数据的要求以及对探月工程的承诺。”

  数据可以在不到60秒内从上海天文台传送到北京控制中心

  中科院上海天文台的VLBI数据中心把从嫦娥三号卫星接收到的数据经过复杂处理,然后发送到北京控制中心的时间差距从之前嫦娥二号执行任务时的10分钟降低到1分钟之内。陈中说道,“HPCC有着实时数据的要求。我们需要数据在60秒完成多点数据接收、海量数据处理分析和实时发送,此项时间框架是世界上前所未有的。但我们通过技术攻关,开发新算法,并配合戴尔的高性能硬件实现了快速传输数据的目标,最快时只用15秒。 较为复杂的任务,比如在特殊的弧段,则需要大约45秒传送。”

  通过比以往快一半的响应速度消除宕机时间

  戴尔在整个探月过程中提供高品质的ProSupport Plus白金专业支持服务,确保VLBI关键系统的稳定性。在关键任务执行阶段,戴尔提供了HPCC备件并派遣几位工程师到VLBI数据中心,以便快速解决任何由于部件故障引起的意外情况。

  “鉴于该项目的重要性,我们考虑了合作伙伴的技术支持能力。戴尔刀片服务器在我们的高性能计算中扮演了一个重要的角色。戴尔ProSupportPlus白金专业支持服务团队为我们提供了专属技术客户经理作为单点联系人,并设计制定了一个全面的支持计划。” 陈中说。

  戴尔设立了一个专属应急团队来参与支持嫦娥三号的探月任务。在技术客户经理的主动协调下,该团队在探月任务开始之前采取一系列预防性的措施,确保在任务执行阶段把服务响应时间和解决问题的时间降低了一半。陈中说,“戴尔ProSupport Plus白金专业支持服务的专业技术能够立即诊断并积极解决可能影响任务的任何问题。零宕机很好地证明了该团队为天文台所提供的服务。”

  成功软着陆为正在进行的科学探测服务

  由于包括中科院上海天文台的VLBI网络在内的一系列系统所提供的数据,嫦娥三号探测器得以安全在月球表面着陆。着陆过程中所观测的数据将用于正在进行的科学研究,并支持未来的月球探测。陈中说,“北京航天飞行控制中心给我们送来了贺电。”贺电称:“在任务准备和执行过程中,中科院上海天文台发扬科学求实精神,严慎细实,攻坚克难,为任务的圆满成功作出了卓越贡献。”

6
相关文章