服务器 频道

曙光GridviewV2.6四层逻辑优化系统管理

  【IT168 资讯】在大规模机群用户中获得广泛应用的曙光Gridview集群监控管理系统正式升级至Gridview V2.6,通过统一监控、集群集中管理、多集群综合管理等功能,有效保证机群管理的扩展性、可靠性、自主性。日前曙光Gridview V2.6集群监控管理系统已经在深圳云计算中心“曙光星云”系统进行应用,全面保障了“曙光星云”系统的正常、稳定运行。


▲曙光星云Gridview集群监控管理系统监控界面

  “曙光星云”是国内首台实测性能超千万亿次的超级计算机,其每秒系统峰值达三千万亿次(3PFlops),每秒实测Linpack值达1271万亿次。如此庞大的系统,各节点的运行状况如果人工维护的话,将是一个很费时费力的工作。为了使整个系统高效运行,曙光“星云”系统安装了Gridview集群管理软件来实现对机群进行监控管理。

  四层逻辑 优先管理

  曙光Gridview是曙光公司自主研发的一款集作业调度、集群管理、集群监控为一体的高效管理平台,满足大规模环境下的集群统一监控、统一管理、统一报警、统一配置等诸多问题。

  为保证超级计算机整个工作流程的通顺安全,Gridview在每个计算机上实行四大逻辑层次,分别为:硬件信息采集层、资源整合共用平台层、核心模块层和服务交付层。四层逻辑有条不紊地对从各监控节点系统采集来的信息资源进行优先管理。信息通过采集层向上层提供资源信息时,数据信息被分类存储在数据库中,作为元数据向上层提供数据服务。各模块之间独立开发,共享整合的公用平台数据信息,可以对元数据进行自由裁剪,以适应模块开发需求。并且可以按照需求,增加新的模块到平台中,做到各模块之间的有效兼容,向用户提供统一的web接口,实现对集群的管理和运维,将整合的资源信息以Portal形式表现,对历史数据分析,为用户提供统一的作业调度界面。曙光Gridview整个用户界面统一集中,条理清晰。


▲曙光Gridview 四层逻辑结构

  多功能管理护卫“曙光星云”系统

  在曙光Gridview系统中,采用了模块化、可插拔的设计理念,产品具备很强的灵活性、可扩展性,能够充分满足不同用户的需求,而且对异构集群具有完全监控能力。

  曙光Gridview拥有强大的集群管理功能和历史运行状况记录,在运行时,Gridview系统可以支持集群操作系统的整体部署、镜像保存和恢复、指定节点的系统安装和恢复、集群账户管理、文件管理、进行管理、作业管理等各种集群管理功能。

  在对敏感的风险点进行阈值控制时,一旦发现有异常状况发生,曙光Gridview会迅速触发预警机制,发出告警通知,第一时间迅速定位风险位置,为准备处理突发事件提供参考信息。

  与此同时,曙光Gridview还拥有强大的作业调度功能,提供作业管理、队列管理、策略配置等多个功能软件系统,可以在GPU和CPU异构的集群环境中进行作业调度。用户可以通过界面提交作业,同时也可以进行多种管理操作。


▲曙光Gridview远程VNC界面

  Gridview系统的独特功能优势——远程图形界面更具魅力。通过“VNC”管理功能,用户可在作业调度系统中实现图形交互式操作,在作业系统自动分配的计算节点上远程打开CAE等软件的图形界面,方便用户操作。


▲曙光Gridview的PORTAL界面

  曙光Gridview V2.6的升级过程,看似漫不经心,实则精心锤炼。作为以高性能计算集群著称的公司,曙光一直在探索如何通过进一步提升系统性能,为用户提供更好的集群管理系统,曙光Gridview V2.6系统可以看作是其在管理软件领域探索的又一山峰。有理由相信,曙光公司用领先的技术保障“曙光星云”系统稳定运行的同时,其在管理软件领域的市场地位也必将取得更大的突破。

0
相关文章