服务器 频道

体验万亿次 深腾1800服务器国内首测

  集群监控LCSM

  在文章的第一页,我们介绍深腾1800服务器集群包括了主要包含集群管理模块、作业调度模块、远程控制模块(LCRC)、信息监视模块(LCIM)和告警管理模块(LCWM),后面的三个模块分别用于集群结点的远程管理、系统硬件和软件运行信息监视以及系统故障报警。由于它们之间相对于具有一定的独立性,各自有较为明确的应用环境,又具有一定的相互关联,因此将它们统称为集群监控模块(LCSM)。

联想集群监控LCSM结构示意图

  远程控制模块LCRC的实现主要依赖于集成在服务器主板上的BMC控制器芯片,在大部分联想万全服务器的主板上都集成了遵循IPMI v2.0规范的芯片。这颗芯片可以支持网卡设备,只要服务器在加电的状态下即可工作,它本身如同一个极度精简的系统,可以允许远程用户连接到这台服务器,然后进行带外远程操作。远程用户可以进行一些“本地操作”,而不需要操作系统和远程控制软件的支持:

  • 进行设备ID灯控制、远程开机、远程关机、远程重启、和SEL清除等操作
  • 借助IDER功能,远程用户可以将控制台的光驱、软驱重新定向到被管理设备上,将其虚拟成远程服务器本地的设备
  • 通过IPMIv2.0定义的SOL(Serial over LAN)功能远程接管服务器,进行远程BIOS、驱动升级、启动到DOS进行诊断等操作,使用户有可进行远程的服务器诊断和修复

  管理代理则是运行在操作系统上的应用程序,目前可以支持Windows和Linux操作系统,负责对被管服务器的数据采集、告警事件发送,以及处理来自管理中心的命令请求对服务器实施控制。管理代理既可以采集来自操作系统的信息,也能够采集来自BMC传感器的硬件健康信息。

  信息监视模块(LCIM)和告警管理模块(LCWM)可以被认为是建立在BMC和管理代理上的两个逻辑功能。信息监视模块LCIM可监视硬件健康信息(如CPU信息、主板风扇转速、主板温度等),操作系统运行信息(如CPU利用率、内存使用情况、进程信息等);告警管理模块LCWM可预设告警阀值,当系统发生告警时,能够及时并以多种方式通知给系统管理员,支持丰富的告警信息,如服务器连接状态、硬件健康信息告警、进程CPU利用率超门限告警等。

  管理代理采集的信息比如系统信息、服务器资产和状态信息、服务器事件与告警信息、近期进程历史信息等都保存在深腾1800服务器的系统数据库中,便于管理员利用这些信息了解系统状态和进行故障分析。

  核心服务器是系统所有业务逻辑的中枢。它通过与被管服务器的网络连接,提供对服务器硬件传感器和服务器系统的实时监视、报警及控制的后台核心组件处理。核心服务器处理所有来自WEB服务器的逻辑请求,并将处理结果返回WEB服务器。核心服务器包含事件接收服务组件,用于接收来自管理代理的告警事件,并把接收到的事件提交给WEB服务器,经过处理后可在WEB浏览器中显示。当核心服务器启动时,事件接收器就在后台运行。同时,核心服务器也包含数据库连接组件,负责与系统数据库连接进行数据交换。

0
相关文章