服务器 频道

浪潮企业级智能服务器技术亮点剖析

    【IT168 报道】浪潮IFA智能弹性架构技术理念在近期推出的四路服务器中又一次得到了完美的演绎。其中,特别引人注目的是内存热插拔、内存Raid和高级光路诊断在四路服务器中的应用。这三项技术在浪潮服务器中是如何彰显“智能”的?我们邀请了浪潮智能服务器的研发负责人张进工程师对上述三项业内领先技术的实现原理和应用价值进行解析,以飨读者。

内存热插拔,免除应用移植的噩梦

    在传统的观念中,内存作为处理器与磁盘交互的中间桥梁其重要性不言而喻。然而由于内存不像硬盘那样具备机械性的机构组成,因此在长期的技术改进中业界将主要精力花费在提升内存性能方面,在提升内存的可靠性方面却没有大的作为。

    尽管目前有ECC技术提供数据校验和纠错功能,内存热备、镜像等技术进行硬件级别内存数据保护措施,但是当上述手段都失效并需要更换内存时,用户则必须关机进行内存替换。对于需要服务器365×7×24运行的客户而言,关机更换内存无异于一场噩梦。这意味着客户必须首先将正在运行中的诸多业务和数据进行移植,这个移植的过程往往不是1-2小时,而是若干工作日!内存更换完毕后用户将应用恢复到最初状态又需要若干工作日。因此,仅仅做看似很简单的内存更换就需要动用大量的人力、物力,而对业务流畅进展的影响更是不可低估。

    为了彻底解决用户对内存子系统容错的需求,在更高的层面上保证服务器永不停顿的运行,我们在NF520系列产品中引入了内存热插拔技术。在更换内存的时候只需要在系统提示灯的指引下关闭故障内存所在的内存板,取出内存板并更换问题内存,然后将更新的内存板重新与主板相连接并打开相应电源。随后系统将重新识别该内存板和更新的内存。在内存更换的整个过程中,系统的运行不会受到任何影响,客户不需要做任何应用的移植,更不需要担心业务运转的流畅性问题。内存热插拔技术的革命性引入彻底改变了内存子系统不能在线更换的不利现状,让企业级服务器的高可靠性获得了进一步的延伸和发展。

内存RAID,让内存子系统更完美

    目前,在企业级服务器中通常运用内存热备和内存镜像技术来提升系统的可靠性。但是我们也看到这两种流行技术存在着一定的缺憾。由于内存热备不支持内存热插拔操作,并且只满足一条内存的容错,但大多数企业级服务器配置的内存都在2条以上,因此内存热备对企业级服务器只能提供相对有限的内存容错保护。内存镜像作为一种更为成熟的内存容错技术,虽然支持热插拔操作并可以保证系统内存在更换过程中不间断运行,但是它却使内存的利用率降低到了50%,用户需要为内存子系统付出高昂的投资代价。

    为了给用户提供一种更经济安全的内存容错方案,浪潮NF520系列产品中特意设计了内存RAID。内存RAID是一种类似于硬盘RAID5的内存容错技术。它利用一块内存板存储其余内存板上数据的奇偶校验值,从而实现对所有内存的容错保护,同时使得内存的利用率提升到了75%,更好的满足了客户对高性价比的内存容错需求。此外,由于在NF520系列产品中每一个内存板都是通过一条独立的高带宽数据总线与北桥芯片相连接,因此内存RAID技术在保证系统内存高可靠容错的同时丝毫不降低系统的整体性能表现。

    内存RAID技术的出现有效整合了内存热备和内存镜像的优势,结合NF520系列产品的其他设计特性使得内存子系统在容错、利用率和性能上达到了完美和谐的统一。

高级光路诊断,防患、排障一举两得

    尽管通过应用各种冗余技术能够保证服务器系统在绝大部分时间内不间断的工作,但是宕机仍然不是可以百分之百避免的。那么一旦出现宕机,如何在最短的时间里定位、诊断并解决故障就显得尤为重要了。传统的服务器故障诊断模式多为最小化系统、替换法、Debug卡等简单的通用方法,此类方法操作方法繁琐、诊断的错误种类单一、跨硬件平台的可用性差而且对诊断者的职业经验要求高,因此企业在服务器的日常维护管理中需要投入很大的人力成本。

    针对传统服务器故障诊断手段的局限性,浪潮在NF520系列产品采用了高级光路诊断技术来提升企业级服务器的可管理性。高级光路诊断技术利用特定或者成组的LED灯报告硬件的运行状态和故障信息,以便管理者可以更快速、更准确、更全面的发现系统的问题所在。采用高级光路诊断技术后,管理者在一般情况下只要通过系统自动采集的信息就可以定位并排除故障,而不再需要其他复杂手段(如不可靠的Debug卡)的辅助了。

    NF520系列产品上的高级光路诊断设计主要由以下部分构成:系统状态指示灯、电源正常供应指示灯、电源过负载指示灯、内存板信息指示灯组、热插拔I/O槽状态指示灯组、系统Post状态指示灯组和系统故障指示灯组。

    位于前面板上的系统状态指示灯在正常状态下呈现绿色,当系统的任意一部分组件出现故障(包括不会影响系统正常运行的故障)时,其立即呈现为警示黄色。通过该指示灯我们可以在第一时间了解到系统可能存在隐患。前面板上的系统状态指示灯位置显著,用户可以方便快捷的了解系统的运行状况。这种系统状态指示灯对于冗余电源等那些没有专用指示灯且需要不时更换的部件而言非常实用。

    位于主板上的电源正常供应指示灯在呈现出绿色时表明系统输入电源供应正常。而当电源过负载指示灯呈黄色状态时则是在提示用户系统电源的负载已经超过90%,这种情况的出现大多是由电源的老化或者掉电(电源输入接触不良)造成的,对系统的正常运行构成了一定的威胁。通过电源正常供应指示灯和电源过负载指示灯用户可以首先排查电源子系统的问题。

    位于内存板上的内存板信息指示灯组主要由内存板电源指示灯、内存RAID指示灯、内存Mirror指示灯和内存槽状态指示灯组组成。内存板电源指示灯指示内存板是否被正常上电。内存RAID指示灯指示内存Raid功能是否被正确开启。内存Mirror指示灯指示内存Mirror功能是否被正确开启。内存槽状态指示灯组指示各内存槽的工作状况,该指示灯组共有4个指示灯构成,对应内存板上的4个Dimm槽。当内存槽上的内存出现问题的时候,其对应的指示灯就会以红色警示出来,而当该灯组全部亮起的时候则很有可能是内存板出现了故障。

    位于主板上的热插拔I/O槽状态指示灯组指示I/O扩展槽上所插卡的工作状态。这组桔黄色的指示灯有三种状态:点亮、熄灭、闪烁,分别对应I/O卡正常上电、断电和初始化或者卸载中。

    位于主板上的系统Post状态指示灯组可以指示系统从启动开始对各子系统组件检测并加电的整个过程。在系统无法正常启动、发生死机等情况下,将该灯组所呈现的组合对照光路诊断参考明细书就可了解系统哪部分的初始化出现了问题。

    位于主板上的系统故障指示灯组是整个光通路诊断的核心。该灯组由4个LED构成,能够指示16种系统错误,涵盖了处理器、电源、处理器供电模块等重要系统组成,并且没有无意义的空代码。在系统出现错误无法正常引导的时候,系统故障指示灯组可以快速帮助管理者定位系统可能出现故障的地方,结合其他的光通诊断指示灯将大大提高我们快速定位并解决故障的准确性和效率。

0
相关文章