服务器 频道

每年停机不超5分钟 浪潮天梭K1如何做到

  【IT168 技术】2013年1月22日,浪潮集团在北京发布了自主研发的小型主机——浪潮天梭K1。这台服务器的出现改变了国内应用依赖进口的局面,同时随天梭K1发布的应用程序也相当成熟。现场,浪潮展示了天梭K1在关键领域的应用——金融(新疆建行、邮政储蓄银行总行)和电信(北京移动)等诸多应用案例,事实证明浪潮天梭K1在性能和稳定性上通过了严苛的考验,为关键业务提供了核心技术,也改变了行业应用中没有国产设备的局面。现场,通过浪潮展示的天梭K1小型机和诸多应用案例,更多的人了解到了天梭K1的高稳定性和安全性。下面我们就从技术角度解读K1小型机的诸多特性。

  多处理器CC-NUMA体系结构与处理器协同芯片组

  设计开发了“双翼可扩展多处理器紧耦合共享存储器体系结构”、与商业处理器兼容的两级目录Cache一致性协议,整体开发了多处理器CC-NUMA体系结构,研制成功关键应用主机两大核心部件之一处理器协同芯片组,突破了欧美国家对计算机“系统紧耦合技术”的封锁。

每年停机不超5分钟 浪潮天梭K1如何做到
双翼可扩展多处理器紧耦合共享存储器体系结构拓扑图

  处理器和芯片组是计算机的两项核心技术。芯片组负责将处理器之间以及处理器和内存、I/O等其他模块链接,是计算机内部I/O的“主干道”。处理器通常被称为计算机的大脑,而处理器协同芯片组则是计算机的躯干和灵魂,决定了计算机系统整体扩展性和I/O等关键技术表现,在计算机领域称芯片组的设计为Core Logic,从字面的意义就足以看出其重要性。

  体系结构是计算机系统最高层次的概念,严格的技术定义是‘程序员所看到的服务器的属性,即概念性结构与功能特性”,大体等同于计算机的逻辑模型,类似于建筑领域的设计图纸,体系结构是服务器设计的第一步,也是关键一步,体系结构对于服务器的性能、兼容性、稳定性、散热等问题有着基础性影响。关键应用主机体系结构要解决的核心问题是处理器和内存的互联,天梭K1有32颗处理器,256个内存插槽,将如此规模的单元互联起来,既要保证数据一致,又要将协同开销降到最低,以取得更好的性能,这是计算机领域的世界性难题。

  计算机的运行过程中,各个单元中的数据必须保持一致,以避免逻辑错误。缓存一致性技术就是确定了体系结构以后,各个单元之间数据同步的规则。由于关键应用主机系统规模庞大,处理器、内存等单元之间的通讯需要通过第三方协同芯片来实现,亦即数据先传输到协同芯片的缓存,然后再传输到单元模块去。天梭K1系统有数百个数据同步单元,建立一套复杂的缓存一致性规范是十分庞杂的工程,全球具有该项技术开发能力的公司不到5家。

  浪潮集团最终设计完成了“双翼可扩展多处理器紧耦合共享存储器体系结构”,成为国际上唯一一个只需要一级跳步的64路互联系统,目前该技术已经申请中国和美国专利。单元之间数据通信时经过一个协同芯片就称为一个跳步。跳步越多,系统的延迟也就越多,系统的性能消耗也就越大,导致“处理器增加,性能不增甚至减少”的现象,这是大型服务器系统面临的普遍性难题,也是制约大型服务器线性扩展的瓶颈,一级跳步的全互联保证了系统具有良好的线性扩展性,达到国际领先水平。在双翼可扩展体系结构和缓存一致性协议的基础上,浪潮设计出了中国知名款大规模处理器协同芯片组,这款世界领先的关键部件为天梭K1系统强的性能表现奠定了基础。

  我国第一款通过UNIX 03认证的操作系统浪潮K-UNIX

  浪潮K-UNIX 是基于LINUX内核自主开发的操作系统,专注关键应用,通过UNIX 03认证,意味着K-UNIX进入了关键应用软件俱乐部。

我国第一款通过UNIX 03认证的操作系统

  UNIX03全称为Open Group UNIX 03认证,该认证是关键应用软件生态的入门牌。目前,UNIX仍然是关键应用软件的事实标准,不仅关键应用软件大部分是基于UNIX标准开发,而且关键应用软件在UNIX平台运行时间也最长、最成熟,因而,要开拓关键应用主机市场,打入Unix软件技术生态圈是必须的前提条件,但是该认证复杂大,门槛高,目前只有IBM、HP、苹果和Oracle四家厂商的产品通过了该认证。

  UNIX 03是操作系统对SUS v3标准的符合性认证,由针对系统调用、库函数、编译器等在内的系列标准构成,需经过 3200余处UNIX兼容增强,通过六万余个UNIX 03测试项。

  多重容错技术体系

  作为专门面向关键应用业务开发的操作系统,K-UNIX不仅针对CCNUMA架构进行了专门的优化,性能大幅提升,而且在安全性和容错能力方面表现突出。

  全球优异实现内核多副本与共享库多副本UNIX操作系统。在各NUMA节点建立核心及共享库副本,保证应用程序总是访问本地的操作系统内核及共享库,避免跨节点远程内存访问,显著提高系统整体性能;多级调度域,多副本,DMA局部化等面向体系结构的优化技术提升系统性能近270%

  实现驱动保护框架的操作系统核心。在驱动程序和操作系统内核间构建驱动隔离层,对内核区域进行严格的访问控制;支持驱动程序故障检测及恢复,能够自动识别和重新初始化失效的驱动模块;该系统为设备驱动提供隔离运行环境,从根本上解决了不良驱动对系统的潜在威胁。

  K-UNIX具备智能故障管理框架的操作系统核心 ,全面支持硬件的高级智能特性

  定位故障部件并识别影响范围,隔离故障域,保证整系统可用;

  基于运行记录、资源故障关联描述以及诊断规则实现故障预测;

  监控并自动处理CPU、Memory、PCIE、IOH、Disk及应用在内的120余种故障;

  操作系统、系统固件等系统软件面向体系结构的定制和与优化,实现了软硬件结合的容错体系,保证了系统的服务连续性。

天梭K1发布会 浪潮董事长兼CEO孙丕恕
浪潮集团董事长兼CEO孙丕恕致辞

  关键应用主机一般做高端关键应用的承载平台,这类应用的特点,首先是有极高的事务处理压力,例如银行的结算系统,每天要处理上数十万笔交易,其次就是业务不能停顿,意外停机会带来严重的后果,多个行业已经对关键应用主机的连续运行时间提出了明确的要求。

  浪潮天梭K1在芯片、模块、互联通信、硬件分区、虚拟资源、操作系统应用容器等6个层次都采用了故障诊断、故障隔离和自治愈、热替换、自动报警等多重容错技术,提供99.9994%的极高可用性,保证系统能够能够将故障自动诊断、治愈或者隔离,不会影响对外服务。此外,容错能力突出的K-UNIX与天梭K1构成了软硬一体化的高可用整体解决方案。

  异构平台互备运行技术

  破异构系统互备运行关键技术,建立了国产关键应用主机进入核心应用的有效途径,为关键行业应用稳妥实现自主可控提供了切实可行的技术方案;

  之前,中国关键应用主机技术一直处于空白状态,对企业、政府甚至社会具有核心意义的关键信息化系统一直运行在国外的产品上,浪潮是这个领域的初入者,用户出于风险考虑,也很难把核心系统放到浪潮产品上。浪潮确定了“互备运行、逐步替换”的办法,让天梭 k1系统走入实际应用中。

天梭K1发布会 浪潮高级副总裁王恩东
浪潮集团高级副总裁王恩东先生发布会现场致辞

  经过经过兼容性研究、系统平台/应用平台移植、基础性兼容测试、功能测试、性能测试、集成测试和异构平台互备运行技术研究,浪潮天梭与国外关键应用主机系统,搭建了双机互备平台,天梭K1在几个月的运行时间内,表现稳定,从“备机”逐步转换为“主机”,成功实现了业务系统从国外小型向国产关键应用主机的移植,以及与国外小型机的互备运行,为关键行业应用实现自主可控提供了稳妥的技术方法。天梭K1系统的应用示范是在新疆建行完成的,承担12个生产性系统稳定运行1年多时间,完全满足现有业务应用要求。

  千万门级超大规模电路设计

  全球第二个实现了600×500超大尺寸、20层高叠层、0.5%高阻抗控制精度的电路板的加工并稳定量产。

  总结

  浪潮天梭K1系统的上市,是中国关键应用主机产业的开端,让关键系统、关键业务运行在自主关键应用主机平台上成为可能,中国信息战略的自主可控有了最底层的技术基础。天梭K1在研制过程中,突破关键应用主机多项核心技术及工程技术世界难题,建立了完整的自主化技术体系,使中国成为世界上三个掌握最新关键应用主机核心技术的国家之一。随着整体生态系统的完善,会有更多的ISV加入其中,也会有更多用户体验到浪潮天梭K1的魅力。

0
相关文章