服务器 频道

突破IO瓶颈 京东在双十一都做了什么?

  【IT168 评论】随着互联网的快速发展及用户购买模式的改变,网上交易已经成为了我们生活的必须,像双十一大型电商促销及年前12306网站的抢票热都给我们的生活带来了不小的便捷,但与此同时,也给高并发平台的系统架构带来了猛烈的冲击。

  其实每到“双十一”,最紧张的并不是商家铺货、公关摇旗呐喊,而是电商IT系统后端的运维人员。电商“双十一”促销之前,运维人员就需要早早地做好多套预备方案,并时刻紧绷着神经,迎接“双十一”的到来。

京东商城系统架构和面临的挑战

  为了帮助大家对电商平台运维和管理有所了解,并通过电商在双十一的促销来分析电商系统的承载能力究竟如何,小编特意采访了京东商城交易平台副总监王晓钟及戴尔公司互联网解决方案团队资深经理尹玉峰,一同探讨高并发平台痛点的解决之道。

  京东商城系统架构和面临的挑战

  据京东商城交易平台副总监王晓钟介绍,京东商城从2004年初的“京东多媒体网”开始涉足电商行业,以连续八年年均增长率超过200%的速度,成长为中国最大的自营电商企业。在架构方面,他介绍说,最前端的往往是负载均衡设备,其次为Redis服务器(缓存频繁更新的小数据),系统后端的则是数据库服务器。对于电商系统架构来说,由于图片在整个电商系统中占据较大的应用空间和范围,因此,通常会设立有图片缓存服务器。

京东商城系统架构和面临的挑战
▲京东商城交易平台副总监 王晓钟

  一家优秀的电商平台在设计方面要关注系统的稳定性、可靠性、高并发和可扩展性等因素,还需要结合自身特点进行优化。同时,京东商城还比其他电商平台增加了进货、仓储、物流业务等环节,还有第三方供货支持,大大增加了业务的复杂度。

  对于京东来说,其将整个体系业务拆分为几个相对独立的子系统,如SSO,交易平台,POP平台,订单下传系统,WMS,仓储配送。每个子系统又可细分为若干部分,逐级简化,直至可操作,可优化的层级。比如说,交易平台包括价格,购物车,结算,支付,订单中心等;网站系统包括首页,登录,列表频道,单品,搜索等。接下来,针对每一个功能模块,将其切分开,针对关键部位,进行有针对性的性能优化。

京东商城系统架构和面临的挑战

  那么在具体什么应用的时候会体会到系统的IO瓶颈呢?

  王晓钟表示:依赖于数据库的应用,数据库的磁盘IO是个主要的瓶颈。对于关键的应用,一个是我们从软件架构上均采取了分库分表、读写分离这样的常规的手段,另外,我们也从硬件上进行了升级,使用了更快的Fushion-IO和SSD。

  流量超大的应用,网络IO是另外的瓶颈。之前我们经常碰到有网卡跑满导致丢包延迟,也有上层交换机上行链路跑满所导致。在618和双十一之前,我们陆续对关键应用的机柜交换机上行链路升级为双万兆,减小下上行链路收敛比。另外,逐渐在服务器上普及万兆网卡。当然,软件层面上的优化也需要同时进行。

京东商城系统架构和面临的挑战

  京东商城打有准备之战

  京东商城是如何应对双十一流量高峰增长的呢?

  王晓钟表示:研发部早在8月份就开启了双十一的备战工作。各个研发部门都针对自己的系统重新进行全面梳理,对不合理和薄弱的点,有针对性的进行架构和细节上的优化和增强,比如服务拆分扩容,服务调用关系的整理,SLA设置,各种监控/日志报警的设置,慢SQL优化,配置优化,缓存优化等等。阶段性的进行线下和 线上压力测试,检验改进效果。

京东商城打有准备之战

  不仅如此,研发部还专门成立了双十一备战指挥部,成员包括各个团队和系统的接口人,决策一些跨部门和系统的技术改进工作,负责 督促和检查各个系统的应急预案的准备和演练工作,比如扩容、降级、限流、分流、灾备切换等。

  在王晓钟看来,双十一只不过是平时备战工作的一个最终的检验而已,期间少数系统有临时的扩容和降级,基本上是比较平稳的度过的。

  通过上述对王晓钟的采访,小编总结了以下四个方向的挑战,第一内部系统的种类多、系统多;第二,数据量大,增长速度快;第三,市场追求速度越快越好;第四,用户种类繁杂。为此京东提出了总体架构的可用性、可扩展性和成本控制三条原则,确定了不过度设计、松耦合、抽象化、可重用可水平扩展等核心特征。而在将业务拆分之后,可以大大缓解高流量高并发所带来的瞬间峰值冲击,松耦合的系统也将峰值控制在了合理的范围内,并为未来的水平扩展留下了空间。

  新一代戴尔PowerEdge服务器支招电商平台

  针对此事,小编还特意采访了戴尔公司互联网解决方案团队资深经理尹玉峰,让我们来看一看戴尔服务器如何突破IO瓶颈,帮助电商平台应对流量高峰的挑战。


▲戴尔公司互联网解决方案团队资深经理 尹玉峰

  据尹经理介绍,在2014年9月,戴尔基于英特尔E5-2600 v3处理器平台的新一代戴尔PowerEdge服务器正式发布。首批新一代戴尔PowerEdge服务器包括了PowerEdge R730xd、R730和R630机架式服务器、M630刀片式服务器和T630塔式服务器。这些产品将作为承载主流应用的计算平台,覆盖绝大部分行业客户市场需求。戴尔强调,新一代戴尔PowerEdge服务器的改进设计都来自客户的需求。

  从1994年戴尔PowerEdge服务器诞生,到新一代戴尔PowerEdge服务器诞生,戴尔PowerEdge服务器品牌已经走过了整整20年。随着新一代戴尔PowerEdge服务器的发布,新产品的性能有了全新的变化,但不变的是产品优良的品质;新产品的设计有了全新的变化,但不变的是易用的理念。

戴尔13G服务器支招电商平台

  针对京东商城提出的系统IO瓶颈的问题,戴尔尹玉峰表示:新一代戴尔PowerEdge服务器的一个重要优势就是让存储更靠近计算节点,实现软件定义存储,并大幅提升应用性能。

  软件定义存储可大幅提升应用性能:实际上,服务器处理器性能一直随着摩尔定律持续提升,然而多年来磁盘存储性能却停滞不前,造成了处理器性能和磁盘存储性能之间的巨大鸿沟,从而影响到系统的整体应用性能。也因此,今天服务器系统更多的应用闪存在弥补计算与存储的性能差距。

  不过在闪存应用方面,戴尔显然有自己独树一帜的特征,根据尹经理介绍:新一代戴尔PowerEdge服务器在硬盘选用上率先支持了1.8英寸SATA闪存驱动器,这样,戴尔PowerEdge R630在与2.5英寸SATA SSD相同的空间内提供2.4倍的IOPS(每秒输入/输出操作次数)。

  此外,戴尔NVMe Express闪存和部署Dell Fluid Cache for SAN(戴尔面向存储区域网的流动缓存)以及SanDisk DAS Cache(SanDisk面向直联存储的流动缓存),大幅提升性能,并加速重要数据处理速度。新一代戴尔PowerEdge服务器还可选双PERC9控制器实现双倍的RAID性能,并能够在计算节点内提供分层混合存储配置,从而支持软件定义存储和优化的数据分布。

  通过与戴尔专家的沟通,让我们对电商平台系统架构有了更深刻的了解,戴尔专家也为更多的电商平台提出了一些切实可行的采购建议:

  可靠性:作为关键任务(Mission-critical)应用,电商平台的可靠性十分重要。当用户通过因特网进行在线交易时,如果因为该系统的电子商务应用缺乏足够的可靠性而导致交易出现故障,将直接导致用户对本系统的信心

  可扩充性:电子商务是未来十年的发展趋势,初建电商平台时企业主必须具有前詹性,可预见网站的流量及交易量的增涨,如果电商应用缺乏足够的可扩充性,将增加电商应用出故障的几率,从而直接导致其竞争力的下降。

  可用性:对于用户来说,他们希望无论何时访问您的网站,都可以得到一个100%可用的站点,也就是说,保证整个应用系统在即使某台服务器出现故障的情况下仍然能够保证事务处理能够顺利地进行下去,保证了电商应用24x7x365的高可用性。

  安全性:由于互联网的开放性以及互联网的扩展容量,来自网络上的非法侵入和恶意攻击等难于避免。规范网络使用标准,建立完善的监测和预防措施能够避免系统由于受到攻击导致崩溃或性能下降的危险。因此需要有一套系统方案能够帮助完成以上的目标。因此,能够同时满足以上四点的基础架则是电商平台的坚实后盾。

  写在最后,双十一不仅是购物狂欢节,更是对各家电商平台技术的终极考验。从技术角度看,京东商城用自己的表现证明了自己作为一流电商平台的地位,从用户体验角度看,京东则更能保证用户购物的流畅度,切实保障了用户购物的方便与快捷,从IT解决方案提供商的角度看,只有拥有坚实可靠的计算平台才能让电商平台在更激烈的市场竞争中保持不败。

6
相关文章