【IT168 资讯】2013年5月30日,曙光公司在北京召开了以“数聚应用 价值新生”为主题的发布会,发布了新一代面向大数据应用的一体机产品。会上,来自曙光公司的副总裁邵宗有进行致辞。
邵宗有:刚才在下面跟张副主任交流的时候他就问我一个问题,说曙光怎么这么快就发布大数据的战略。其实我们这个张主任讲了一个实说我们没办法。四年前大概我们发布了云计算的战略,在这个全国各地。曙光自己投资建了很多的云计算中心,跟很多的重要的用户,建立了很多云计算的应。遇到了一些问题。在我们无锡新建的工程里面,存储达到10个PB有那么多人需要存储,就遇到了很多的问题,10个PB的存储值多少钱,我们能不能投资得其起。这个数据在那有什么用,不能为我们应用支撑。
所以我们很多的应用客户,就不断的跟曙光交流,说你们应该解决这个问题,正因为在云计算上面我们走的很少,我们发现了大数据的用户的痛点,和需要我们解决的问题。整个的大数据的环节大概有五六步,从数据的产生、获取开始,一直到数据的挖掘,而产生新的价值。在曙光看来,曙光的定位,就是说我们大约把数据看成三步走,我们做了三步走的战略。
第一个是怎么让这个数据落地,我们今天互联网、移动互联网也好、物联网也好,包括通信网也好,每天产生大量的数据。刚才举了一个指标,说一个大规模城市,一个季度要数据是100的PB,需要这么多吗?实际情况就是这么多。
根据没有人知道这个10PB怎么去分享,从里面去获取数据,没有人学过 hadoop,没有人学过网络编成的环境。怎么使大家掌握大数据的分析和处理的方法。
第三步就更复杂了一就是我们需要掌握方面,但是我们并不知道数据的价值在哪里。这个价值我们怎么去分析?怎么去挖掘,没人知道。跟用户一起去探寻,在15个G里面、20个G里面。这是曙光在大数据这两年里面,给自己定下的三步走的目标,应该说走的还不错。我们今天发布的叫“平台一体,应用为王”的战略。我们支撑这个战略的是三个方向。
一个是要推出场景,使得这个数据有一个很好的落地,并且有一个统一的结构化的分析平台,让用户比较容易的,让学这个关系型数据库的人,能够很容易的找到编程的方式。
第二步跟能源、交通、医疗等等大数据典型的应用行业一起,在大数据一体机上形成解决方案。同时我们还要为这样的用户提供应用的迁移。还有就是应用优化这样的服务。曙光和大数据的开发平台的,大数据的解决方案是在一起的,共同支撑大数据分析处理需求的大的行业。
首先是我们要讲的XDate的大数据一体机。这个一体机是非常复杂的架构,我们得到了863计划,一体机云存储1个多亿资金的支持来开发这个商品。在客户端之外,它其实分成了四个大块。
一个是一体机数据加载的系统,这句话主要是IO和计算为主。第二块是一体机数据查询的系统,加载查询在一体机里面是不同的模块。第三块是数据存储的系统,包括结构化,非结构化、半结构化的数字,在一体机里面有专门的分区,这个分区可以移动,来存储数据。
在这个之外,我们有一个带外的硬件全局管理系统,这三个系统一起构成了整个一体机硬件的结构。我们花了大量的时间去研究,大规模数据加载,他需要什么样的硬件特点。刚才我们数据加载分成两种。一种叫小数据调速,但是量巨大。在春节期间,这个数据怎么快速的加载进去,这是一类。
另外一类是高清摄像头,现在还没有这样的城市,这个高清摄像头影响数据大,传输慢。这样的数据怎么快速的加载到一体机里面。还有就是数据的查询,我们要研究这个特点。啊
一种是在海量的数据里面快速的查询,在100亿条数据里面快速的找出某一个号码发出的短信。可能就是一分钟的时间。还有一种查询的需求是对时间没有限制,但是对你的查询结果,调速特别多,我们研究这些应用之后,我们制定的XDate一体机加载、查询的硬件的规划和他相关的接口。
对于一体化的存储我们要解决两个问题,第一个问题是解决10个PB的存储怎么做的相当便宜。第二个问题是便宜的东西怎么做到高性能、高可靠。数据它憋不住,是需要落地的,怎么解决这个问题,这也是在过去的两年里面,我们得到了一个很好的解决方案。
这是我们一体机的软件架构,你把这个数据落地,检索的速度也很快,加载的速度也很快,但是我们怎么在这样的一体机里面,比较容易的实现应用的落地。现在来看,我们认为在大数据里面,有两大块是大家必须要正视的。一个是关于超大规模的结构化数据的加载。比如说手机短信、这样的结构化数据的加载,很乱。
一年刷一次卡,刷多少钱,谁刷的,这是一个典型的数据。手机的短信,在春节网上,一个晚上就是上百亿条,这是一大类。另外一大类是非结构化数据的加载和分析,这两个东西就形成了两大流派。一个是以SQL为流派的,另外一个是hadoop这个编成的框架。
我们在软件上要实现这么多层?第一个要提供一个语言,应用层来使用。第二个在数据处理层,我们要通过一个方法,能够使得他跟相关的SQL有一个语法的加能。需要多个存储落地的方案,共同构建一个软件的房子。
这个房子是很多的,现在国际上顶尖的企业都在做,但是对曙光来说,一方面在超大规模的结构化处理方面,有很多的积累,另一方面我们也充分的利用hadoop的标准,使这两个能融合,提供给用户一个更简单的大数据应用的结合。
这就是我们的大数据一体机,我们从几个角度里看。第一、我们怎么使得这个数据能够便宜,高性能可靠的落地。我们开发了一款机架式服务器,这个服务器有5U的高度,可以放80盘位。我们一台5U的服务器,可以放0.5个P的存储,10个P的存储没什么了不起的。我还没有见过PC服务器能卖100万一台的。所以10P的存储,也就几千万人民币就够了。
我们在这个云服务器上,又开发了新的算法。这样我们就很好的解决了这个大数据存储落地的情况。10P根本不是挑战,863计划给我们的要求,就是要做到1000个P的存储系统,让我们在2014年交出。10P其实是很小的。
而且我们在做这个0.5个G的存储服务器的时候我们做了两种。因为我们看了一个问题,过去很多数据放不下的时候,就把这个数据分成了三类,一个叫在线数据,一个叫镜线数据,一个叫离线数据。在线数据能放一点,离线数据可能有500G,又发明了一个叫静线数据。这个离线、静线、在线已经不适合大数据。
现在像百度、阿里这样的企业,他们提出的理念是叫热数据服务器和冷数据服务器。这个冷热数据服务器,跟离、在线有什么区别?不管是冷的还是热的都是在线的。但它解决了什么问题?过去的离线,为了解决大功耗、大能量的问题。这个就是利用RM的服务器,这个机器开着随时都可以用,一台服务器就是二三十瓦的电。
未来大数据就没有在线、离线的说法,只有冷热服务器的说法。
第二、通过曙光多年的积累。我们比较好的解决了数据加载、查询,以及任务断点执行的问题。曙光高性能计算,有相当的技术来解决大数据挖掘的断点执行问题。
第三、我们通过以往网等来实现和计算存储之间的超大规模网络问题,这个时候我们的使用经验已经超过了十几年,像曙光六千、曙光五千。还有一个是说,我们现在通过这个SQL的访问,把现在的结构化、非结构化的数据统一在一起。
同时我们通过hadoop让XDate有一个划分。大家知道每三个副本不可能在一个机柜里,这样使得XDate的整个安全性得到一个保障。我们的XDate和hadoop融合之后,也提供了一个方式。我们提供了SQL和Mapreduce统一执行框架。我们有一个视频数据,可能有20G的索引,我们在执行整个大数据挖掘的时候,可能很多的做法是通过SQL去挖掘到索引,通过Mapreduce这个接口,而且这个接口是类似SQL。这样就使得一体机对外的框架,有了新的飞跃。
关于底层复杂的关联,比如大数据标的关联,大数据服务的关联,我们也提供了关联数据的接口。使得过去在延伸的hadoop上做的事情,变得更简单。这几个合在一起,就变成了我们XDate一体机的硬件和软件。
现在这是XDate上我们看到的东西。我们的测试可以使得我们在不大的规模里面,使得每天51亿条记录的加载,这是在我们的测试环境里面测过很多次,在较大规模的环境里面,在每天加载51亿条记录的同时,还可以实现每天350TB的非结构化数据写入。可以满足所有的大数据加载的需求。这个规模比较大,如果说我们规模小一点,每天几亿条数据,十几个T数据的加载,其实没有什么难度。
对于数据检索,因为我们现在数据服务器,现在还是在在线和离线的传统里面,我们可以通过数据的信息度划分,使得在一条数据的时候。我们对数据的检索做了大量的研究。
对于数据挖却我们也做了工作,我们要为一体机提供数据挖掘的非常好的业务实践。比如我们在金融里面,我们把银联很好的经验总结起来。去推广到金融系统里面。交易分析,在电信里面我们跟移动已经做了两期,第三期马上就要上,要做经营性分析,用户行为的引导。
我们在智能交通里面,把视频进行多次的整合。我们在智慧医疗里面,推了很多的试点。我们要把这些应用,相关的经验总结起来,形成一个非常好的的业务实践,去跟我们同行业的用户一起去开发数据挖掘的相关的应用。在这个过程当中,我们还提供数据划分、断点续算等。曙光在一体机上也能够提供支持。
接下来是典型的应用场景。这个就是关于银行的。这是银联离线的交易分析平台。一期200T、二期600个T我们都已经交付了。第三个是我们和荷兰移动一起做的这个荷兰移动系统,电信运营商现在竞争很记录,我们用户伤亡的分析,流量的分析,怎么样精准的去引导他的消费,怎么样精准的投放广告,对移动这样的大企业来说,也是大的挑战,我们现在也做了两期。一期是XDate,另外一期是hadoop。一期500T,第二期2P,都是在去年交付的。
在安全领域,大数据安全领域是最先发现的。我们跟安全部门做的社会网络的挖掘。有一些人在12点之前从来不打电话,晚上12点才打电话。谁和谁打完电话,立刻跟另外一个人打电话,这样的数据上百亿条,你怎么能够很快的分析出来。这些东西都是在现在的大数据系统里面很热门的,这是我们已经做的三期。
还有就是我们在跟同济大学,同济建立了大数据的系统,我们已经给他做了两期,一期是500T。这一块现在的研究也很多。所以我们做出了一体化的机器,而且在相当多的重要的领域,现在国内外公认的大数据的五大领域。金融、电信、安全、智能交通、卫生,这5个领域是大家公认的。在很多的论文里面,这五个领域是公认的。在这五个领域里面,曙光都有很成功的案例。
最后我想说,我们不仅有这样的平台,我们还有服务的优势,在和行业的顶尖企业打交道的过程中,我们有很多应用移植、开发、的经验,同时还有售后服务的经验。这些服务和解决方案,构成了整个曙光大数据一体机的三个方面。谢谢。