【IT168 评论】11月27日下午,浪潮集团推出浪潮云海大数据一体机。浪潮云海大数据一体机是一款产品化的大数据平台方案,是大数据产业的装备型产品。浪潮结合当下大数据发展趋势推出此款产品,其目的为用户解决部署、业务移植开发等技术难题,帮助用户快速跨过应用门槛。
浪潮系统软件总监张东表示:“我们现在已经进入了大数据的爆炸式增长的时代,实际上人类从出现开始就不断的在积累数据,但是在近些年随着我们很多新技术的出,比如说我们互联网的发展,特别是移动互联网的发展,中国现在有3.5亿的手机用户,这些用户每天都在网上产生大量的数据,比如说产生大概有2亿多条的微薄,上传了大量的照片、视频等等,这些数据都推动着我们互联网上的数据以一个爆炸式的方式来增长。”
大数据将成为推动社会发展的强大引擎
那么大数据对我们来讲到底意味着什么样的机遇或者说对我们整个信息产业都有什么样的挑战?
大数据推动交通领域的发展:交通应该说是每一个城市管理者都要面临一个非常重大的问题,特别是像在北京、上海这样超大型城市,堵车是一个家常便饭,大家估计每天都会受到堵车的困扰,在传统管理模式下,大家知道北京有限购、限行,不让你买车,隔几天就不让你走,但是这些手段实际上缓解我们交通的效果大家也都看见了,其实车数量总是在不断增长,它一种新的测试出来在很短的时间内就会被抵消的,如何利用我们已经积累的大数据,实际上在交通领域我们的数据量现在已经非常庞大了,在北京市大概有50万个摄像头,包括各种摄像头,在路上专门针对路口的摄像头也有几万个,这些摄像头每天都能产生3个PD以上的量。
另外在北京有公交一卡通,很多人都在用,每天大概在北京市产生4千万条的刷卡记录,包括公交车和地铁,这些刷卡记录标识了每一个人每一天从哪个地方上车到哪个地方下车的。包括现在出行的信息,这些都归我们更好解决交通问题提供了非常好的基础。比如说我们一个合理化的交通路径的规划,比如说我今天要去济南出差,从上地出门,我出门之前按现在的模式看看上GPS哪条路最短,哪条路最快,我还可以查实时的路矿,现在哪个路口是堵的,但是它很难预测这条路上我将要遇到什么?
因为我从上地到南站可能需要一个小时,在这一个小时的时候,是不是这个路上某一个小学要放学了,马上门口集了很多家长 ,或者一个商场搞促销突然拥了一堆人,这种实时的情况除了我们综合交通的数据,我们以前习惯性的数据,还有包括我们在其他行业里面商业行为,我们去挖掘网上每一个人的习惯,是不是今天突然有一堆人说我要到某某地方聚会,都会聚到那个地方去,通过这些数据更好的给我出门规划一个路径,使我能够快速的到达这个目的地,如果每一个人都能够按照有序的方式出行的话,整个社会管理就会达到非常合理的一个水平。
大数据技术推动未来医疗行业发展:张东针对未来医疗表示:“医疗的目的就是让大家能够活得更长一点,活得更好一点,大家少生病,说进医院,生了病也能马上治好。但是我们看一下现在的状况,很多人对于去医院看病难深有感触,看病还有一个你多了大夫面前,估计大夫大概给你三到五分钟的时间,甚至说不上十句话就把你打发走,而人体是很复杂的事情,我们在这里列了坐标,还有八个因素,这是影响你健康的八个因素,你的遗传情况,你职业是什么,是轻体劳动者还是重体劳动者,你平时喜欢吃肉还是吃菜等等很多因素,实际上大夫没有时间帮你考虑问题,为什么?”
大数据一体机完善银行系统建设:银行系统作为商业一个金融机构,它对数据挖掘要求比较高,但是他现在面临很大的问题,问题一就是数据量,数据量大对他来讲意味着两个方面,一个是说他现有的架构再扩展下去难度也比较大,虽然很多数据仓库号称能扩展很大。
问题二是如何扩展,数据仓库都是很贵的,他的成本也支撑不了。第三个他们希望开放式架构,因此他们就选择了一系列的大数据除了的解决方案来进行测试,我们在这里面提供解决方案是SDA-2机,这里面选择了四个测试用力的一个例子,在这里面跟他原有数据仓库,以及其他厂商测试的结构进行了对比,我们把所有的数据都转化为比例,就是说原有方案为一,剩下的性能一个比例,在这个里面的例子涵盖了各个方面,比如说卡档入库测试, 比如说个人账号汇划测试等等这样一些测试,在这里面浪潮大数据处理解决方案比他传统的方案优势是很明显的,最差也会扩展到十几倍,最好能够达到几百倍,同时我们跟其他厂商大数据一些处理方案比较里面,基本上处于比较领先的一个地位。
“这里面同样要处理的数据来源也非常广泛,除了我们医疗数据,我们的电子病历,还包括其他很多东西,大家想去医院你也不会给大夫提供你的职业、你的行为等等,这些数据实际上也通过其他渠道把它收集起来,我们把各个环节的数据放在一起来共同建一个模型,疾病的模型,你健康状况的模型,从而来给你个人提供一些专业化的指导。”
${PageNumber}网络规模扩大 流量成指数级递增
张东指出:“数据处理多类型和多维度带来的问题,我们这里划了数据处理的过程,不管你原来结构化的,半结构化的,非结构化的,实际上你最后走到数据挖掘的那一步,你都需要把数据精细划分,并且能够形成准结构化的步骤,这个基础上你再来建模型,进行数据关联性的分析,最后只是把这个数据战展现出来,让大家一看一目了然,这里面可能存在几种问题,第一所有环节是很多的,而且每一个环节对于数据,对于软件和硬件,对于IT基础设施的要求是不一样的,比如说我们要从非结构化数据里面挖掘出信息,你要从照片里面去做挖掘,你第一步还要挖掘,我要看的是大家传什么衣服,你还要判断这里面是年轻,是老的,最后是衣服的颜色是什么,这里面每一张照片可能完全不一样,但是到后面再做数据模型的时候,你的关联度就会急剧上升,你的任务就没法做得非常非常细碎,这里面实际上用某一个单一的软硬件这样的体系,其实是无法处理我们在数据挖掘里面的所有类型,所有应用,这是其一。”
“其二我们刚才讲了整个的过程,实际上仍然很复杂的,特别是在行业用户里面我们不能指望每一个行业用户都是IT方面的专家,他不可能像搞计算机的人一样,把环节里面所有东西全部搞定,这里面他就需要一个一体化的解决方案,把数据收集,从归类,到挖掘,到展现全部解决掉,最后只是形成一种服务,形成应用,这是第二个挑战。第三个就是在成本上面,这里面我们列了两个数字,虽然现在存储越来越频,存数据非常便宜,但是处理数据成本仍然还是比较高,特别采用传统的方法,比如我们用数据仓库这样的技术,可能你花几千万搭一个数据仓库,他能够处理数据规模不过是TB级的,平均下来每个TB甚至有十万的成本在里面,而现在我们要处理大数据的量是相当大的,几十T,甚至上P都是很正常的,如果按照前面成本一个P大概100亿的成本,这个是对很多用户无法接受的,这种情况下我们如何寻找低成本的方案,这个方案就能够帮助我们更多用户采用大数据的处理技术,把它的数据进行处理。”
大数据解决之道 硬件一体的创新处理平台
张东针对未来大数据面临的发展提出见解:“新型数据处理架构,第一个是数据本地化(计算随数据分布),我如果减少传输数据规模,就可以整体提高数据的速度。第二个方面就是业务的连续性保证,刚才讲了数据规模的扩大面对相当大的问题就是如何强一直情况下还能保证系统的可用性,如果可用性得不到保障的话,你整个服务实际上是无法继续的。新兴体系下我们采用了多复本的方法,这样使整个系统可用性不至于下降,那整个响应速度还可以保持住。”
采用新型处理架构:性能优化方面采用了很多措施,一个是硬件方面,就是充分发挥我们现在一些新型存储节制的作用,比如闪存盘的技术,闪存盘访问速度比较快一点,实际上读速度要比写速度快,他对写的速度是有限制的,作这里我们就将闪存盘放在我们整个计算缓存里面,做高速缓存,高速缓存特点就是读字多,写的少,同时利用了闪存盘的优点,减少了闪存盘的缺点。
性能优化第二个方面是采用Reed-Solomon算法优化分布式散列数据布局,满足文件高并发和高宽带双量需求同时平衡数据冗余度。最后一个性能优化,针对我们在分布式计算里面一些算法优化,分布式计算大家研究的很多,在互联网行业,在各个行业用的非常多的一个技术,但是在互联网行业里面,它可能对于任务这种一致性,对任务要求快慢并不是很高,比如搜索发出去一万个结果,可能回来是九千个,丢掉一千是无所谓的,但是行业应用是不一样的,我们所有的结果都需要全部返回回来,这里面优化系统任务调度策略,对任务实现针对监控,并动态调整任务执行资源,减少慢任务数量,提高整体性能。
最后张东对大数据一体机总结表示:“大数据其实现在已经逐步成为战略资源,将成为社会发展重要的推动力,而在我们所关注的行业应用里面,实际上他对大数据的需求是非常大的,但是单一的一个解决方案或者说它现在面临的这些问题不是靠某一个或者某一个现有的技术能够帮他解决的,那么浪潮大数据一体机秉承着一系列化、一体化、国产化这样一个罹难,通过创新的体系结构,通过软硬件结合这样一个方式来为我们的用户提供了一个全环节的大数据解决之道,最后我们也希望通过我们的专业化的产品和服务,能够帮助我们的用户在大数据时代实现更大的价值,能够一直保持领先。”