服务器 频道

互联网应用技术峰会:英特尔Peggie Zih

  【IT168 资讯】今天,由广东省网络协会和浪潮集团共同主办的2014互联网应用技术峰会在广州举办,来自传统企业和互联网新兴企业的负责人欢聚一堂,共同探讨互联网转型事宜。英特尔资深解决方案结构师Peggie Zih致辞。

  今天要分享的是先有两个案子,希望从中带出Intel在跟不同用户合作的时候,到底在大数据能做一些什么事情,第一个案例是一家媒体公司,也是新闻报纸,他们跟我们合作的时候,在香港的读者数量已经是最高的,在手机以及网上的阅读量已经达到一定的水平,每天在高峰期,电讯公司的整个机房实时都是来自于新闻、报纸的流量。每天它会有大概三千多万的流量,他们在想的是我怎么能够掌握更多读者的信息,以及网络可以去发展什么,如果你跑到某一个地区,我是不是可以了解你在什么区域,你的喜好,从而把附近商店的推广推送到你的手机上面去,最终想要带来的广告收益,新闻以及媒体只是作为一个平台,怎么样去掌控更多的读者信息。

互联网应用技术峰会:英特尔Peggie Zih
▲英特尔资深解决方案结构师Peggie Zih

  当时它跟我们合作的时候,就是我们怎么样能够知道几百万个读者每天的喜好,他们有日报,也有实时新闻,我们做了一个推荐引擎,从每一个读者去访问,每天不管是网上或者是手机,阅读的一些新闻中找出来的。比如这边(见PPT),每一个新闻有不同的类别,有体育,也有商户,有本地或者是全球的一些新闻,怎么样从众多的阅读习惯里面找出,每一个读者是独立的,他有一个阅读的习性,我们找出这个读者80%喜欢看体育新闻,每天如果有10分钟,有8分钟看体育新闻,有2分钟看金融类的新闻,我们可以给他推荐一些相对应的新闻,比如日报的时候,如果是要推荐5个新闻,我们会把4个新闻是体育的,最后1个是金融的新闻推送到他的手机。每天每日每刻都有一个实时的新闻在发布,这个时候我们同时希望这些读者能够实时掌握他有兴趣看的新闻,这个时候我们在实时新闻推荐相关的新闻,但是我们必须考虑的就是时间性,会集中在体育和金融推送新闻,但是由于新闻进来的时间性,我们的比例会不一样,这是当时的一个难题。

  同样的,在每一个领域里面,我们可以再细分,比如同一个读者在体育新闻里面,他比较看中的是网球、足球,以及篮球,他都有分类,我们叫做子分类,在里面的子分类又是什么样的习性,我们也得算出来,同时把一些相关的新闻推荐给他,所以不仅仅是很高层次的推荐,还要有很仔细的分类。

  我们怎么样去做这个事情呢?首先看一下它每天有600多条新闻,有三千多万条的阅读习性,这是从几百万个读者中进来的,我们做的第一个事情就是做语文处理,语文处理是什么呢?从600多条新闻中找出它的子分类,它到底是属于网球、篮球或者是属于地产、证券,或者是一些法律相关的新闻、更细的分类,我们得先找出子分类,找出来以后,我们去做一个聚类分类,这是没有通过人工调整的,纯是用大数据分析,找出这20个新闻其实是属于同一个分类,找出这个分类以后,我们再把读者阅读的习性配对,找出每一个读者对于多少个子分类曾经有一些阅读习惯,从而找出,我是喜欢体育,或者我是喜欢看英超,我是喜欢看美网,这是一个子分类,找出来了以后,每次有新的新闻,可以是每天,也可以是实时的每条新闻,进来的时候,每条新闻都会重新做一个聚类,比如在座有300个人,比如有50个人才是对这条新闻有兴趣的,如果其中50个人打开手机,就会马上看到一条我们通过分析你应该喜欢的新闻送到你的手机上面,这是整个逻辑架构。

  对于怎么样去做语文处理,这是一个中文的语文处理,因为在香港,所以是繁体字,在座在互联网有很多东西需要做语文处理,当初我们做了几个对比,一是传统的,你可以用语文的分类、分段器或者是字典,能够从中找出一些句子或者一些词语,是在这个字典上的,我们找了一条,张叔平《一代宗师》角逐奥斯卡非常好的服装设计奖,分段器就可以把它分成名词、副词或者是专有名词,这里面要有一些费用,同时要确认它的准确度以及实时性,因为新闻词语每天都在更新,每天都在变化,另外就是用charecter N-gram,把词语拆开,每两个字是一个词语,做了这样的事情是干什么呢?在多条新闻里面,看这边分拆出来的词语的重复度是多少,从而去判断它是不是真正的词语,是不是一个有代表性,有意义的一个词语,找到了这些之后,我们把每篇文章的代表性词语,比如前10个代表性的词语分开出来,里面有600条,就会有某几篇文章的前10个词语可能会有相通的,这个时候你就会看到一些密集的点,代表这里的几条文章的词语找出来,比如排名前10个,有七八个都是一致的,我们把它断定为聚类,它的属性应该是同一个子分类,找出这样的分类以后,你会看到这边画了一些大的圈圈,这可能是其中的一个子分类,拿刚才的例子,这是体育类,这是足球,某一部分是英超,或者是欧洲的,这边可能是金融的,这边可能是一些健康或者是其他的新闻,找出这样的大类别,这边还会有一些小的类别,找出来了以后,我们把读者的习性配对到上面去,我们圈出来的读者1,只是看这两个类别的新闻(见PPT),读者2反而是看这边的新闻,这就是我们找出到底每一个读者喜好的方法。

  上面我提到用一个语文分段器等等都能做到这样一件事,如果没有用大数据的平台,所有的处理并行的分散到所有的服务器,这边长种是不可能的,你把它拆分开来,然后再做数字的归类,是需要很大量处理能力的。所以以往是用语文分段器来处理,现在因为有大数据平台的出现,右边这块就变得更为可行了。

  刚才提到的是媒体上面怎么去用,以及在云平台上跑的大数据分析,另外一个角度,同样是去看一些交易,但是这是Intel内部的案子,在大数据行业,有很多引擎都是保密的,他们来洞悉当中数字的能力变为他们在业界能够领先的一个工具,到目前为止,我们跟很多公司合作,对于他们能不能分享一些引擎的机密,还是比较保密的,所以我今天拿了另外一个案子,是Intel自己内部怎么去用大数据引擎。

  这边是我们的一个案例,以往Intel去卖我们的产品是通过一些分销商,然后到一些经销商分销产品,但是到今天,我们的分销渠道已经有了17万个分销商,可以想象谁应当是我们投放资源的分销商,这就是我们在这个案子上面的关键点。我们做的是根据大数据的分析,17万个交易分析,我们根据营销策略来整合,所以是内部结构化的数据以及非结构化的数据分析出来,到底17万个经销商里面,哪些是Intel可以投放资源的,同时投放资源的时候,会带来它更高的销售量,通过这样一个分析以后,这是我们在亚太区部署的结果,翻了3倍,我们能够更准确的知道哪些经销商才是更高能够带出一些销售,同时结合市场营销的方式,找出经销商,所以能够翻了3倍,带来的是2千亿美金的增值。

  同样是聚类分析,有些是我们有监督性的聚类分析,通过我们去了解那个业务,那些经销商高销量,另外通过销售数字来判断,通过这两个,我们带来的是我们怎么样去预测、分析,哪些经销商才是最值得我们投放资源。

  由于时间关系,我就很简单说一下,刚才你们看到的案子,可能是跟数据分析有关系,但是背后每一个案子其实都是有Intel在大数据平台上的一些技术去支撑的,包括我们的处理器、网卡、硬盘、SSD,还有我们怎么样帮客户做一些分析,以及一些软件的结合,在所有的大数据平台以及分析上面,Intel占有的地位,不仅仅是大家都认识的,我们不光有平台作为一个工具,同时我们跟不同的开源,或者商务上一些内存的计算也好,我们跟他们紧密合作,把适合的方案,帮助我们的客户实现大数据分析,以便让他们洞悉商务中能够往前迈进的一步,这就是我今天的分享,谢谢各位!

0
相关文章