【IT168 专稿】无论是在产业界还是在学术界,云计算无疑都是一大热点。作为国内的最高等学府,清华大学计算机科学与技术系高性能计算技术研究所在国内云计算理论研究及应用领域一直处于领先地位。清华大学已率先在高性能计算和云计算领域进行了诸多的尝试和实践,并在校内广泛普及应用。对此,IT168记者采访了清华大学计算机科学与技术系高性能计算研究所教授武永卫,探寻清华大学在云存储和高性能计算领域的建设与应用实践。
“我们每个人每天都在产生大量的数据,但是却没有时间精力,或者没有很好的平台帮我们管理好数据。比如我会给家人拍DV照片,会将各种各样的数据刻盘,可是如果光盘坏了,就一点办法都没有。随着信息时代的发展,每个人产生的数据量越来越大,但是每个人对数据的管理却是越来越无力,所以我认为云存储的首要目标就是为每个人提供管理数据,存储和备份的条件,而且做到不丢失,因为现在数据已经成为了一种遗产。” 相信武永卫教授分享的观点大多数人都感同身受,也正是基于这个出发点,让他看好云存储的应用与发展。
▲武永卫教授在清华大学机房
武永卫教授介绍,自身的研究工作主要涵盖两个方面,一方面是云存储,在这个方面也花费了最多的精力,他十分强调云存储的实用性:“我们倾向于把云存储做的比较实际,有实验的环境来检验我们技术的先进性以及系统的可用性。”另一方面是虚拟计算,类似于亚马逊的弹性计算云(EC2),清华大学计算机系搭建的虚拟集群可供给学校高性能计算课程上机实验来使用,通过浏览器或者网络客户端的形式提供虚拟计算环境和运行环境,满足院系在高性能计算方面的教学实验需求。
共享激活海量存储
清华大学的Corsair云存储服务是专为在清华大学教职工及在校大学生群体打造的海量存储仓库,用户注册之后获得大容量私密存储空间,通过Corsair客户端方便地获取各种学习、软件、影音和游戏等资料,此外,清华大学将社区的设计理念引入到海量存储中,“在云存储中,产生的数据量会越来越大,对相同的数据产生共同兴趣的人会聚合在一起成为一个集体,我们叫做社区。” 用户可以根据自身的爱好创建社区,并担任社区的管理员,对社区进行简单的描述然后共享出来,所有的用户都会看到这个社区,感兴趣的同学可以申请加入社区,通过这样的办法来构建社区网络。因此在清华大学构建的云存储中,除了传统的数据备份之外,还有社区的数据共享,比如将一些知名的教学视频和课件在公共的存储空间展示出来,供学校各个学院学生使用。
▲Corsair云存储服务
数据的共享使得的存储的数据被更多的学生使用,发挥出数据的最大价值,同时,数据共享还激发出了新的应用。武永卫教授介绍,基于如此海量的数据,可以提供很多应用服务。比如在清华大学校园内有一款广受欢迎的视频节目“康熙来了”,清华大学校内无线网络覆盖广泛,因此,通过手机和wifi,学生就可以收看这个节目,节目视频内容就来自于校园的云存储。
据了解,目前清华大学校园云存储的规模已达到100TB,部署在位于不同地理位置的三个存储节点上。
打造坚实的平台 迎向开放
目前,清华大学云存储只限于在学校内部使用,同时在全国七八个大学和一些软件园区中使用,并没有向社会开放。武永卫教授谈到,其主要原因是云存储是以数据为核心的应用,所以对网络的要求比较高,校园网提供了一个很好平台和网络环境,为云存储的使用提供了有利的条件,创造良好的用户体验。另外,也是出于对数据安全性和敏感性的考虑。
谈到对未来的发展规划,武永卫教授表示:“我们希望把不同区域的云存储互相链接起来,比如说上海高校的学生,可能加入清华的某一个社区,这样大家可以产生更广泛意义上的数据共享。”
武永卫教授介绍会将云存储打造成一个基础平台,然后在这个基于数据的基础平台上开发更多的应用和服务,像现在非常普遍的手机上小应用一样。但是前提是要将基础平台做好,否则应用便无从谈起。“而且平台技术含量要比做应用技术含量更高,从大学的角度来说,我们更关注做系统结构,把平台做好。把平台真正做好以后,我们鼓励开放,并提供平台接口,每个人可以基于我们平台开发自己的应用,就像苹果或者国内的百度一样。我们以后肯定也要朝着这个方向努力,但目前要做的是把平台做好。”他说。
云存储底层架构
在云存储的底层架构方面,清华大学采用开源的分布式文件系统,并在此基础上,针对个人存储做了一些优化和改进,他介绍道:“针对普通用户的文件存储系统的元数据量会比较大,因此我们设计了一个分布式元数据管理系统;再比如说个人的文档文件在许多时候都需要随即修改,因此如何改善用户使用体验就显得比较重要,我们在这些方面花了比较多的时间和精力。”
此外,武永卫教授透露,在清华大学的云存储实验平台中,已开始使用自主研制的分布式文件系统。
对于分布式处理,面对的数据量通常比较大,也需要大量的硬盘,并通过软件和硬件的协作来达到稳定性、可靠性。作为非商业性的科研单位,清华大学的存储平台也是免费向校园提供使用的,因此在性能和成本的平衡方面,清华大学也有自身的考虑。“我们云存储的应用,用到了很多戴尔的存储设备,我们也通过买很多的硬盘,来扩容设备。” 武永卫教授说道。
更多资讯和高性能计算解决方案可访问高性能计算社区。