【IT168 资讯】提到人工智能,不仅为生活带来了巨大的便捷,也大肆涌入企业,推动产业创新。它并不是一夜爆红,只是在近两年才得到了迅速发展。
那么,浪潮具体是对人工智能如何布局与理解的呢?近日,浪潮在北京举行了首届人工智能计算大会(AI Computing Conference简称AICC),会上,本次大会发起人、中国工程院院士、浪潮集团首席科学家王恩东表示,“当前人工智能计算面临着提升计算性能、不同场景计算优化和生态建设三大挑战,我们需要加强计算芯片创新、可扩展平台架构、系统优化设计等基础技术研发和能力构建,同时也要从硬件、软件、应用、人才等多方面综合提升,避免短板效应带来的整体产业发展的不良反应。”
▲中国工程院院士、浪潮集团首席科学家王恩东
AICC是以人工智能计算为主题的国际性产学研交流合作平台,全球数十位知名专家围绕AI计算创新主题进行主题演讲,分享AI在互联网、云计算、超算、安防、医疗、能源、电商、智慧城市等众多行业的创新实例。AI将会与其他领域技术碰撞出什么火花呢?
AI+HPC
AI与HPC的碰撞无疑会为应用的提升带来极大地促进作用,更是推动高性能计算向“智慧”迈进,浪潮积极促成AI与HPC的融合。
人才的融合上,制定了完善的人才培养计划,出版了多本HPC的著作和AI专题报道,建立了高性能计算社区,也与多所大学联合开展有关高性能计算的课程。
产业融合方面具体有三个领域。在气象预报领域,传统HPC能预测3-15天的气象状况,精准预测未来5天的情况,但短时段预测就要靠AI了。而生命科学方面,通常用HPC做基因测序、比对等,而利用AI在图像识别上的优势做医疗影像的处理。在传统的材料学领域,通常用低性原理获取材料特性,而现在以数千种材料的能系图做为参考和输入源,进行AI训练以预测相应的复合材料的特性。
针对产业融合中遇到的系统管理方面的需求,浪潮发布AI管理软件,能快速部署深度学习环境,管理训练任务,提供高效运行环境。面向数据中心级的要求,浪潮发布新版本的ClusterEngine管理软件,同时涵盖AI、HPC、大数据三种业务,这三种可以动态切换,快速部署应用环境且与HPC和AI深度集成。
在硬件集群方面,HPC集群要求是根据应用定型,但AI由于它本身脱胎于庞大的数据和计算力,对集群的要求会更高。那么,如何把HPC和AI对于集群的需求合二为一呢?首先,两者硬件需求不同,需要做不同的细化应用。其次,融合AI和HPC,要在大平台上有新型应用管理方面的创新,能够统一管理、调度HPC和AI的一些应用,并做相应的分析。最后还需优化加速应用。
▲百度云智峰会上,百度与浪潮联合发布的ABC一体机
浪潮刚发布的全新一代M5产品,就能从容应对各种计算需求对硬件结构的不同要求,这一点就很好的解决了在硬件架构方面和集群的硬件配置方面的挑战和需求。
由此可见,AI与HPC的融合不仅有用,而且必要。而浪潮则通过系统调优、应用调优、加速等增值服务帮助企业构建HPC和AI的硬件集群优先平台,从而更好地实现HPC和AI的融合。
AI助力企业转型与创新
AI助力企业转型已经不是新鲜事儿,许多传统产业都借助AI进行转型,也有许多有关计算的企业借助AI优化算法。那么,具体企业如何借助AI实现产业创新,关于企业如何设计端对端的AI系统以及可能会遇到的数据、算法、计算系统三大挑战又如何解决呢?
针对这些问题,浪潮阐明相应措施和步骤。从整个端到端AI的计算设计流程来看,先通过具体的应用场景进行问题的分解。分解完后对模型进行设计。模型设计有不同的AI处理需求,可能是对图像、语音的处理,也可能是对文本、数据的处理。
接下来是数据的预处理、数据的清洗、增强和标注,数据预处理方面,主要是给数据噪声去噪和增强的过程。
最后就是对框架的选择,选择好后进行针对性测评。不同场景的问题选择不同的框架,对不同模型的特点也要选择不同的框架。此外,根据计算平台的特点做出测试和分析。就系统设计架构来看,训练可能采用CPU加GPU异构的平台,网络方面,一般线下采用高速互联网,线上采用万兆的方式。
整体完成后,需要对系统进行部署和管理,如果系统规模较小,单节点或几个节点感受不明显。如果系统规模有上百个节点,那么靠人工的方式去管理整套系统,成本过高。于是,浪潮对整个的AI计算系统部署管理平台,以实现快速部署,此外,对开发和调试阶段进行可视化。用统一的资源平台进行管理,进一步排列,实现资源的合理使用。
总而言之,先是采集不同的数据,然后经过CPU来进行预处理,统一存储,通过GPU训练数据,再在训练平台上部署管理系统及相关的框架来支撑整个训练环境,最后实行智能的推断和识别。
AI牵手互联网创造新辉煌
目前,中国已经成为全球第二大人工智能企业的孵化地。从整个HPC领域到互联网,再到今天的传统企业,大家都有同样的一个需求就是如何能够把AI这个技术应用,并且落地,让AI的硬件与软件匹配起来。这是整个行业的奋斗目标,同时也面临巨大的挑战。
对于传统企业,是需要整套的解决方案的,因为在软件层面他们缺少前期积累。这时候浪潮提供了一体化的解决平台,不单单是底层硬件,还有一些上层的软件方面,然后实现软硬件的匹配。
浪潮也与互联网企业像是百度的图像识别甚至是阿里的AI的云合作,加上浪潮本身擅长于IT基础设施,可以帮助传统企业实现快速转型,提高它的核心竞争力。
与互联网公司的合作除了帮助传统企业实现转型,浪潮也创新了一些产品,一起将AI技术优化到极致,从而提升其各方面的技术应用。互联网企业更擅长软件开发、软件算法的移植,那么,浪潮精妙地匹配软硬件、搭建更好地IT架构就会是其中的关键。
根据企业想要实现多卡互联的诉求,浪潮联合互联网公司将原有的模式进行创新,缩短了训练时间,同时也降低了系统成本。针对不同企业对服务器不同的要求,浪潮调整了拓扑架构,以实现灵活的调度调整。不管你是单机4卡还是8卡,统统满足你。
构建新AI 创新计算
AI近两年炙手可热,这与深度学习理论的发展分不开。数据、算法和计算,构成了现在基本的深度学习系统的架构,而框架、算法、模型,又是AI计算里最基础的计算环境。目前,AI就是一个比较简单的环境。图片的识别、分类、文字语音的识别可以在这个环境里处理,但是如果要做一个比较复杂的AI系统,就没那么简单了。通常,构建一个大型的AI系统,面临的计算就会比较复杂,同时,也会面临一些多用户如何协作、计算资源如何分配、如何保障硬件的性能正确发挥出来等一些常见的问题。
其实根本来说就是提高效率。据此浪潮提出了两大方面:一方面,简化AI业务,降低复杂度,以减少训练时间,尽快出结果。另一方面,需要对硬件的性能进行优化。首先对系统性能有个分析,然后再针对具体问题进行优化。
从深度学习业务流程来看,首先构建训练环境,就可以进行训练调优,找非常好的的参数、最优的性能、最优的模型。创建环境是其中一个比较关键的环节,之后,通过Web进行机器学习训练,不停训练直至找到最优。期间,通过训练可视化实现实时了解和掌握。
在计算系统优化方面,将计算资源整体集中管理和分配以提高计算系统效率。集成管理方面,统一管理GPU资源,明确当前资源的使用负载以及性能情况。将资源集中管理、集中调度、按人员需要分配。然后进行针对性优化,保证集群的性能正常发挥,且发挥最大功效。
其实,总的来说就是在用户的应用和计算资源之间构建一个中间层,构成用户和硬件之间的桥梁,简化AI的业务复杂度,通过这个中间层保证硬件的资源有统一的使用、统一的分配,没有浪费,能满足每个人的需求,保证底层硬件设备的性能卓越,这样才能把硬件的计算性能发挥出来,达到加速训练提高AI系统效率的作用。
点评:笔者认为AI是一个黑匣子,里面有着探不完的宝藏。而探索AI是一个长跑的过程,浪潮领跑,跃进各大领域,徜徉于AI大潮,携AI玩儿转智慧计算。