“虽非蟾宫谪降仙,何惧冰殿冷彻骨。窥帘斜视金屋小,多少俊才在此关。”这首精彩的七言绝句并非出自名家之手,而是浪潮人工智能研究院发布的全球最大规模中文人工智能巨量模型——“源1.0”的杰作。
据了解,作为全球最大规模中文AI巨量模型,“源1.0”的参数规模高达2457亿。在阅读学习约2000个亿词后,其不仅在AI写诗方面有了很大进步,同样可以完成对话、写对联、生成新闻和故事续写等工作。
“源1.0”正式亮相AICC 2021
在AICC 2021大会上,全球最大规模中文AI巨量模型“源1.0”首次亮相。其单体模型参数量达2457亿,训练采用的中文数据集达5000GB,相比美国OpenAI组织研发的GPT-3模型1750亿参数量和570GB训练数据集,“源1.0”参数规模领先40%,训练数据集规模领先近10倍,问鼎全球最大规模中文AI巨量模型。
据了解,在衡量巨量模型最重要的三个层面上,“源1.0”都做到全球领先。
在算法层面:“源1.0”巨量模型共2457亿的参数,超过1750亿参数的GPT-3,问鼎全球最大的中文人工智能巨量模型。
在数据层面:爬取2017-2021近五年来,中文互联网中的网页数据、公开中文语料库、中文百科及电子书等,经过清洗及处理,最终获得5000GB高质量数据集,是GPT-3的近10倍,成为迄今业界最大的高质量中文数据集。
在精度层面:“源1.0”在语言智能方面表现优异,获得权威中文语言理解评测基准CLUE榜单的零样本学习和小样本学习两类总榜冠军。在零样本学习榜单中,“源1.0”超越业界最佳成绩18.3%,在文献分类、新闻分类,商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军;在小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等4项任务获得冠军。在成语阅读理解填空项目中,源1.0的表现已超越人类得分。
同时,在对“源1.0”进行的“图灵测试”中,将源1.0模型生成的对话、小说续写、新闻、诗歌、对联与由人类创作的同类作品进行混合并由人群进行分辨,测试结果表明,人群能够准确分辨人与“源1.0”作品差别的成功率已低于50%。
在这里,笔者想强调一点:人工智能的强大并不意味着未来完全取代人类,而是成为人类最得力的帮手。正如浪潮信息副总裁、浪潮信息AI&HPC产品线总经理刘军所说,人工智能是“助手”和“工具”,浪潮则希望站在人工智能的肩膀上思考,也希望科技产业,能站在人工智能的肩膀上完成创新。
巨量化将成为AI发展的常态
人工智能如何发展出像人类具备逻辑、意识和推理的认知能力,是人工智能研究一直在探索的方向。目前来看,通过大规模数据训练超大参数量的巨量模型,被认为是非常有希望实现通用人工智能的一个重要方向。中国工程院院士、浪潮首席科学家王恩东认为,随着巨量模型的兴起,巨量化已成为未来人工智能发展非常重要的一个趋势。
中国工程院院士、浪潮首席科学家 王恩东
目前,全球知名的AI领先公司在巨量模型上都予以重兵投入,谷歌、微软、英伟达、浪潮、智源研究院、百度、阿里等公司相继推出了各自的巨量模型。巨量化的一个核心特征就是模型参数多、训练数据量大。此外,巨量化也表现在模型应用规模大。
互联网头部公司的AI开放平台已经吸引了超百万的AI开发者,这些AI开放平台每天承载着数万亿次的调用量,数百万小时的语音识别,超过百亿张图像识别,超过万亿句自然语言理解等等。如此巨量的调用对算力中心的应用支撑能力带来了极大的挑战。
王恩东院士表示:“要想释放多元算力价值、促进人工智能创新,一是要重视智算系统的创新,加大人工智能新型基础设施建设,把从技术到应用的链条设计好,从体系结构、芯片设计、系统设计、系统软件、开发环境等各个领域形成既分工明确又协同创新的局面;二是要加快推动开放标准建设,通过统一的、规范的标准,将多元化算力转变为可调度的资源,让算力好用、易用。”
“源1.0”专注于自然语言处理,面向多场景AI任务
自然语言处理是指能够理解人类语言的AI模型,在广泛应用的智能助手中,语言模型是其能够与人类交互的根本驱动因素之一,被誉为“人工智能皇冠上的明珠”。
“源1.0”大模型专注于自然语言处理领域,可以创建任何具有语言结构的东西,自动问答,撰写论文、文章、诗歌、小说、新闻报道,提炼总结长文本,翻译语言,甚至可以创建计算机代码。最为重要的是,“源1.0”大模型可以产生创作“灵感”,可以理解文字背后的含义,并从文本中抽取关键信息,如从智能客服对话中感知客户情绪,以便更智能的满足客户需求,提供更优质服务。
“源1.0”大模型将应用于杀手级的应用场景,比如运营商的智能运维,在智能办公场景自动生成报告,在手机互联网场景自动对话的智能助手,在电商互联网场景中的智能客服,及文字识别、文本搜索、翻译等应用场景。
当前的“源1.0”聚焦在自然语言理解领域,后续“源1.0”将开展图像、多模态领域巨量模型的探索。
“源1.0”已敞开怀抱
虽然大模型的价值已被普遍认可,但其征途依然充满变数。比如深度学习的不可解释性、数据拟合的统计学缺陷、训练成本居高不下、能源消耗持续增长等,这些问题不会在短时间内找到答案,更不可能由单个厂商解决,开放合作是唯一出路。
在AICC 2021大会上,浪潮推出“源1.0”开放开源计划,“源1.0”将面向学术研究单位和产业实践用户进行开源、开放、共享,降低巨量模型研究和应用的门槛,打造新型算法基础设施建设,面向社会共享AI模型算法能力,加速企业数字化转型,有效推进AI产业化和产业AI化的进步,促进数字经济加速创新和发展,切实为国家在人工智能研究创新和产业发展作出贡献。
浪潮信息副总裁、浪潮信息AI&HPC产品线总经理 刘军
刘军表示,智算呈现多元化、巨量化、生态化的发展趋势,平台创新和开放生态是算力高效释放的核心。“源1.0”倡导产、学、研、用携手,共同建设健康的智能生态。
全球最大的中文AI巨量模型诞生,得益于浪潮在人工智能领域深厚的积累和不断的探索实践。浪潮一直活跃在AI前沿方向,在异构加速计算、深度学习框架、AI算法等领域取得了一定的成绩。未来,浪潮“源1.0”将推动创新企业及个人开发者基于大模型构建智能化水平更高的场景应用,赋能实体经济智能化升级,促进经济高质量发展。