美国东部时间8月2日上午,UCIe联盟正式官宣:新增阿里巴巴和NVIDIA两家Promoter成员单位。截至目前,UCIe联盟已经吸纳了12家行业巨头企业,并成立了6个工作组,旨在打造更全面的Chiplet生态系统。
那么问题来了,什么是Chiplet?行业巨头为什么要合力推动Chiplet创新?UCIe联盟为什么选择阿里巴巴这样的云厂商?这些云厂商在联盟中的价值有哪些?且听我慢慢道来。
小芯片成大趋势
Chiplet(芯粒)是在2015年Marvell创始人之一周秀文博士曾提出Mochi(Modular Chip,模块化芯片)架构的概念,这是Chiplet(芯粒)最早的雏形。
几十年来,半导体行业一直按照摩尔定律的规律发展着,芯片制造商凭借工艺技术的迭代,每18个月令芯片性能提升一倍。
但近年来随着高性能计算、图形计算、人工智能等领域的爆发性增长,当前的计算架构早已无法满足指数级攀升的算力需求。然而计算技术本身却面临着更加严峻的挑战,包括日益趋缓的摩尔定律、越来越高的芯片制造成本、以及晶片尺寸的物理限制等。
产业开始思考将不同工艺的模块化芯片,像拼接乐高积木一样用封装技术整合在一起,在提升性能的同时实现低成本和高良率,这就是Chiplet(芯粒)。
笔者认为,基于小芯片的计算架构正在演进成为一个计算架构发展的大趋势,我们相信它将为数据中心的未来计算技术,在性能、功耗、可扩展性、可持续性等诸多层面带来巨大优势。
业内需要统一的Chiplet互联标准
要知道,使用小芯片架构并不是免费的。除了各种封装和堆叠技术外,也要解决小芯片之间通讯的面积和功耗开销,以及如何让小芯片之间协同工作、集成验证和优化、建立稳定软硬件生态等操作层面的实际问题。
因此,在2022年3月,英特尔、AMD、Arm、高通、台积电、三星、日月光、Google云、Meta、微软等十大行业巨头联合成立了Chiplet标准联盟,正式推出了通用Chiplet的高速互联标准“Universal Chiplet Interconnect Express”(通用小芯片互连,简称“UCIe”),旨在定义一个开放的、可互操作的Chiplet生态系统标准。
今天,阿里巴巴和NVIDIA作为新的成员加入了联盟,这对UCIe来说是一个新的里程碑。
在与HPCwire的预先简报中,UCIe联盟主席Debendra Das Sharma引用了Gordon Moore 1965年著名论文中的一段话:“用较小的功能构建大型系统可能更经济,这些功能是分开的封装和互连,”摩尔在“Day of reckoning”子标题下写道。UCIe的支持者认为,至少在某些用例中,这一天已经到来。
UCIe标准将使芯片设计人员能够混合和匹配来自多个来源的芯片和其他具有不同封装选项的芯片组件。UCIe 1.0规范定义了标准化的芯片到芯片互连,包括物理层、协议栈、软件模型和一致性测试。它本机映射PCI Express (PCIe)和Compute Express Link (CXL)协议。
据了解,该联盟成立了六个工作组。其中五个技术工作组涵盖电气、协议、外形/合规性、可管理性/安全性以及系统和软件。此外还有一个营销工作组。
同时,UCIe成员分为三个级别:发起人、贡献者和采用者。发起人由董事会组成并具有领导作用。贡献者和发起者公司可以参与工作组,而采用者只能看到最终规范并获得知识产权保护。
根据Das Sharma的说法,目前的联盟名单已锁定四年,以作为稳定措施,但该联盟对新的贡献者和采用者级别的成员开放。
据介绍,贡献者成员每年支付10000美元的会费,而采用者(不能参加工作组,但获得规范访问和知识产权保护)可以每年支付2500美元加入。会员资格的第一年还包括与年度金额相等的一次性启动费,这使第一年的赞助费达到20000美元,采用者为5000美元。
Das Sharma表示:“业界对我们宣布UCIe的反应非常积极,我们现在已经拥有60多家公司,我们的正式成立是一个重要的里程碑,因为我们有一个雄心勃勃的计划,继续发展UCIe技术以满足行业需求并开发全球可互操作的小芯片生态系统。”
按理说,由最开始十大巨头组成的UCIe联盟已经非常有话语权了,为什么这次还要增选阿里巴巴和NVIDIA呢?
如果咱们尝试分析一下联盟成员的组成,你会发现一些规律:例如,UCIe标准达成并得到推广后,英特尔至强处理器、AMD霄龙处理器、高通骁龙处理器,都可以在UCIe的框架下,和其他不同工艺、不同功能的Chiplet芯片,通过2D、2.5D、3D等各种方式整合在一起,从而更灵活地制造模块化的大型芯片。
再例如,Google云、Meta、微软等企业也提出了小芯片互联的数据面(物理层、链接层和协议层)和控制面(管理、安全、测试等)开源标准。
因此,UCIe联盟的纳新是非常有必要的,今天,NVIDIA和阿里巴巴的加入,使得UCIe增加了一个新的大型硅供应商以及一个超大规模/硅供应商。NVIDIA将在GPU和AI领域贡献力量,阿里巴巴可以得到最真实的用户反馈,并推动社区和生态发展,合力构建一个完整且兼容的生态系统。
云厂商在Chiplet领域的能力和未来发展
我们知道,UCIe联盟的发起者中有晶圆厂、封装厂、IP和云厂商,大家在为共同的目标贡献自身力量,云厂商在其中发挥着关键作用。
作为首批加盟UCIe的云厂商,Google云、Meta、微软拥有庞大的用户群,他们致力于解决专用架构和芯片互联协议之间的互操作,使能不同厂商的小芯片设计和集成并帮助建立统一市场。同时,他们还可以将联盟中取得的成果反馈给用户,从而得到反复的验证和优化。因为,只有让Chiplet生态变得成熟,云厂商才能拥有更适合的定制化芯片。
笔者看来,本次阿里巴巴的加入非常具有代表性,即使得UCIe联盟中云厂商又增一员,又是大陆地区唯一入选UCIe联盟的企业。
说到云厂商,我相信放眼全球,阿里云都会有一席之地。作为本次UCIe联盟增选的成员,阿里云有两层身份:首先阿里云代表了联盟中为数不多的CSP厂商;其次阿里云还是一家重度芯片技术和产品的用户。要知道,阿里云很早就开始了数据中心芯片的定制工作,并在2021年云栖大会上重磅发布了平头哥倚天710芯片,更是积极的Chiplet技术使用者。
此外,我们发现阿里云也在Chiplet的软件生态层面不断发力。通过UCIe等高速互联技术,多种不同功能或能力的Chiplets可以封装在一颗芯片内,很自然地实现了片上异构计算。然而,由于片内硬件资源受限,为了使能片上异构的多处理器并行计算,业界需要更加轻量级的计算框架;同时针对片上互联接近于零的通讯延迟,计算框架也需要研发有别于传统优化的新颖策略。
据了解,阿里云从2017年开始投入建设的震旦异构计算开放平台(HALO/ODLA),因其可裁剪可扩展的轻量级接口、极简的内存足迹、和内禀的异构并行支持,非常适宜于作为小芯片加速系统的软硬协同计算平台。
目前震旦异构计算平台作为使能Chiplet异构计算框架的潜力已经获得了包括行业和高校等研究者的认可。今年6月,在纽约举行的国际计算机架构顶会ISCA2022上,由阿里云基础设施异构计算团队张伟丰博士牵头发起和组织了第一届HiPChips研讨会(高性能Chiplet 与互联架构国际研讨会),来自阿里云的专家也分享了震旦异构计算平台在Chiplet异构计算框架上的计算进展。
着眼未来,基于Chiplet的软硬协同设计带来的算力基础设施性能和能效比的提升,是阿里云所迫切需求的,Chiplet标准化和软硬件生态同样也是阿里云所看重的,“一云多芯”的技术策略也会逐步从Chip细化到Chiplet。阿里云正在通过自身的贡献和努力,帮助芯片领域相关产业链生态伙伴共同构建统一的生态系统。