2019年8月7日,赛灵思公司(Xilinx, Inc.)宣布推出Alveo数据中心加速器卡产品组合的最新成员Alveo U50。与Alveo U200、U250、U280版本产品不同,Alveo U50是业界首款面向任意服务器和各种云而打造的自适应计算、网络和存储加速器,在更大吞吐量、更低延迟和更高功耗效率方面实现了10-20倍的大幅提升。
“Alveo U50,是一个非常标准化的即插即用型加速卡,性能更佳,可以用于更广泛的部署环境,更广泛的服务器,包括网络和存储加速等能力,都大大超越了之前版本。”
据赛灵思数据中心业务部产品规划和市场营销总监Jamon Bowen介绍,Alveo U50的特点是尺寸较小,支持第四代PCIe,不像GPU加速器那样的是一个大型号的卡。Alveo U50采用了UltraScale+架构,集成了超高带宽的HBM2存储器技术,所以大幅缩小了产品尺寸。因为内存加在了FPGA芯片上,所以不仅能够释放巨大的空间,还能使性能获得显著提升。比如:HBM性能是DDR的10倍,功耗不到75瓦。
▲赛灵思数据中心业务部产品规划和市场营销总监Jamon Bowen
Alveo U50的推出,实现了赛灵思自2018年推出Alveo产品系列的最初愿景——不仅加速计算,而且同时加速网络和存储,实现在Alveo平台上的整体加速。今天这一刻,梦想终于变成了现实。
继承赛灵思Alveo 以往产品的优势,Alveo U50在灵活应变和性能方面,表现卓越。很多部署数据中心的客户,经常会抱怨器件编程非常困难,赛灵思的Alveo有一个非常开放的平台和环境,可简化硬件编程程序,通过公共平台进行加速。另外,开发者也能更便捷地使用加速平台,能够实现原来只有在软件领域才有可能实现的硬件IP的灵活应变能力。最主要的是,Alveo U50涵盖解决方案的领域更广泛,包括数据分析、视频与图象处理、机器学习、生命科学和金融计算。
对于用户来说,部署下一代数据中心,上云一定是必经之路,所以Alveo U50是一个全堆栈的解决方案,不仅支持本地服务器,还能支持云端服务。Alveo U5可以和开源框架进行连接,比如:在Kubernetes环境中,用户可以发现并直接使用硬件加速插件,开发者可以把Alveo U50和Docker配合起来使用。如果没有这样一个标准产品的配置,用户可能需要花费大量的人力物力的投资才能够实现这一功能。所以,Alveo U50对于大规模的数据中心场景来说,非常适用,这也是Alveo U50令赛灵思公司引以为豪的点。
▲Alveo U50应用场景架构图
具体而言, Alveo U50有以下特点:
1、深度学习推断加速。针对语音翻译的计算负载,Alveo U50比CPU、GPU拥有更高的吞吐量和低时延的推断性能。和英伟达T4 相比,Alveo U50性能提升高达10倍,能够用于很多不同的网络。U50的尺寸非常小,符合需要边缘计算的用例场景。同时,对于需要在同城提供数据中心运行服务的企业来说,这款产品也是首选。
2、数据库分析加速。运行TPC-H Query5基准测试时,Alveo U50相比存储器的CPU,大大提高了吞吐量和查询速度。针对一些商业信息分析领域,企业拥有庞大的数据库,其中有很多供应商、很多的产品,也有很多的销售数据,企业需要按照季度做决策,了解哪个产品的销售额是多少,降价策略或者推销方式是否真正有效等。在这些场景加速过程中,会用到很多的标签节点,会列出很多有关的表格,然后进行具体的查询。每一个节点,对带宽的要求也非常高,而带宽又是Alveo U50进行加速的关键节点。对比英特尔非常先进的多核处理器XEON系列的产品,Alveo U50的处理速度提升高达4倍,如果加两张就是8倍,如果加三张就是12倍。
3、金融模拟场景下的网络计算加速。在金融领域,很多时候都需要建模,这样才能给金融工具来定价。通常都有大量的数据输入,然后做几百万字的模拟,最后得出来一个平均值,通过得到一个范围的结果,来确定在最糟糕的情况下风险如何,很多金融企业都需要这样做才能够定合约和证券的价格。针对金融模式场景,Alveo U50的功率效率比CPU高20倍,能够更快速地获得结果。赛灵思一直在开发计算库,让开发者能够在Alveo U50当中使用这数据函数进行最优化的编码,同时能够在平台上完成其他的应用设计,建立模型。这个对于计算加速来说,是非常重要的扩展,尤其能够把所有的数学函数都吸收进来。
4、针对电子交易的网络加速。金融领域还有一个重要场景,就是用加速技术支持交易。通过市场数据的关键信息做出计算,缩短计算和决定之间的时间差,这对于金融界来说非常关键。使用Alveo U50可以在不到500纳秒的时间内完成。首先收到市场数据,然后用综合的C语言来写一个交易逻辑,然后跟这样的交易逻辑进行执行和回应。如果是CPU的话,第一步要从网络上把这个数据放入到界面的接口,然后进行缓存,如果是单向的话,要耗时400纳秒,而且这仅仅是第一步,让数据包进入到内存的层级,而且数据进去之后,数据的运行环境首先要发出信号,说明这个运行环境发生了变化。然后这个网络再把信息进行一个解码,从用户转变为核心,然后再把它传输给需要执行交易的部分。整个过程需要不断持续,才能使得交易的逻辑转为核心,然后再转给其他有关的各端。整个过程大概需要10毫秒。Alveo U50的性能在时间上是CPU的20倍,所需所有间几乎对于CPU来说仅仅只能够完成将数据进入到CPU内存层级第一步的时间。
5、存储工作负载加速。过去,很多字节都需要一系列传输的程序才能进行处理,流程非常复杂。比如:要去压缩、解压、加密、解密,还要进行数据保护。Alveo U50可以将压缩、解压吞吐量提高20倍。以Hadoop为例,如果我们来看Hadoop的大小,首先看数据,还有查询数据的工作量,对于带宽来说提出了很高的要求。如果要做高性能的计算,这个数据就没有办法去压缩,这样基础设施就需要扩大一倍,而且需要更多的存储,更多的带宽。而Alveo U50可以非常顺利的进行压缩,并且能在高带宽的环境下完成。压缩之后,存储空间和带宽只占原来的一半。所以,有了这样的加速之后,用户部署的成本只有原来的1/2,不仅仅可以进行压缩,同时还可以确保性能不会受到影响。
总之,Alveo系列产品的用途非常广泛,虽然它并不像机器学习、推断加速等概念这样火热,但是确实是用户非常需要的后端服务,能够帮助数据中心客户节约大量成本。