服务器 频道

专访龙芯总设计师胡伟武:产权没有问题

技术问题


Godson-2 Microarchitecture (Godson-2E)

记者龙芯三号流片成功了么?

胡伟武:龙芯3A、3B都有了,但是还没有返回来。

  龙芯2E运算单元介绍,基于2005年的文档:
  ALU1:执行整数加/减,逻辑/移位,比较/陷阱以及分支指令,所有的指令都能在1个时钟周期内完成。
  ALU2:执行整数加/减/乘/除,逻辑/移位/比较,整数乘使用全流水线设计,执行需要4个时钟周期;整数除使用了非全流水线设计的SRT(以斯维尼、罗伯逊、托克尔三个独立提出算法的人命名)迭代算法,执行延迟从4个到37个时钟周期不等。
  FALU1:执行浮点加/减/绝对值/反值/转换/比较以及分支,加/减/转换指令需要4个时钟周期,其它的指令需要2个时钟周期。
  FALU2:执行浮点乘/除以及平方根,浮点乘采用了全流水线两位Booth编码Wallace树算法,执行需要5个时钟周期。浮点除和平方根都使用非全流水线的SRT算法(和ALU中的一样),执行延迟是4-10个时钟周期(单精度浮点除)或者4-17个时钟周期(双精度浮点除)、4-16个时钟周期(单精度浮点平方根)或4-31个时钟周期(双精度浮点平方根)。

记者龙芯2E运算单元的除法、平方根运算现在能完全流水线设计了么?后续型号的运算单元相比变化大吗?

胡伟武:后继型号的运算单元和以前的差不多,没什么变化。不过龙芯三号实现了向量部件,8个1024 x 64位的向量运算可以并行进行。

记者如ALU这样的运算单元的数量会继续增加吗?

胡伟武:ALU的数量没有增加,但是向量单元也可以作定点计算(注:整数计算)和浮点计算。

记者龙芯2的Load/Store单元似乎有点少(一个),它会继续增加么?

胡伟武:在有了向量单元之后存取确实是一个问题,我们后继型号作了很多创新,申请了很多专利。你说的没错,我们的处理器核里面的Load/Store部件是有点少,我们在龙芯3A和龙芯2G里面都增加了。

  龙芯2具有64个GPR,每个64位。x86处理器具有8个32位GPR,x86-64处理器则具有16个64位GPR。

记者GPR(General Purpose Register,通用寄存器)的数量会增加吗?

胡伟武:我们的向量计算部件实现了128个256bit的寄存器,这个做的非常大。

记者听说龙芯2G和龙芯3支持x86指令,是真的吗?

胡伟武:严格来说不是这样,这个是类似于Transmete的二次编译技术,一个“软”的x86核,当然做法上我们和全美达不同。

记者龙芯采用解码器将指令解码为内部指令是基于一种什么思想?

胡伟武:做CPU的人都希望CPU搞定一切,譬如说最近在做的高清编解码,无论什么格式增加的指令都可以用同一个处理器来完成。Intel也是这样做的。

龙芯2/Nehalem处理器架构深度对比分析

0
相关文章