全新视觉盛宴 Fermi架构Quadro显卡横评-服务器专区

全新视觉盛宴 Fermi架构Quadro显卡横评

作者：刘策编辑：刘策 2011-10-22 00:01 IT168网站原创

　【IT168 评测】时至今日，NVIDIA推出Fermi架构也已经有近2年的时间了。在这段时间里，无论是消费级的游戏卡，还是绘图应用的专业卡，抑或是在超级计算机中，都可以看到Fermi架构的身影。同时，得益于Fermi架构的成功，包括我们所熟悉的天河一号A、曙光星云等多个世界优异排名的超级计算机都采用了Fermi架构的计算核心。而今天我们所谈到的，是应用在专业卡领域的Fermi架构产品，也就是大家熟悉的Quadro系列。

　　在本次横评之前，我们首先要了解的是什么是Fermi架构。只有了解了这个架构，才能够对下面的测试数据及显卡本质有了深刻的认识。也正因为如此，我们将耗费大量的笔墨讲解Fermi架构的好处。当然，这些内容看起来似乎并不那么容易理解。

Fermi架构与并行计算的发展
Fermi CUDA计算架构

　　Fermi架构是继G80架构之后的又一重要的GPU架构。G80架构在时nvidia公司最初的通用计算GPU架构，既可以做图形计算，也可以用来做并行计算。GT200架构扩展了G80架构的特点和功能。对于Fermi而言，是Nvidia公司总结G80和GT200架构以后，几乎是重新设计的专门针对于通用计算的GPU架构。Fermi的设计采纳了用户在使用G80和GT200架构时候给出的建议。Fermi的主要设计针对于以下几点：

　　单精度的计算大概是桌面CPU的10倍的时间左右，并且一些应用需要GPU提供更强的双精度运算。

　　ECC的添加，使得内存有容错的能力。

　　有些并行计算并不一定能使用到shared memry，所以更多的需求是在内存访问中加上缓存。

　　有些CUDA程序需要超过16KB的SM shared memry来加速他们的运算。

　　用户需要更快的应用程序和图形显示之间的资源切换。

　　用户需要更快的原子读写操作来加速并行程序运算。

　　根据以上的需求，Fermi的设计团队通过新的架构设计增加了它的计算能力，并且支持更好的可编程能力和计算效果。Fermi的主要的架构更新如下：

Fermi架构与并行计算的发展
Fermi图形渲染架构

　　第三代的Streaming Multiprcessr

　　每个SM包含32个CUDA计算cre，是GT200的4倍

　　8倍于GT200的双精度浮点计算

　　Dual Warp调度策略，可以使得在一个时钟周期内同时启动两个warp进行计算

　　64KB的RAM支持可配置的shared memry和L1缓存

　　第二代的线程并行计算ISA架构

　　统一的地址空间，完整的支持C++特性

　　针对penCL和DirectCmpute做了优化设计

　　完整支持IEEE 754‐2008 32bit 和64bit 精度

　　通过分支预测来增强计算能力

　　增强的内存操作子系统

　　Nvidia的并行数据缓存，支持L1和L2的可配置能力

　　第一个支持GPU内存的ECC

　　增强了内存原子操作能力

　　NVIDIA千兆线程引擎

　　10倍的上下文切换能力

　　并发的kernel执行

　　支持blck乱序执行

　　双重叠的内存访问引擎

第1页：Fermi架构与并行计算的发展第2页：Fermi图形渲染架构分析（一）第3页：Fermi图形渲染架构分析（二）第4页：PTX2.0ISA与统一空间寻址第5页：OpenCL和IEEE 32bit 第6页：内存、缓存与ECC技术第7页：Quadro显卡横评平台介绍第8页：Quadro 600显卡介绍第9页：Quadro 2000显卡介绍第10页：Quadro 4000显卡介绍第11页：Quadro 5000显卡介绍第12页：CineBench性能测试第13页：SPECapc for 3ds Max 9 第14页：SPECViewperf 9.0 第15页：SPECapc for Maya 2009 第16页：SPECviewperf 11

关注我们