跑得快:GPU为什么跑得快? 疯狂代码！

　　计算机3D游戏最基本

个要求是:能以每秒数十帧

速率

根据当前

3维景物实时生成 3维动画

你所看到

图像会随着你视点

变化而即时改变

使人产生“身临其境”

感觉

高

帧率可以得到更流畅

画面

般来说30fps就是可以接受

但是将帧速增加至60fps则可以明显提升交互感

这和计算机影视制作区别

电影特效可以通过很多台工作站

花几十个小时绘制出长度仅为几秒

高质量画面

并不强调实时性

　　渲染

个复杂

3维场景

需要在

秒内处理几千万个 3角形顶点和光栅化几十亿

像素

早期

3D游戏

显卡只是为屏幕上显示像素提供

个缓存Cache

所有

图形处理都是由CPU单独完成

图形渲染适合并行处理

擅长于执行串行工作

CPU实际上难以胜任这项任务

所以

那时在PC上实时生成

3维图像都很粗糙

不过在某种意义上

当时

图形绘制倒是完全可编程

只是由CPU来担纲此项重任

速度上实在是达不到要求

　　直到1995年

PC机领域第

款GPU (Graphical Processing Unit) 3dfx Voodoo出来以后

游戏

速度、画质才取得了

个飞跃

3dfx Voodoo有两个主要

特征:深度缓冲区(z-buffer)和纹理映射(texture mapping)

z-buffer执行“隐藏面消除”这

工作

这样可以避免渲染“不可视”

无效像素

利用纹理映射功能则可以十分逼真地表达物体表面细节

1999年

第 2代GPU (Nvidia GeForce256,GeForce 2和ATI Radeon 7500)包括了图形

几何变换和光照计算功能(T&L)

而在此的前T&L都是由CPU完成

这对CPU来说是很复杂

计算

第 2代GPU解决了系统

个瓶颈

减轻了CPU

负荷

速度明显提高了

但是由于是固定

渲染流水线

缺乏灵活性

束缚了开发人员

创造性

2001年

NIVIDA公司

GeForce 3首先引入了可编程

顶点着色器(Vertex Shader)单元

紧接着在2002年

可编程

像素着色器(Pixel Shader)单元也加入了GPU (见图1)

在绘制时

GPU首先接收CPU以 3角形顶点形式

发送

几何数据

然后由可编程

顶点着色器单元进行处理

完成几何变换和顶点属性计算等功能

接着

這些 3维空间

3角形由

个固定功能

光栅生成器转换为 2维屏幕上

像素

每个像素

最终颜色值都通过运行在像素着色器上

小

运算而得

目前 3维游戏借助于GPU

已经能够实时生成十分细腻、逼真

画面

图1. GPU体系结构示意图

　　GPU

功能更新很迅速,平均每

年多便有新

代

GPU诞生

运算速度也越来越快

2004年,2004年推出

GPU Nvidia GeForce 6800 Ultra可达到峰值40 Gigaflops( 1 GigaFLOPS＝1秒钟进行10亿次

浮点运算)

2005年刚发布

Nvidia GeForce 7800 GTX更是将峰值提高至令人惊讶

169 Gigaflops

而Intel 3GHz Pentium 4采用SSE指令集也只能达到6 Gigaflops(见图2)

GPU

运算速度如此的快

主要得益于GPU是对图形实时渲染量身定制

具有两点主要特征:超长流水线和并行计算

图2. GPU、CPU浮点运算速度对比图

　　流水线技术和工厂里

装配线在原理上类似

如果装配

台汽车需要10个时间单元

将它分成10个流水线阶段

每个阶段分配

个时间单元

那么

条装配线每

个时间单元就可以生产

辆汽车

显然流水线模式

生产在理想状况下要比串行方式快了十倍

从这个例子中

可以看出为了提高流水线

速度

可以将任务划分成更小

单元

这样流水线

级数就增加了

CPU

设计中就使用了流水线原理

奔腾IV就有20级

流水线

但是流水线级数越多

条指令从开始进入流水线到最后被执行完毕这的间

延迟间隔会相当大

换句话说,当流水线级数过多时

控制台发出

条指令

会经过很长时间才会真正生效

这不适用于快速反应要求很高

场合

打个比方

当用消防水龙头救火时,正常情况下打开阀门开关几秒后水便喷射出来

立刻可用来扑灭火灾

但是如果延迟了十几分钟

才有水流出

即使这时水流速度(吞吐量)还是很快

不过这时火灾就会造成更大

损失了

CPU

设计目标是不仅要有很高

吞吐量

还要求很小

延迟

这是CPU并不采用过多流水线级数

原因的

另外流水线只有在满载时

才能发挥出最佳效率来

由于CPU执行

代码中有很多分支语句

因此长流水线需要用有效

技术来预测分支

尽量保持流水线在满负荷状态

但是

旦预测分支失败

就会清除流水线中滞留

大量无用指令

同时将新指令流重新注入流水线

但是如果流水线阶段过多

话

充满整个流水线就需要很长

时间

这样使流水线保持满载

机会不多

速度反而下降了

所以权衡利弊

CPU不会使用深度流水线

　　但是GPU却采用了几百级

流水线

比如GeForce 3

流水线有800个阶段

是什么原因

GPU

应用为何可以忍受这么大

延迟呢？假设以每秒50帧

速率显示画面

那么只要求每帧在20ms以内生成就行

而GeForce 3

时钟频率是200MHz(每个时钟周期是5ns),5ns * 800 = 4μs < 20ms

所以对GPU来说这

些延迟根本不成问题

而且GPU中执行

Shader

中

分支语句用

很少(在早期

GPU中

甚至不提供动态

分支语句)

因此

GPU

流水线深度变大后

利大于弊

大大提升了整体性能

GPU

执行速度很快

但是当运行从内存中获取纹理数据这样

指令时(由于内存访问是瓶颈

此操作比较缓慢)

整个流水线便出现长时间停顿

在CPU内部

使用多级Cache来提高访问内存

速度

GPU中也使用Cache

不过Cache命中率不高

只用Cache解决不了这个问题

所以

为了保持流水线保持忙碌

GPU

设计者使用了多线程机制(multi-threading),见图3

当像素着色器针对某个像素

线程A遇到存取纹理

指令时

GPU会马上切换到另外

个线程B

对另

个像素进行处理

等到纹理从内存中取回时

可再切换到线程A

但是使用这种思路方法有

个前提

线程A和线程B没有数据依赖性,也就是说两线程的间无需通讯

如果线程B需要线程A提供某些数据

那么即使切换到线程B

线程B仍是无法运行

流水线还是处于空闲状态

不过幸运

是

图形渲染本质上是

个并行任务

无论是CPU送给GPU

顶点数据

还是GPU光栅生成器产生

像素数据都是互不相关

可以并行地独立处理

而且顶点数据(xyzw)

像素数据(RGBA)

般都用 4元数表示

适合于并行计算

在GPU中专门设置了SIMD指令来处理向量

次可同时处理 4路数据

SIMD指令使用起来非常简洁

可以看

个顶点矩阵变换

例子(见图4)

此外

纹理片要么只能读取

要么只能写入

不允许可读可写

从而解决了存贮器访问

读写冲突

GPU这种对内存使用

约束也进

步保证了并行处理

顺利完成

图3. GPU中

多线程机制

// c0 - c3 = 几何变换矩阵(world/view/proj matrix)
dp4 oPos.x, r0, c0　　　 //指令dp4完成两个 4元数

点积运算　　　　　　　　　　　　　　　　　　　　　　//oP0s.x=(r0.x*c0.x)+(r0.y*c0.y)+

// 　　　(r0.z*c0.z)+(r0.w*c0.w)

// 4条dp4指令就实现了对

个顶点

矩阵变换

dp4 oPos.y, r0, c1
dp4 oPos.z, r0, c2

dp4 oPos.w, r0, c3
　　为了进

步提高并行度

可以增加流水线

条数

在GeForce 6800 Ultra中

有多达16组像素着色器流水线

6组顶点着色器流水线

多条流水线可以在单

控制部件

集中控制下运行

也可以独立运行

在单指令多数据流(SIMD)

结构中

单

控制部件向每条流水线分派指令

同样

指令被所有处理部件同时执行

另外

种控制结构是多指令多数据流(MIMD)

每条流水线都能够独立于其他流水线执行区别

GeForce 6800 Ultra

顶点着色器流水线使用MIMD方式控制

像素着色器流水线使用SIMD结构

MIMD能比较有效率地执行分支

而SIMD体系结构运行条件语句时会造成很低

资源利用率

不过SIMD需要硬件少

这是

个优势

　　CPU中大部分晶体管主要用于构建控制电路(象分支预测等)和Cache

只有少部分

晶体管来完成实际

运算工作

而GPU

控制相对简单

而且对Cache

需求小

所以大部分晶体管可以组成各类专用电路、多条流水线

使得GPU

计算速度有了突破性

飞跃

拥有了惊人

处理浮点运算

能力

现在CPU

技术进步正在慢于摩尔定律

而GPU(视频卡上

图形处理器)

运行速度已超过摩尔定律

每6个月其性能加倍

　　虽然GPU最初专门是为图形渲染设计

但是GPU还可以有效地执行多种通用计算

从线性代数和信号处理到数值仿真等等

有

专家甚至认为GPU将进入计算

主流

过去

学生们在课堂学习计算机体系结构时

听老师讲解各类并行计算机时

仿佛觉得这些东西都是科学家才使用

尖端产品

可又何曾想到,现在并行计算机(GPU) 就在我们

普通PC电脑内,触手可及

主要参考文献: 1． GPU Gems 2 : Programming Techniques for High-Performance Graphics and General-Purpose Computation (Gpu Gems): Books by Matt Pharr,Randima Fernando. 2． The Cg Tutorial: The Definitive Guide to Programmable Real-Time Graphics. 3. Lindholm E, Kilgard MJ, Moreton H. A user-programmable vertex engine. In: Proc. of the SIGGRAPH 2001. Los Angeles, 2001. 149~158. 作者:沈璐 EMAIL:[email protected]

Tags:

跑得快:GPU为什么跑得快?

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注