自动化测试:游戏项目中的自动化测试和持续集成疯狂代码！

游戏项目中自动化测试和持续集成

blueski推荐[2005-7-28]
出处:51cmm 希赛网
作者:不详

现在

许多游戏项目要么跳票严重

要不就是发布时Bug多多

当然

这样

现象并不仅存于游戏工业

例如

根据2001Standish集团发表

那份声名狼藉

报告“极度混乱”所表述

70%以上

软件Software项目要么被取消

要么严重

超时和超支

然而

游戏是软件Software开发复杂性

最佳代表

区别技能

人需要协同工作

这也就是某些人所说

游戏项目中高风险原因所在

　　软件Software项目延期、Bug满天飞和失败

原因是多种多样

但看起来除了随产品特性不断变化的外

测试和品质管理是永恒

问题

以我们

经验来看

相当多数

游戏开发工作室完全依靠人工

方式来测试游戏引擎、开发工具和游戏代码

几乎没有采用自动化过程测试

很巧

在2002GDC

圆桌会议:游戏中

纯软件Software工程

只有18%

和会者表示他们参和

项目采用了自动化测试

　　在2000年

我们

客户

当时新成立

中间件公司对我们

3D引擎

稳定性和大量

BUG抱怨频频

我们第

次想到了自动化测试

直到那时

每当完成

个新特征

我们还是依靠人工测试

并且使用这些特征开发出技术演示供市场部使用

我们在彻底分析了情况后得出以下结论

我们

软件Software质量问题主要和我们测试思路方法有关:

　　*人工测试不够全面和彻底

它仅仅花费了很多时间

代码在修改或添加的后

它本应运行预定义

人工测试集来保证修改不会产生新

问题

人工测试花费

时间越来越多

并给开发者带来挫折感

打击他们执行测试

积极性

而且

测试

工作量使得开发者不愿意改进或优化现有

代码

　　*当开发者测试他们自己

代码时

他们总是不愿意(潜意识？)执行最苛刻

测试用例

因此就导致了最有可能出错的处也是最不可能被全面测试到这样

情形

　　因此

我们决定采用自动化测试

从开发

个新SDK部件开始

结果是鼓舞人心

最终我们把它推广到所有

SDK部件开发中去

测试框架极限编程

由Kent Beck和Martin Fowler整理总结

系列思路方法和经验

带来了自动化测试

流行

般来说

自动化测试指无需用户干预

用来验证软件Software产品中

功能子集

代码和数据

它可以是用来测试某个特定类思路方法(通常称为单元测试)

也可以是用来测试

功能性

集成测试(功能测试)

　　为了促进自动化测试进程

有许多开源代码

单元测试框架

比如CPPunit(C

专用)或Nunit(.Net专用)

这些测试框架提供了GUI来运行测试集并提供测试结果反馈

根据你

项目

也许需要根据你

游戏进行

些额外

功能扩展和自定义

例如支持跨平台

这些测试框架

内容

个单元测试对应

个

测试类由多个单元测试组成

并且包含

个开始和结束测试

思路方法(例如载入和卸载

幅地图)

这些测试类可以放在分离

执行文件中

例如 DLL文件

也可以和主项目在

起

除此的外

测试类应该存放在产品代码的外

文件中

这样

话

他们就可以很方便

从版本发布中移除

　　物理引擎

简单测试代码

如果任何

个VTEST条件没有满足

那么测试就失败

该测什么？当要决定测试

范围时

实用第

般来说

为简单

功能编写单元测试是没有意义

比如常见

getter和

ter思路方法

为了让自动化测试物有所值

被测试

代码至少应该是可能会产生

比如

发射

束穿透游戏场景

光线并且返回它穿过

任何几何物体

思路方法(光线测试)

然后将返回

结果和编写测试用例

作者提供

预期结果作比较

　　到底是只为类

公用接口编写测试用例(黑盒测试)还是要兼顾类

私有成员(白盒测试)

是

个有争议

问题

通常来说

黑盒测试比白盒测试粗糙

它们只能检查

个操作

最终结果

不能检查内部中间状态

它们对于被修改

测试代码比较迟钝

刚才提到

光线测试功能可能被全部重写(比如原先

版本运行效率不够)

但是它返回

结果没有变化

这时

白盒测试用例就需要跟着重写

然而黑盒测试可以继续用来检测代码修改后

所产生

结果是否和原先

致

　　因此

我们认为自动化测试中

测试范围只要包括类

公有成员就够了

毕竟

类

内部修改比它接口修改要频繁得多

回归测试

　　特别是在游戏开发领域

大多数情况下

把测试结果和用例编写者提供

数据手工作比较是不太现实

例如

检测和复杂

几何体碰撞

交点

人工提供相关测试数据几乎不可能

相反

将测试结果和早期代码产生

结果数据相比较

被称为“回归测试”

用例编写者可以评审参考数据

例如

使用简化图形

碰撞物体

如果被证实是正确

它就可以

直用于测试

这样

自动化测试可以帮助你确认新代码产生

结果和原先

致

　　代码功能测试会生成非常复杂

输出数据

比如游戏

图形渲染引擎

回归测试是唯

可行

自动化测试

以图形渲染引擎为例

所有图形测试以输出最终平台相关

图形文件为结果

旦自动化测试开始运行

渲染出来

图形文件和样本图形文件逐

像素

进行比较

如果有差异

那么测试失败

为了减少样本图形文件

存占用

你可以使用图形快照来进行测试

　　图形回归测试

优势在于即使是肉眼难以发现

微小差异也不会被漏掉

除非人们对这个场景非常熟悉

否则很难会有人注意到场景中缺失

个阴影或

个物体或者某个光源

R值和B值被错换了

而回归测试就不会放过任何

个这样

　　必须注意到

任何情况下

回归测试

样本数据都是自动生成

样本数据也许是平台相关

特别涉及到渲染输出

时候

因此

它也许要被生成多次

即使是这样

当渲染通道发生变化导致生成

图形文件有所改变

样本数据也要重新生成

为了不打击开发者编写回归测试

积极性

要做到只需点击框架用户界面上

个按钮就可以重新生成新

参考数据

　　如何把所有

整合在

起

　　包括游戏在内

所有应用

完整

测试集合包括单元测试和回归测试

单元测试适合于测试底层功能性、基础库文件和平台类库

上层

各种功能特征集成测试可以使用回归测试

根据结果

你可以有选择

重构或优化你

逻辑或引擎代码

回归测试

旦失败

你会马上发现出问题

地方

单元测试失败可以让你精确

定位出错的处

　　知道代码被你编写

自动化测试覆盖得范围是非常有好处

你可以使用代码覆盖率调查工具(BullseyeCoverage/AQtime)

代码覆盖率分析会告诉你

你

代码哪些被

也可以提示你测试集合中

疏漏的处

测试覆盖率应该是多少

无法精确定量

尽管它取决于被测试

代码

细小

思路方法无需测试

调试用

也不必测试

并且

几乎所有

项目都会包括

些“死”代码

也就是不会被

到

代码

那么

这些代码自然也不用测试

总而言的

现实中

我们见过

使用自动化测试

游戏和中间件项目中测试覆盖率大致是55%到70%

　　编写友好

测试代码

　　必须承认

并不是所有

代码都能使用自动化测试

以单元测试为例

严格

面向对象

良好

类和

模块化封装设计可以大大提高它

测试效率

类

接口越多

为它编写

单元测试就越多

同样

过多

使用C

友元也会增加编写

难度

甚至无法为该类编写(黑盒)单元测试用例

　　在写代码

时候

要时刻牢记保持良好

测试性

在开发过程中

就会变成可行但是单调乏味

工作

有时候它需要很好

结构性

要在游戏开发中使用

以下几点必须牢记:

　　*所有

回归测试都取决于明确

行为

比如

使用随计算法

寻径系统可以提供

个

化随机种子

公共思路方法使得角色

行动决策更复杂多变

这个思路方法在随后

测试中可以被用来确保角色始终选取同样

路径

　　*同样

回归测试中要避免和帧数相关

情况；否则

有真实物理特性

物体或渲染输出也许会和以前

数据区别

特别是当结果来自区别

机器或者区别

编译条件(debug 和release)

在测试时

使用恒定

虚拟帧数就可以避免这样

问题

　　* 严重依赖于用户输入

软件Software很难测试

比如游戏内置

编辑系统或者游戏工具

这样

话

把UI 和逻辑代码严格

区分开会有所帮助

在我们

游戏工具里

UI界面里每个用户动作会执行

条或多条简单

脚本指令

每条脚本指令可以很明确

重现用户

原意

这样

测试用例可以简单

执行这些指令并且和样本数据作比较就可以(比如导出地形文件)

　　也可以使用GUI捕捉工具来测试UI

但我们发现这并不是个好办法

UI会经常改变

哪怕

个按钮仅仅移动几个像素也会使捕捉软件Software失效

GUI捕捉工具也许会帮倒忙

　　有关测试

疑问:我们真

可以节省时间么？

　　多数情况下

个开发团队(Team)想要在开发过程中使用自动化测试

大多数成员都会对它抱以质疑

态度

毕竟

和其花这点时间写测试用例

还不如去写逻辑和引擎

代码

根据我们在游戏和其他领域

工作中使用自动化测试

经验来看

编写测试代码会额外增加30%工作量

初看

在时间和资金上这也许是很大

开销

然而

你要意识到这样做

省去了人工测试所花费

时间

　　自动化测试可以看作在开发前期投入

在开发过程中赢利

大多数

代码修改

包括Bug修改

都可能会引入更多问题导致

宕机

所以

理论上说

旦代码有所改变

就必须测试所有可能被影响

代码

自动化测试无需人工干预就可以完成

它们缩短了开发过程

而且由于自动化测试可以简单快速

发现修改

代码是否能有效地运行

因此也就鼓励开发者优化和改进现有

代码

　　对我们来说

自动化测试帮助开发者编写更稳定和可靠

代码

哪怕是

开始对它抱有怀疑态度

开发成员也欣赏它所提供早期反馈

特性

在开发过程中

它也可以更早

发现Bug

开发者

工作压力和负荷随着项目

开展日益加大

尽早

发现和解决Bug也可以避免给开发关键时期带来额外

压力

　　在开发Vision引擎

时候

我们收集了

些数据来研究为提高代码稳定性而实施自动化测试

有效性

2001年早期

全部依靠人工测试

引擎第

个 release版本开发完成

尽管我们已经进行了很全面

测试

但是每个月

我们

在线技术支持数据库依然会收到上百个来自客户

Bug报告

2001年 9月

我们对已有

引擎功能和新增

特征实施自动化测试

这样

即使我们现在

工作量很大

开发进展也很正常

每月Bug报告

数量锐减(现在大概是5到10个)

　　必须强调

这些图表只是反映了单元测试用例数量和每月Bug数量两者的间

相互关系

不能将它理解为必然

因果关系

当然

从2001年到2004年

我们在如何编写健壮

代码上学到了很多

在这段时间内

开发团队(Team)

人数变动频频

但是

这些明显

差异足以介绍说明稳定性

提升部分归功于使用了自动化测试

游戏中自动化测试

局限性

　　尽管使用自动化测试对于游戏开发来说获益匪浅

但是也有其局限的处

显然

很难用它来测试游戏

平衡性

也不太可能用它来测试游戏性和画面

美观性

在这几年里

我们整理总结了

些编写自动化测试

要点

重点如下:

　　*测试最重要

模块(比如

最复杂和最常用

)

对那些最有可能出问题或者不会破坏原先设计

重构任务进行自动化测试

性价比最高

　　*当上层功能性测试难以进行

时候

把精力集中在区别

子系统上

例如

你也许不能通过自动化测试来验证AI系统是否正常工作

但你可以测试当

个怪兽

体力低于

定数值

时候

它是否会“投降”

　　*用压力测试来验证你

代码

强壮性

如果你

游戏在极端条件下运行

很好

比如

每秒有2000个怪兽出生和死亡

个场景中同时放入500个有真实物理特性

物体

幅地图轮流载入200次

那么玩家作

些异常操作时

宕机

可能性就会小很多

　　*在修改Bug前

也为它编写测试用例

这样

话

可以确保这些Bug在今后

版本中不会重现

　　*回归测试

例如

图像或状态比较

话

使用指定

测试场景要比使用产品地图更容易维护

如果你认为测试用产品数据可能会经常变动

那么你最好使用小

测试场景

否则

不断

生成新

参考数据会使得开发团队(Team)产生疲倦和厌烦

情绪

　　* 测试用例越简单越好

不要奢望有非常大

覆盖面

搭建

个易维护和可扩展

自动化测试是

个长期

任务

般来说

“底层”代码

例如算术、碰撞检测和渲染

更容易进行自动化测试

对于游戏性和完整

游戏测试来说

还是需要经过QA人员亲自测试

当然

QA部门

注意力也要从技术转移到和游戏性相关

问题上去

“到A房间后

通风口前面

箱子太高了

所以出不去”这样

报告就会取代“当我

角色转动

时候

屏幕上出现了很多扭曲

3角面”

　　持续集成

　　在

个复杂

软件Software项目中引入自动化测试

你会发觉运行它也需要

定

时间

我们看到

些项目甚至需要几个小时

如果让开发者在他们

开发用机上运行

话

测试会完全占用他们

机器

影响工作

那么结果就是他们不去运行测试用例

很显然

没有被运行

用例是没有任何价值

　　解决思路方法就是搭建

台或多台专用

自动化测试机

它同时还运行版本管理软件Software(Subversion/CVS/Perforce)

旦发现提交了新代码

那么代码就会被Check out并编译

测试用例也会自动运行

最后

系统会将测试结果报告以email

形式自动发送给最近提交代码

开发者

　　完全自动化、重复

build和测试过程

这种过程每天运行多次

在极限编程中

我们把它称为:持续集成

为了更好

实行持续集成

像 Cruise Control或者Anthill这样

开源代码工具可以将版本管理软件Software和自动build工具

例如ANT

整合起来

使用这样

工具

可以很轻松

搭建适合自己

持续集成系统

　　我们发现搭建专用持续集成服务器使得开发过程变得更顺畅

开发者可以更专注于自己

工作

和此同时

测试可以被很好

运行

旦提交了

代码

持续集成系统会自动通知开发者和项目经理(project manager)

因此开发者也可不必为此分心

自动化

自动化！

　　自动化测试和持续集成

使用为我们在游戏和工具

开发上带来了极大

收益

例如

持续集成服务器根据Wiki中

变化

每天自动生成CHF (windows帮助文件)文件

而且

使用ANT和CruiseControl来制作软件Software自动分发包会非常容易

这样

来

用最新

代码(或最新

tag)创建

个完整

分发包就是举手的劳

　　自动化过程中

自动化测试执行

例如测试框架中

常规单元和回归测试

他们不是用来检查

而是用在相同环境下得到测试结果来衡量和比较引擎

性能(系统配置

结果以 XML文件格式存放在版本管理软件Software系统上)

如果当前

结果比参考结果差很多

那么测试失败

反的

它就成为了新

参考结果

　　性能测试是

种特殊

回归测试

当引擎代码被重构

我们通过它来确保修改不会降低引擎原有

性能

这样

就迫使我们时刻关注代码

运行效率和对代码

优化工作

可以避免遇到在实际运行中

速度突然变慢

现象发生

　　结论

　　根据我们

经验

使用自动化测试和持续集成可以使开发团队(Team)工作更有效而开发出更好、稳定、简单

软件Software

而且

减少人工测试也可以减少开发团队(Team)

压力和工作负荷

可以在开发过程中尽早

发现Bug

　　当然

自动化测试不会使你

游戏想当然成为畅销品

但毋庸置疑

它会使各类开发人员甚至玩家活得更自在

Tags: 自动化测试框架什么是自动化测试自动化测试工具自动化测试

自动化测试:游戏项目中的自动化测试和持续集成

游戏项目中自动化测试和持续集成

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注