如何成功进行游戏测试的6大诀窍

“一个精确的测量值顶得上1000位专家的意见。”——Grace Murray Hopper

这句话应该是对于A/B测试最精辟的概述。它总结了为何许多游戏工作室都想要利用A/B测试去辅助设计和开发过程——也就是不再止步于猜测什么内容会起作用，而是真正搞清楚结果。

任何经历过设计过程的人应该都知道存在更好的方法去做出这些决策。这一方法便是使用A/B测试中玩家所提供的真实数据。

AB-Test(from submitedge.com)

但这只是测试理念的一部分。我们还必须清楚该从何开始。所以本文便通过提供6个成功测试诀窍去帮助开发者们更好地完善自己的业务。我们必须专注于一些真正重要的元素，即用户留存，转换率以及收益。

从简单的开始

也许这听起来很理所当然，但却是值得我们注意的–如果你想把测试文化带进自己的团队中，你就需要寻找能够快速制胜且得到证实的方法去获得结果。这便意味着采取一种“倾向性”方法，快速验证理念，而不是在测试前便创建一个巨大且复杂的结构。

幸运的是做到这点并不困难。不管你采取的是何种方法，你都能够较轻松地完成简单测试。而这里所存在的最大弊端便是你有可能会害怕“改变游戏”，但是不管怎样游戏都会基于某种程度而发生改变。

我们可以通过测试一些争议性较低的玩家体验中的某些元素（但是具有很大的影响）去缓解害怕。即包括：

延迟首个呈现于玩家眼前的插播广告的时间。我们可以基于点击率，用户留存和其它KPI而快速明确这种改变的影响。

教程中可替代的引导角色。我见识过教程中不同角色的使用具有不同的效果。不要在设计会议上挣扎了，只要测试不就完了！

是否要呈现注册页面（如果适当的话）。为了加深与玩家间的关系而让他们注册游戏是否是种明智的做法？或者这么做会导致玩家的流失？请找到答案。

当我们开始尝试一些简单的测试时，我们可能需要投入额外的时间去获取一些真正有意义的统计结果（游戏邦注：如果你使用的是A/B测试平台的话这便不是问题了），但这却是有价值的。所以你不要妄想着抄捷径。

删除拖延问题

我们想要鼓励开发者频繁且快速地进行测试。因为如果单个测试就花费了大量时间，并需要进行代码修改，那将会影响新应用的创建，并导致我们面临较高的失败测试成本，从而大大影响了测试的最终利益。长时间的测试最终只会将我们带进一个充满风险，高成本且浪费时间的情境中。

幸运的是我们能够轻松地解决这种拖延问题。关键是我们必须禁止工程师参与该任务。因为如果每个测试都需要工程师重新编写代码，进行QA等等任务，我们便什么都做不了了。除此之外，工程师们还有更重要的事要做。

通过将测试框架分离出工程循环过程，我们便可以创造出短期的测试循环，并由产品经理或市场营销团队去运行。为了做到这点，我们需要创造出“受数据驱动”的游戏，真正理解并同意将数据点面向测试而开放。当我们到达这个点时，进行测试就像改变数据表中的一个数值那么简单了。

更好的是，当我们创造了一个合理的变量后，基于环境去改变它就变得如创建最初的测试那般简单了。我们可以看到测试结果快速产生影响，并转向下一个挑战。

这一方法也能够让我们暂时封锁那些不包含与测试中的游戏元素，从而减少项目风险。

“删除开关”

有时候也会出现问题。即当我们遭遇“失败”，并创造了一种敏捷且且自动适应的受数据驱动文化时，便会出现这些问题。所以请确保减少失败的影响并从负面结果中吸取经验教训。

你的系统必须帮助团队摆脱“害怕失败”的想法，而最简单的方法便是“删除开关”。你希望能够在测试运行时完全控制它，并在某些时刻禁止测试，而无需等待工程师的输入或之后应用的发行。

你的测试应该覆盖整个核心游戏体验。后者是默认设置，但却不意味着我们不能对此进行完善，而我们必须确保“删除开关”能在任何时候都将玩家带回这种默认状态中。

好消息便是，基于正确的A/B测试QA程序，你便会发现不大需要使用“删除开关”了。不过掌握这一理念能够帮助你更好地进行实验，并且这也是你取得测试成功所需要具备的态度。

孤立变量

这听起来也很平常。但是我们在设计测试时却很容易忘记这一基本原则，即只收到一些积极结果但却不清楚为什么我们能在某些情况下取得成功。

值得强调的是：在设计测试时我们必须确保只面向一个对象进行测试。

关于我们很容易忘记这一原则的一个例子便是，面向特定玩家群体提供特别的内容–即致力于测试改变特定商品的价格所产生的效果。我们可能想在相关玩家群组间插播广告而“支持”测试。但当真正执行时会发现，我们是在同时测试两种内容—-即价格改变以及游戏内部信息的使用。但是我们甚至从未讨论该信息的设计和内容。

而基于这一例子的正确方法便是向所有群组呈现插播广告，提供两种价格然后明确哪种更适合游戏内部购买。如果游戏内部购买有所提高，我们便可以确定价格改变的有效性，尽管这仍是关于是否要插播广告的测试。

同样地，在测试内容改变，如商品的描述时，我们需要专注于一些更明确且具有反复性的改变。从中我们可以了解到一些描述比其它描述更有效。这是一种非常有帮助的方法。

检查纵向影响

在测试时，你需要预先明确成功的标准。这一步骤非常重要。而同时我们也需要定义转换事件，如教程的完成或特殊购买，这与测试本身紧密相连，所以我们需要花些时间去检查测试的纵向影响。

我的意思是我们可以从更广泛的意义上去了解变量和控制群组在一段时间内的表现。经过片刻的沉思你便会清楚为何“综合检查”如此必要了。我们完全能够设计一种测试，即利用带有侵略性的游戏内部信息去推动玩家做出特定的购买行为。如果这种提供带有欺骗性，我们便不难猜到用户留存和长期收益会出现下降—-即使核心测试结果是积极的。

记住这点，我们需要始终着眼于各种变量和控制群组的“整体业务”体验。

你必须始终清楚自己在寻找什么，并事先记下任何会带来不利影响的KPI。如果我们着眼于多个测试中的多种参数，显然在不久之后我们便能够获得真正有意义的结果。改变是我们所期待的变量，但在此基础上却是无意义的。将我们自己设定在希望改变的特定KPI中将减少“正误识”的风险。

ab-testing-diagram(from breezi.com)

区别对待新用户与现有用户

选择用户群体进行测试有时也需要一定的计划。设定测试框架而将测试瞄准某一小群体是非常便捷的方法。你可能想要将测试瞄准某一特定区域的用户，或者将某些用户排除出测试中（游戏邦注：例如你最忠实的用户）。

你总是希望能够单独测试新用户。也就是你想通过测试去搞清楚用户在最初玩游戏时的看法。

让我们假设你正在测试游戏插播广告（即与你的网络中的其它应用进行交叉推广）的布局。作为测试的一部分，我们正在这些插播广告中改变按键布局，以此去推动更高的点击率。

关于这一方法的问题便在于现有用户将使用现有的UI，并且因为他们已经遭遇过插播广告了，所以他们的这种“习得性行为”将影响最终的测试结果。就像现有用户将默认地点击错误的位置，或者会因为UI中的改变而受挫。如此你便只能得到一些虚假的结果，即现有用户带着情绪进行点击。

相反地，你应该选择那些从未看过UI的新用户进行测试，如此你才能获得有关UI性能的准确评价。这便是心理学中的“首因效应”。所以你应该创建只将测试瞄准新用户的测试框架。

via：游戏邦/gamerboom.com编译

菜单Menu

更多阅读：

菜单Menu

更多阅读：

分享这篇文章