A/B測試

维基百科,自由的百科全书
跳到导航 跳到搜索
網站上A/B測試的例子。網頁的瀏覽者會依亂數分配到兩個只有按鈕設計不同的網頁,可以量測這兩種不同設計的相對效果差異。

A/B測試為一種隨機測試英语Randomized experiment,將兩個不同的東西(即A和B)進行假設比較[1][2]。該測試運用統計學上的假設檢定雙母體假設檢定英语Two-sample hypothesis testing。 A/B測試可以用來測試某一個變量兩個不同版本的差異,一般是讓A和B只有該變量不同,再測試其他人對於A和B的反應差異,再判斷A和B的方式何者較佳[3]

概述[编辑]

正如其名称所示,A/B测试通过对比只有一个变量不同的同一产品的两个不同版本的表现来研究该变量的作用以及影响。其中版本A可能是当前正在使用的版本,而版本B是改进版。例如,一个电商网站的购买流程就很适合做A/B测试,因为即使滞留率(drop-off rate)的微小改善也能大幅提升销售利润。(例如,对于电商网站而言)对产品的极大改变包括文字内容,架构,图片,颜色*等。

多参数检验或多项测试与A/B测试类似,但前者测试更多变量或控制更多变量。简单的A/B测试不适用于观察性研究,准实验研究和非实验研究。

A/B测试被视为一种哲学上的和商业策略上的改变,虽然其本身几乎等价于早已广泛应用的被试间设计[4]。作为一种网页开发中的哲学,A/B测试使其更具备循证实践的色彩。A/B测试的优点在于它几乎对任何事物(变量)都是连续的,并且,很多自动化电商软件现在可以对还未完成的数据库进行A/B测试。


例子[编辑]

一个公司拥有一个覆盖2000名消费者的数据库,公司现在决定创建 一个带有折扣代码的邮件广告以提高销售额。为此公司创建了两个版本的邮件广告并分别发给其中1000人:第一种内容为“本周六优惠结束!请用优惠代码A!”,第二种内容为“优惠即将结束,请用优惠代码B”。两种广告除此段广告词外所有其他元素均相同。然后公司通过分析两种优惠码的使用情况来研究广告词的影响。统计结果表明,使用代码A的电子邮件的响应率为5%,使用代码B的电子邮件的响应率为3%。因此,公司确定在这种情况下,第一种用语方式会更有效,并将在以后的销售中使用类似的说辞。当然,更精确的做法还应检查A和B的响应率差异是否在统计上显着,以排除随机误差的影响。

上述示例中,测试的目的是确定哪种方法更能鼓励客户购物。但是,如果测试的目的是研究哪个电子邮件将产生更高的点击率(即,收到电子邮件后实际点击该网站的人数),那么结果可能会有所不同,比如,也许有更多收到代码B的客户访问了该网站,但由于广告中没有说明促销的结束日期,所以他们中的许多人可能并不急于立即购买。


细分定位[编辑]

A/B测试通常随机,均匀地选取受试群体,然而受试群体对其的反应可能是非均匀的。比如在用于测试A版本的群体a中的平均反馈为x,而在用于测试B版本的群体b中的某一部分人b'的平均反馈高于x,而b群体的整体平均反馈低于x[5]

继续举前文中的例子,假设收到优惠码A的人中,男性的平均购买率为2%,女性平均购买率为8%,总体的平均购买率为5%,而在收到优惠码B的人中,男性的平均购买率为5%,而女性平均购买率为1%,总体则为3%。若如此,则说明应对不同性别的用户使用不同的广告词。

相關條目[编辑]

參考資料[编辑]

  1. ^ Kohavi, Ron; Longbotham, Roger. Online Controlled Experiments and A/B Tests. (编) Sammut, Claude; Webb, Geoff. Encyclopedia of Machine Learning and Data Mining (PDF). Springer. 2017. 
  2. ^ Kohavi, Ron; Thomke, Stefan. The Surprising Power of Online Experiments. Harvard Business Review. September 2017: 74–82. 
  3. ^ The ABCs of A/B Testing - Pardot. Pardot. [2016-02-21] (美国英语). 
  4. ^ Split Testing Guide for Online Stores • Webics. Webics. 2012-08-27 [2019-12-23] (英语). 
  5. ^ Advanced A/B Testing Tactics That You Should Know. online-behavior.com. [2019-12-23].