增長黑客進(jìn)階之路:關(guān)于A/A測試,看這篇文章就夠了

0 評論 12100 瀏覽 28 收藏 7 分鐘

增長黑客成長之路上,想比大家對A/B測試已經(jīng)很熟悉了,但聽過、實(shí)踐過A/A測試的同學(xué)舉個手我看看,喏,還沒多少人。這篇文章我們就來講講A/A測試。

什么是A/A測試?

A/A測試可以理解成對兩個相同版本進(jìn)行的A/B測試。通常,這樣做的目的是為了驗(yàn)證正在使用的工具運(yùn)行試驗(yàn)在統(tǒng)計上是公平的。在A/A測試中,如果測試正確進(jìn)行,控制組和實(shí)驗(yàn)組應(yīng)該沒有任何區(qū)別。

在沒做A/A測試之前,你可能什么都不知道,這里的邏輯是這樣的:如果樣本的A/A測試結(jié)果達(dá)到統(tǒng)計顯著,那么A/B測試工具或測試方案就是不可信的。

如果說A/B測試用來測試比較幾個方案的優(yōu)劣,那么A/A測試就是驗(yàn)證A/B測試及工具置信度的有效方式。

為什么進(jìn)行A/A測試?

既然A/A測試的兩個版本變量沒有任何變化,為什么還要花時間精力來做?

商業(yè)活動中,通常我們使用一切數(shù)據(jù)工具的目的,無外乎:用測量推動決策優(yōu)化,同時用正確的決策獲取比競爭對手更大的市場??赡芡ㄟ^數(shù)據(jù)能獲取的決策信息點(diǎn)有很多,那么通過A/A測試來確保你得到的數(shù)據(jù)能用來自信地作出決定,減小決策失誤。

通常情況下我們做A/A測試的目的有下面幾個:

  1. 保證精確的流量分配,換句話說,驗(yàn)證隨機(jī)性實(shí)際上是通過確保每次試驗(yàn)產(chǎn)生的計數(shù)與統(tǒng)計范圍相似
  2. 識別假陽性結(jié)果的頻率(假陽性結(jié)果也可以理解為測試結(jié)果中的虛假繁榮,有相當(dāng)?shù)恼`導(dǎo)性)
  3. 確定方差“泡沫”幫我們更好的理解其他測試結(jié)果

關(guān)于假陽性

A/A測試能被用來理解假陽性結(jié)果的頻率。簡單講,如果你在測試中采用95%置信水平,那么20次結(jié)果可能會出現(xiàn)1次假陽性結(jié)果。這時候通過A/A測試,就能驗(yàn)證轉(zhuǎn)化率的顯著差異,比如,你運(yùn)行20次A/A測試,其中有2次結(jié)果明顯不同,這意味著假陽性的比例可能高于5%。

方差“泡沫”

A/A測試能幫助確定轉(zhuǎn)化率中的方差“泡沫”,最小化對未來測試的影響。除了技術(shù)上的有效性,A/A測試能讓“泡沫”在可接受范圍內(nèi)。

%e6%96%b9%e5%b7%ae%e6%b3%a1%e6%b2%ab

比如,如果A/A測試中的泡沫是0.1%,測試轉(zhuǎn)化率是3%,那么你可以接受的范圍就是2.9%-3.1%。如果你看到0.1%的提升,那么你就知道這樣的結(jié)果是沒有意義的。

A/A測試的時候,你不知道什么時候新變量和默認(rèn)變量的轉(zhuǎn)化率差別結(jié)果能達(dá)到統(tǒng)計顯著。因此,A/A測試中的任何錯誤或置信度不應(yīng)被用來作為未來測試的基準(zhǔn),因?yàn)锳/A測試中本不應(yīng)有轉(zhuǎn)化率的明顯差異。

需要注意的是,有可能只是因?yàn)殡S機(jī)性,導(dǎo)致A/A測試的兩個試驗(yàn)結(jié)果有所不同,而不是工具或測試方案本身的問題。當(dāng)然,隨著樣本量的增大,這種差別會逐漸降低。這是因?yàn)?,小樣本下的結(jié)果是不可信的,小樣本從總體上意味著可能存在分配不均的數(shù)據(jù)段。要消除這點(diǎn),就需要A/A測試運(yùn)行足夠長的時間,以及有足夠的樣本規(guī)模。

計算測試持續(xù)時間

測試持續(xù)時間是兩個因素的函數(shù):

  • 達(dá)到一個可接受的樣本大小所需的時間
  • 變量之間的不同表現(xiàn)差異大小

如果一個變量引起了50%的變化,測試就不必運(yùn)行很長時間。這種情況,即使是在小樣本下,也可以忽略統(tǒng)計誤差。

如何設(shè)置A/A測試?

A/A測試好在不必做任何創(chuàng)造性的或研發(fā)上的工作。當(dāng)設(shè)置A/B測試時,你需要在A/B測試軟件上編程來改變、隱藏或刪除頁面的某些部分,對A/A測試來說這些都是不需要的。

A/A測試面臨的挑戰(zhàn)是正確的選擇運(yùn)行測試的頁面,通常做A/A測試的頁面都應(yīng)該有兩個特點(diǎn):

  1. 相對較高的流量。網(wǎng)頁流量越多,越早看到變量的對比。
  2. 訪客可以從頁面購買或注冊。我們希望根據(jù)最終目標(biāo)來校驗(yàn)我們的A/B測試工具。

出于這些原因,通常我們會在網(wǎng)站主頁上運(yùn)行A/A測試。

運(yùn)行A/A測試的成本

運(yùn)行A/A測試的唯一成本:機(jī)會成本。有的人寧愿把A/A測試上投入的時間和流量用來多做幾次A/B測試也不是沒有道理的。

應(yīng)該考慮運(yùn)行A/A測試的唯一種情況:

1.你剛安裝了一個新的測試工具或更改了測試工具設(shè)置。

2.你發(fā)現(xiàn)了A/B測試與數(shù)據(jù)分析工具結(jié)果之間存在差異。

參考文章:

  1. blog.analytics-toolkit.com/2014/aa-aab-aabb-tests-cro/
  2. blogs.oracle.com/marketingcloud/optimization-shorts:-aa-testing
  3. www.optimizely.com/optimization-glossary/aa-testing/

 

本文由 Zoran @吆喝科技(微信:appadhoc)授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!