在A / B測試之前運行A / A測試,明智還是浪費?

0 評論 12252 瀏覽 14 收藏 9 分鐘

在這篇文章中,我們探討一下為什么一些組織要進(jìn)行A / A測試和在A / A測試時他們需要注意的事情。我們還討論了一些方法,可以幫助企業(yè)決定是否使用某一A / B測試工具。

為什么有些公司要進(jìn)行A / A測試?

A / A測試是在企業(yè)進(jìn)行A/B測試之前完成的。運行A / A測試可以幫助他們:

  • 檢查A / B測試工具的準(zhǔn)確性
  • 設(shè)置以后A / B測試的基準(zhǔn)轉(zhuǎn)換率
  • 確定最小樣本的大小

檢查A / B測試工具的準(zhǔn)確性

托馬斯·馬祖爾(一個電子商務(wù)轉(zhuǎn)化率優(yōu)化專家)說:“ A / A測試是您運行A / B測試之前完整性檢查的好辦法。每當(dāng)您開始使用新工具時,都應(yīng)該這樣做。在這些情況下,A / A測試有助于檢查數(shù)據(jù)中是否存在差異(假設(shè)您在測試工具中看到的訪問者數(shù)量與在網(wǎng)絡(luò)分析工具之間看到的數(shù)量存在差異)。此外, 這還有助于確保你的假設(shè)進(jìn)行驗證?!?/p>

在A / A測試中,如果兩個被測試的版本存在明顯差異,那么原因可能是一下幾種:

  • 工具未正確設(shè)置。
  • 測試沒有正確進(jìn)行。
  • 測試工具效率低下。

Americaneagle.com的A / B測試和優(yōu)化主任柯爾特Swearingernk關(guān)于A / A測試有如下評論:

“ 當(dāng)用戶不太信任A/B測試平臺的時候,通常會運行一個A / A測試來證明平臺的操作是正確。雖然我不經(jīng)常運行A / A測試,但偶爾會使用它去證明A/B測試平臺正在正確地運行“。

確定基線轉(zhuǎn)換率

在進(jìn)行任何A / B測試之前,您需要知道您的基準(zhǔn)轉(zhuǎn)換率,A / A測試則可以幫助您設(shè)置網(wǎng)站的基準(zhǔn)轉(zhuǎn)化率。那么什么是基線轉(zhuǎn)化率,讓我們看個例子。假設(shè)您正在運行A / A測試,其中,A版本在10,000個訪問者中產(chǎn)生303次轉(zhuǎn)化,而版本B在10,000次轉(zhuǎn)化中給出307次。當(dāng)兩個版本之間沒有差異時,A的轉(zhuǎn)化率為3.03%,而B的轉(zhuǎn)化率為3.07%。因此,可以設(shè)置以后A / B測試的基轉(zhuǎn)換率范圍可為3.03-3.07%。如果以后運行A / B測試并且結(jié)果在此范圍內(nèi),那么就意味著結(jié)果不顯著。

確定最小樣品量

A / A測試還可以幫助了解您的網(wǎng)站流量的最小樣本大小。如果采用較小的樣本量將不會包含來自多個版本的足夠流量。您可能會錯過幾個會影響測試結(jié)果的變量。使用較大的版本量,您有更大的機(jī)會考慮影響測試的所有版本。

Corte說,

“A / A測試可以用來使客戶了解需要足夠的樣本容量的重要性”。

米哈爾Parizek,Avast的高級電子商務(wù)與優(yōu)化專家,有過類似的想法。他說:“在Avast,我們?nèi)ツ曜隽艘粋€全面的A / A測試。它給了我們一些寶貴的見解,值得這樣做!“他說,”在最終評估之前檢查統(tǒng)計數(shù)據(jù)總是好的?!?/p>

A / A測試的問題

簡而言之,A / A測試固有的兩個主要問題是:

  • 在任何實驗設(shè)置中的隨機(jī)性的永存元素
  • 需要大樣本量

我們將一一考慮這些:

隨機(jī)元素

如前所述,檢查測試工具的準(zhǔn)確性是運行A / A測試的主要原因。但是,如果你發(fā)現(xiàn)基線轉(zhuǎn)化率和A/B測試得到的結(jié)果之間總是存在差異那就一定能說這個A / B測試工具是錯誤的嗎?

A / A測試的問題是,總是有一個隨機(jī)的元素涉及。也就是實驗的結(jié)果總是隨機(jī)的。

Tomaz Mazur用現(xiàn)實世界的例子解釋隨機(jī)性?!凹僭O(shè)你在同樣的位置設(shè)置了兩個完全相同的商店。很可能,兩者報告的結(jié)果存在差異。但這并不總是意味著A / B測試平臺效率低下?!?/p>

需要大樣本量

A / A測試的另一個問題是它可能是耗時的。當(dāng)測試相同的版本時,您需要一個大的樣本容量,以確定A是否優(yōu)于其相同的版本。這將需要太多的時間,樣品和數(shù)據(jù)量,在可口可樂的盲目測試中,你需要多少人來得出結(jié)論:500人,5000人?“ConversionXL的專家解釋說,優(yōu)化程序的整個目的是減少對時間,資源和金錢的浪費。他們認(rèn)為,即使運行A / A測試沒有錯,但也有更好的別的測試來節(jié)約您的時間”。

A / A測試的其他方法和替代方法

少數(shù)專家認(rèn)為,A/A測試是低效的,因為它消耗了時間,原本這些時間會在實際運行A / B測試中使用。然而,另外一些人說,必須對您的A / B測試工具進(jìn)行健康檢查。也就是說,單獨的A / A測試不足以確定一個測試工具是否應(yīng)優(yōu)先于另一個測試工具。當(dāng)進(jìn)行關(guān)鍵業(yè)務(wù)決策時,例如購買新的A / B測試工具的時候,還有一些其他事情需要考慮。

Corte指出,在購買新的A/B測試工具時還必須考慮其他一些事情。他提出了以下幾點問題:

  1. ?測試平臺是否會與我們的網(wǎng)絡(luò)分析程序集成,以便我可以進(jìn)一步切割測試數(shù)據(jù)以獲得更多洞察力?
  2. ?該工具能讓我分離對我的業(yè)務(wù)很重要的特征用戶,并來測試這些特征用戶嗎?
  3. ?該工具能否讓我立即將100%的流量分配給A/B測試中獲勝的版本?。如果您的測試工具允許立即將100%流量分配給獲勝的版本,那么您可以在CMS中永久構(gòu)建網(wǎng)頁時獲得改進(jìn)的好處。
  4. 測試平臺是否提供了收集關(guān)于網(wǎng)站訪問者的定量和定性信息的方法??這些工具包括熱圖,滾動圖,訪問者記錄,退出調(diào)查,頁面級調(diào)查和視覺形式漏斗。如果測試平臺沒有這些集成,它們是否提供允許與第三方工具集成這些服務(wù)?
  5. 該工具允許個性化設(shè)置嗎??如果測試結(jié)果是分段的,并且發(fā)現(xiàn)一種類型的內(nèi)容對一個細(xì)分最有效,另一種類型的內(nèi)容對第二個細(xì)分有更好的效果,該工具是否允許您為不同細(xì)分受眾群永久提供這些不同的體驗?

也就是說,還有一些人選擇替代方案。他們會從別的角度提出問題去驗證A/B測試工具的準(zhǔn)確性而省去了AA測試。

結(jié)論

當(dāng)企業(yè)面臨實施新的測試軟件應(yīng)用程序的決定時,他們需要對該工具進(jìn)行徹底檢查。A / A測試是一些組織用于檢查工具是否有效的一種方法。而評判一個A/B測試工具是否好用則不只是A/A測試能決定的。

 

原文地址:?https://vwo.com/blog/aa-test-before-ab-testing/

譯者:Hoho @Testin云測

本文由 @Hoho 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!