如何使用A/A測試,讓數(shù)據(jù)更準確?

2 評論 11014 瀏覽 17 收藏 13 分鐘

什么比沒數(shù)據(jù)可用更糟糕?虛假數(shù)據(jù)。

沒有什么能像A/B測試一樣給你信心并讓你闊步向前;同樣地,沒什么能比虛假數(shù)據(jù)更快終結你的大步向前。為了進行正確的測試,你需要了解A/B測試的統(tǒng)計學;否則,你會花費很多時間試圖獲得答案而不是得到答案。最終,你會混淆你以為你有的答案,實際上你卻什么都沒有。A/A測試,將確保你得到的數(shù)據(jù)能用來自信地作出決定。

我們會給你介紹一種測試,如果成功它不會教你關于訪客的情況,相反,它帶來的要比原始數(shù)據(jù)更有價值,它會給你信心。

什么是A / A測試

在你對標題、副標題、配色、 CTA 、視頻腳本、設計等進行測試之前,先測試軟件本身。這很簡單,通過測試網(wǎng)頁自身就能實現(xiàn)。有人會認為這是毫無意義的,因為一個頁面的相同頁面將會有同樣的結果,對嗎?

并非如此。

測試3天后,A/A測試表明,同樣的變化校驗版本與原始版本相比,少了35.7%的收入,這會是對增長的絞殺。

1

這個運行了3天的A/A測試沒能帶來任何信心的增長。

造成這一結果的原因可能有:

  • 你正在使用的A/B測試工具出了故障;
  • 通過你的網(wǎng)站所報告的數(shù)據(jù)是錯誤或重復的;
  • A/A測試需要運行更長時間。

對這個問題的第一個線索是樣本規(guī)模較小,雖然每個頁面有超過345的訪問量,但只有22/34筆交易。對一個大的因素來說,這個交易量太小。在A/B測試統(tǒng)計中,交易量比流量在建立統(tǒng)計信心上顯得更重要。少于200筆的交易量通常帶來無意義的結果。

顯然,這種測試需要運行更長的時間。

你的第一直覺可能是通過快速A/A測試,這樣你就能開展真正有趣的事情-A/B測試。但這是錯的,上面告訴了你為什么。

2

用A/A測試來校準你的A/B測試工具

隨著時間的推移,兩個相同頁面之間的差異若一直存在,我們會取消A/B測試計劃直到我們找出這種差異的源頭,到底是A/B測試工具還是網(wǎng)站本身的問題。我們也應重新測試來預先發(fā)現(xiàn)A/A測試存在的異常。

在這種情況下,較長時間的A/A測試能彌補樣本數(shù)量的不足。在一次A/A試驗中,3.5%的誤差是可接受的,并且最小樣本量需要保證有接近200的交易量,才可以開始評估結果。

這是統(tǒng)計顯著和樣本大小建立或摧毀信心的一個很好的教訓。

一個A / A測試將告訴你,你的最小樣本數(shù)量

A/A測試最終有效取決于足夠的試驗時間,合適的流量。不只是大量的流量,還需要合適的樣本大小。

  • 周一早上的顧客從統(tǒng)計上來看是跟周六晚上的顧客完全不同的兩類人;
  • 節(jié)假日的顧客與非節(jié)假日的顧客統(tǒng)計差異顯著;
  • 桌面顧客和移動端顧客統(tǒng)計差異顯著;
  • 工作中的顧客與居家的顧客不同;
  • 付費廣告渠道顧客與口碑推薦顧客不同。

如果你深入挖掘你的數(shù)據(jù)結果諸如設備類型和瀏覽器版本,你會發(fā)現(xiàn)驚人的不同。當然,小樣本下的結果是不可信的。這是因為小樣本從總體上意味著可能存在分配不均的數(shù)據(jù)段。

下面是來自同一個A/A測試的數(shù)據(jù)樣本。在這點上,對每個變量少于300次的會話進行了測試,你可以看到, 使用 Safari 瀏覽器的 Mac 訪客存在分配不均,校驗版本發(fā)生85次訪問,控制版本發(fā)生了65次。記住,這兩個版本是一樣的,此外,在 IE 瀏覽器上甚至存在更大的差異,分別是27和16。

這種不均衡是平均的規(guī)律,考慮這種不均不是沒有道理的,但是,我們期望能有更大的樣本量。

3

不同的瀏覽器有不同的轉(zhuǎn)化率

據(jù)統(tǒng)計,一個分配不均會導致不同的結果,即使所有的變化都是平等的。如果訪問分配不均,那么那些準備轉(zhuǎn)換的訪客客也會分配不均,這將導致轉(zhuǎn)化率的不同。

在上面的圖中,我們看到。對于 Internet Explorer 瀏覽器的訪客,全部的16個訪客是沒有轉(zhuǎn)換的,然而校驗組的訪客卻有7.41%的轉(zhuǎn)化率。

在 Safari 下,相同數(shù)量的訪客被分配到控制組和變量校驗組,但到達控制組的只有65名訪客,到達校驗組的有85名訪客,看起來控制組有更高的轉(zhuǎn)化率。

但原因肯定不是因為有兩個相同的頁面。

隨著時間的推移,我們預計大多數(shù)不一致會被拉平。那時,這些疊加起來就造成參差不齊的結果。

當你在A/B測試中測試不同的頁面時,這些外力因素將會產(chǎn)生影響。如果樣本量太小,你知道為什么你的A/B測試工具建議你繼續(xù)錯誤的版本嗎?

計算測試持續(xù)時間

在從不同的細分受眾中收到足夠大的樣本量來確定你的那個版本的網(wǎng)頁在受眾面前表現(xiàn)更好前,你必須進行測試。A/A測試能證明其達到統(tǒng)計顯著的時間。

A/B測試持續(xù)時間是兩個因素的函數(shù):

  • 達到一個可接受的樣本大小所需的時間;
  • 變量之間的不同表現(xiàn)差異大小。

如果一個變量引起了50%的變化,測試就不必運行很長時間。大比分勝利,也被成為“戰(zhàn)勝的機會”或“信心”,即使是在小樣本下,也能戰(zhàn)勝誤差。

因此,一個A/A測試表現(xiàn)的最壞場景,其中變量幾乎沒辦法戰(zhàn)勝控制組,因為它是相同的,事實上,A/A測試可能永遠達不到統(tǒng)計顯著。

在上面的例子中,測試還沒有達到統(tǒng)計顯著,而且不可能達到。然而,我們看到了校準變量版本和控制版本在15天后轉(zhuǎn)化率曲線重合。

4

在這個A/A測試中,相同的頁面花了15天轉(zhuǎn)化率逐步接近。

這告訴我們,測試至少要運行15天,以確保我們有一個很好的樣本集。不論如何,測試不應該運行少于一個星期,兩個星期是可取的。

設置一個A/A測試

A/A測試好在不必做任何創(chuàng)造性的或研發(fā)上的工作。當設置A/B測試時,你需要在A/B測試軟件上編程來改變、隱藏或刪除頁面的某些部分;但根據(jù)定義,對A/A測試來說這些都是不需要的。

對A/A測試來說,面臨的挑戰(zhàn)是正確的選擇運行測試的頁面,你的A/A測試頁面都應該有兩個特點:

  • 相對較高的流量。網(wǎng)頁流量越多,越早看到變量的對比;
  • 訪客可以從頁面購買或注冊。我們希望根據(jù)最終目標來校驗我們的A/B測試工具。

出于這些原因,通常我們在網(wǎng)站主頁上運行A/A測試。

你也想給你的A/B測試工具集成數(shù)據(jù)分析工具,你的A/B測試工具可能被設置錯誤,導致兩個變量變現(xiàn)類似。通過數(shù)據(jù)分析工具對A/A測試數(shù)據(jù)的鉆取和分析,可以與A/B測試工具數(shù)據(jù)報告的轉(zhuǎn)化和收入做比較,它們具有關聯(lián)性。

我可以在同一時間運行A/B測試和A/A測試嗎?

統(tǒng)計意義上,你可以在運行A/B測試的網(wǎng)站上運行A/A測試。如果工具運行良好,A/A測試不會對訪客造成明顯影響。但這會為A/B測試引入更多的錯誤,只有通過更長的測試時間來達到統(tǒng)計顯著。

而如果A/A測試一段時間沒有被“拉平”,你必須拋棄你的A/B測試結果。

在等待A/A測試自生自滅的時間里你也可以運行A/B測試來達到統(tǒng)計學意義。你不想在A/A測試期間做任何改變。

運行A/A測試的成本

運行A/A測試的成本:機會成本。A/A測試上投入的時間和流量用來進行A/B測試,你能學到關于訪客的有價值的信息。

應該考慮運行A/A測試的唯一種情況:

  • 你剛安裝了一個新的測試工具或更改了測試工具設置;
  • 你發(fā)現(xiàn)了測試工具報告的數(shù)據(jù)與分析報告之間存在差異。

運行A/A測試不是一種非常常見的情況。

有兩種類型的A/A測試:

  • 一個“純”的雙變量測試
  • “校驗變量”的A/B測試

單純的雙變量A/A測試

通過這種方法,你選擇了一個高流量頁面并用A/B測試工具建立了測試,這時候就會有控制變量和沒有改變的第二個變量。

  • 優(yōu)點:此測試將在最短的時間內(nèi)完成,因為所有的流量都用來進行測試
  • 缺點:不能了解你的訪客

校驗變量A/A測試

這種方法包括增加“校驗變量”到A/B測試的設計中,之后將會有控制變量,一個或多個“B”變量用于測試,其他變量與控制組無差異。當測試完成后,你會從“B”變量中得到一些結果,也能夠通過A/A測試校驗A/B測試工具。

  • 優(yōu)點:你可以做一個A/A測試無需停止你的AB測試程序。
  • 缺點:這種方法在統(tǒng)計學上非常棘手。測試中有越多變量,期望誤差越大。它也會消耗A//B測試的流量,要求測試運行更長時間來達到統(tǒng)計顯著。

5

在A/B測試中進行A/A測試校驗。

不幸的是,在上面的測試”中,A/B測試變量“Under ‘Package’ CTAs” 沒有很明顯的跑贏A/A測試的校驗變量。

你可以從A / A測試中學到更多的東西

A/B測試工具更強大的一項功能是跨網(wǎng)站跟蹤訪客行為的能力,常見的A/B測試工具能跟蹤一系列用戶行為來告訴你一些訪客行為。

  • 注冊或購買的哪些步驟導致訪客離開網(wǎng)站;
  • 有多少訪客開始填寫表格;
  • 訪客點擊哪些圖片;
  • 哪些導航欄經(jīng)常被點擊。

通過定義這些訪客規(guī)則,能在運行A/B測試期間更好的理解訪客行為。

 

翻譯:由吆喝科技(微信:appadhoc)編譯自:How an A/A Test Gives You Confidence

本文由 @吆喝科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 你用的百度翻譯么 吐了

    來自新加坡 回復
  2. 你確定這翻譯順暢?

    來自廣東 回復