午夜片无码区私人影院,国产亚洲综合久久无码

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

如何使用A/A測試，讓數(shù)據(jù)更準確？

吆喝科技

2016-11-02

2 評論 11014 瀏覽 17 收藏

13 分鐘

什么比沒數(shù)據(jù)可用更糟糕？虛假數(shù)據(jù)。

沒有什么能像A/B測試一樣給你信心并讓你闊步向前；同樣地，沒什么能比虛假數(shù)據(jù)更快終結你的大步向前。為了進行正確的測試，你需要了解A/B測試的統(tǒng)計學；否則，你會花費很多時間試圖獲得答案而不是得到答案。最終，你會混淆你以為你有的答案，實際上你卻什么都沒有。A/A測試，將確保你得到的數(shù)據(jù)能用來自信地作出決定。

我們會給你介紹一種測試，如果成功它不會教你關于訪客的情況，相反，它帶來的要比原始數(shù)據(jù)更有價值，它會給你信心。

什么是A / A測試

在你對標題、副標題、配色、 CTA 、視頻腳本、設計等進行測試之前，先測試軟件本身。這很簡單，通過測試網(wǎng)頁自身就能實現(xiàn)。有人會認為這是毫無意義的，因為一個頁面的相同頁面將會有同樣的結果，對嗎？

并非如此。

測試3天后，A/A測試表明，同樣的變化校驗版本與原始版本相比，少了35.7%的收入，這會是對增長的絞殺。

這個運行了3天的A/A測試沒能帶來任何信心的增長。

造成這一結果的原因可能有：

你正在使用的A/B測試工具出了故障；
通過你的網(wǎng)站所報告的數(shù)據(jù)是錯誤或重復的；
A/A測試需要運行更長時間。

對這個問題的第一個線索是樣本規(guī)模較小，雖然每個頁面有超過345的訪問量，但只有22/34筆交易。對一個大的因素來說，這個交易量太小。在A/B測試統(tǒng)計中，交易量比流量在建立統(tǒng)計信心上顯得更重要。少于200筆的交易量通常帶來無意義的結果。

顯然，這種測試需要運行更長的時間。

你的第一直覺可能是通過快速A/A測試，這樣你就能開展真正有趣的事情-A/B測試。但這是錯的，上面告訴了你為什么。

用A/A測試來校準你的A/B測試工具

隨著時間的推移，兩個相同頁面之間的差異若一直存在，我們會取消A/B測試計劃直到我們找出這種差異的源頭，到底是A/B測試工具還是網(wǎng)站本身的問題。我們也應重新測試來預先發(fā)現(xiàn)A/A測試存在的異常。

在這種情況下，較長時間的A/A測試能彌補樣本數(shù)量的不足。在一次A/A試驗中，3.5%的誤差是可接受的，并且最小樣本量需要保證有接近200的交易量，才可以開始評估結果。

這是統(tǒng)計顯著和樣本大小建立或摧毀信心的一個很好的教訓。

一個A / A測試將告訴你，你的最小樣本數(shù)量

A/A測試最終有效取決于足夠的試驗時間，合適的流量。不只是大量的流量，還需要合適的樣本大小。

周一早上的顧客從統(tǒng)計上來看是跟周六晚上的顧客完全不同的兩類人；
節(jié)假日的顧客與非節(jié)假日的顧客統(tǒng)計差異顯著；
桌面顧客和移動端顧客統(tǒng)計差異顯著；
工作中的顧客與居家的顧客不同；
付費廣告渠道顧客與口碑推薦顧客不同。

如果你深入挖掘你的數(shù)據(jù)結果諸如設備類型和瀏覽器版本，你會發(fā)現(xiàn)驚人的不同。當然，小樣本下的結果是不可信的。這是因為小樣本從總體上意味著可能存在分配不均的數(shù)據(jù)段。

下面是來自同一個A/A測試的數(shù)據(jù)樣本。在這點上，對每個變量少于300次的會話進行了測試，你可以看到，使用 Safari 瀏覽器的 Mac 訪客存在分配不均，校驗版本發(fā)生85次訪問，控制版本發(fā)生了65次。記住，這兩個版本是一樣的，此外，在 IE 瀏覽器上甚至存在更大的差異，分別是27和16。

這種不均衡是平均的規(guī)律，考慮這種不均不是沒有道理的，但是，我們期望能有更大的樣本量。

不同的瀏覽器有不同的轉(zhuǎn)化率

據(jù)統(tǒng)計，一個分配不均會導致不同的結果，即使所有的變化都是平等的。如果訪問分配不均，那么那些準備轉(zhuǎn)換的訪客客也會分配不均，這將導致轉(zhuǎn)化率的不同。

在上面的圖中，我們看到。對于 Internet Explorer 瀏覽器的訪客，全部的16個訪客是沒有轉(zhuǎn)換的，然而校驗組的訪客卻有7.41%的轉(zhuǎn)化率。

在 Safari 下，相同數(shù)量的訪客被分配到控制組和變量校驗組，但到達控制組的只有65名訪客，到達校驗組的有85名訪客，看起來控制組有更高的轉(zhuǎn)化率。

但原因肯定不是因為有兩個相同的頁面。

隨著時間的推移，我們預計大多數(shù)不一致會被拉平。那時，這些疊加起來就造成參差不齊的結果。

當你在A/B測試中測試不同的頁面時，這些外力因素將會產(chǎn)生影響。如果樣本量太小，你知道為什么你的A/B測試工具建議你繼續(xù)錯誤的版本嗎？

計算測試持續(xù)時間

在從不同的細分受眾中收到足夠大的樣本量來確定你的那個版本的網(wǎng)頁在受眾面前表現(xiàn)更好前，你必須進行測試。A/A測試能證明其達到統(tǒng)計顯著的時間。

A/B測試持續(xù)時間是兩個因素的函數(shù)：

達到一個可接受的樣本大小所需的時間；
變量之間的不同表現(xiàn)差異大小。

如果一個變量引起了50%的變化，測試就不必運行很長時間。大比分勝利，也被成為“戰(zhàn)勝的機會”或“信心”，即使是在小樣本下，也能戰(zhàn)勝誤差。

因此，一個A/A測試表現(xiàn)的最壞場景，其中變量幾乎沒辦法戰(zhàn)勝控制組，因為它是相同的，事實上，A/A測試可能永遠達不到統(tǒng)計顯著。

在上面的例子中，測試還沒有達到統(tǒng)計顯著，而且不可能達到。然而，我們看到了校準變量版本和控制版本在15天后轉(zhuǎn)化率曲線重合。

在這個A/A測試中，相同的頁面花了15天轉(zhuǎn)化率逐步接近。

這告訴我們，測試至少要運行15天，以確保我們有一個很好的樣本集。不論如何，測試不應該運行少于一個星期，兩個星期是可取的。

設置一個A/A測試

A/A測試好在不必做任何創(chuàng)造性的或研發(fā)上的工作。當設置A/B測試時，你需要在A/B測試軟件上編程來改變、隱藏或刪除頁面的某些部分；但根據(jù)定義，對A/A測試來說這些都是不需要的。

對A/A測試來說，面臨的挑戰(zhàn)是正確的選擇運行測試的頁面，你的A/A測試頁面都應該有兩個特點：

相對較高的流量。網(wǎng)頁流量越多，越早看到變量的對比；
訪客可以從頁面購買或注冊。我們希望根據(jù)最終目標來校驗我們的A/B測試工具。

出于這些原因，通常我們在網(wǎng)站主頁上運行A/A測試。

你也想給你的A/B測試工具集成數(shù)據(jù)分析工具，你的A/B測試工具可能被設置錯誤，導致兩個變量變現(xiàn)類似。通過數(shù)據(jù)分析工具對A/A測試數(shù)據(jù)的鉆取和分析，可以與A/B測試工具數(shù)據(jù)報告的轉(zhuǎn)化和收入做比較，它們具有關聯(lián)性。