科普 | 細(xì)節(jié)決定A/B測(cè)試的成?。翰豢珊鲆暤某闃?/h2>
大家好,給大家介紹一下,這是在A/B測(cè)試起到奠基作用的依據(jù)@抽樣。
最近在微信公眾號(hào)的后臺(tái)陸陸續(xù)續(xù)收到了不少熱心小姐姐小哥哥的問(wèn)題,有關(guān)心我們流量層具體運(yùn)作原理這樣比較高端領(lǐng)域的,也有關(guān)心A/B測(cè)試基本能力是否真如傳說(shuō)中那樣強(qiáng)大的。
有位小姐姐問(wèn)到了抽樣這個(gè)詞,引起了我的深思思想者狀沉思ing,仔細(xì)想了想,目前已有的資料里面,對(duì)于A/B測(cè)試最最基本的組成部分:抽樣,好像鮮有提到。不僅如此,大量的新手教程啦入門(mén)指導(dǎo)啦各個(gè)案例什么的,都是在從更高的角度解讀A/B測(cè)試,沒(méi)什么資料從根源講解A/B測(cè)試一個(gè)致命的關(guān)鍵點(diǎn)……
1. 從根源出發(fā):深挖抽樣
在統(tǒng)計(jì)學(xué)中,平均數(shù)是反映數(shù)據(jù)集中趨勢(shì)的一項(xiàng)指標(biāo),一般通過(guò)將一組數(shù)據(jù)集中所有數(shù)據(jù)之和除以這組數(shù)據(jù)集的數(shù)據(jù)個(gè)數(shù)得到。在A/B測(cè)試中,我們無(wú)法知道所有用戶(hù)的行為(如點(diǎn)擊率)的真正均值——如果每次做活動(dòng)、每次做版本迭代的時(shí)候,都將測(cè)試面向所有用戶(hù)的話,且不說(shuō)動(dòng)用的人力物力,一旦其中有什么版本效果不好,比如大幅度降低了點(diǎn)擊之類(lèi),帶給企業(yè)的影響將是災(zāi)難性的。舉個(gè)栗子,一個(gè)APP如果有一萬(wàn)名用戶(hù),假設(shè)五千人測(cè)試版本A,五千人測(cè)試版本B,這樣固然可以知道AB之間孰優(yōu)孰劣,但是如果A的效果極差(比如引起用戶(hù)刪除應(yīng)用),那么使用A版本的五千人豈不是……簡(jiǎn)直是災(zāi)難——因此,必須通過(guò)抽樣,抽取一部分具有代表性的用戶(hù)來(lái)測(cè)試不同版本的效果(例如均值),從而基于抽樣數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。一般來(lái)說(shuō),我們抽樣的樣本數(shù)越多,方差也會(huì)逐漸變小,從而使抽樣樣本的均值和真正均值之間的誤差降低。
這事兒說(shuō)起來(lái)簡(jiǎn)單,但是有個(gè)很致命的要求:要保證所抽取的樣品單位對(duì)全部樣品具有充分的代表性。不然可不能確保數(shù)據(jù)分析的結(jié)果是否準(zhǔn)確。這就需要從這三大方面來(lái)保證:
相似性
很重要也最復(fù)雜的一點(diǎn)。相似,指的是用戶(hù)群體各個(gè)維度的群體特征相似。用戶(hù)使用的機(jī)型是手機(jī)還是平板、系統(tǒng)的版本是iOS幾還是安卓幾點(diǎn)幾,目前的應(yīng)用版本是幾點(diǎn)幾甚至使用的語(yǔ)言是中文還是英語(yǔ)法語(yǔ)日語(yǔ)之類(lèi)的外語(yǔ)之類(lèi),都是區(qū)分不同用戶(hù)群體的指標(biāo)。舉個(gè)栗子,某APP針對(duì)手機(jī)用戶(hù)有一項(xiàng)活動(dòng),那么在測(cè)試的時(shí)候如果放任平板用戶(hù)參與,就失去了活動(dòng)的意義不是嗎。相似性,正是為了確保被抽取的部分用戶(hù)足以代表整個(gè)用戶(hù)群而提出的。但這并不簡(jiǎn)單,實(shí)際上,分割各個(gè)用戶(hù)群的標(biāo)準(zhǔn)是什么?是客戶(hù)的需求。因?yàn)橹挥邪凑湛蛻?hù)要求進(jìn)行區(qū)分的用戶(hù)群才有價(jià)值,如何讓客戶(hù)隨心所欲區(qū)分用戶(hù)群,才是相似性復(fù)雜的地方。
唯一性
最重要的一點(diǎn),每個(gè)用戶(hù)分配到的試驗(yàn)版本得是唯一的。舉個(gè)栗子,為了推廣某項(xiàng)服務(wù),某APP推出了兩個(gè)版本A和B,分別用不同的界面來(lái)推銷(xiāo)這款服務(wù)。陸仁甲在測(cè)試期間登錄APP,看到了版本A,覺(jué)得A給出的這個(gè)界面非常不錯(cuò),于是充值打算購(gòu)買(mǎi)這個(gè)服務(wù),但因?yàn)橛袆e的事情于是只好先關(guān)閉了應(yīng)用。過(guò)了一段時(shí)間,他又登錄了,但是卻看到了版本B。“我去這什么界面設(shè)計(jì),太難看了”對(duì)于版本B感到反感的他,為了購(gòu)買(mǎi)在A中看到的服務(wù),只好被迫在B里面點(diǎn)擊了購(gòu)買(mǎi)按鈕……且不說(shuō)由于版本來(lái)回變換帶來(lái)的不良用戶(hù)體驗(yàn),更別提這種類(lèi)似于刷數(shù)據(jù)一樣bug,光是同一用戶(hù)的重復(fù)測(cè)試就已經(jīng)導(dǎo)致測(cè)試結(jié)果不可信了不是嗎,陸仁甲是被迫在版本B中提高了點(diǎn)擊,這將計(jì)入B的點(diǎn)擊轉(zhuǎn)化,但是實(shí)際上他喜歡的是A啊(A:是我,是我先,明明都是我先來(lái)的)。如果因此判斷B比A好而發(fā)布版本B……那畫(huà)面太美我不敢看
均勻性
既然是抽樣實(shí)驗(yàn),那么抽取的樣本量就必須一致,這樣才有對(duì)比性。這就跟初中高中物理里面用的控制變量法似的,保證單一變量(版本AB)有變化,而其他變量要保持一致。實(shí)現(xiàn)這一點(diǎn)的重要倚靠是分配流量是否真如所愿一般分配。就比如,一個(gè)有十萬(wàn)用戶(hù)群的APP,能不能做到給AB各分配2%的流量時(shí),進(jìn)入這兩個(gè)版本的用戶(hù)真的都是是在2000人附近。
2 回到根源,如何滿足三大性質(zhì)
滿足了這三個(gè)點(diǎn),才敢說(shuō)A/B測(cè)試真正有價(jià)值。Testin A/B測(cè)試從創(chuàng)始之初就致力于讓抽樣經(jīng)得住考驗(yàn),在這三方面不敢說(shuō)歷經(jīng)考驗(yàn),但起碼是經(jīng)得起考驗(yàn),受到諸多用戶(hù)的一致好評(píng)。讓我們從三個(gè)方面一個(gè)個(gè)來(lái)看Testin是怎么做的:
在相似性方面
首先基于SDK自動(dòng)采集來(lái)使用聚類(lèi)分析分割用戶(hù)群,確保各個(gè)維度的群體特征相似,例如不同用戶(hù)群的機(jī)型比例、語(yǔ)言比例等都會(huì)相似,以免干擾試驗(yàn)結(jié)果可信度。而在“讓客戶(hù)隨心所欲區(qū)分用戶(hù)群”這一點(diǎn)上,則在兼顧靈活性的基礎(chǔ)上做到了精確定向。通過(guò)允許客戶(hù)添加各類(lèi)用戶(hù)標(biāo)簽,Testin A/B測(cè)試可以依此實(shí)現(xiàn)精準(zhǔn)定向分流,客戶(hù)只要設(shè)置相應(yīng)的用戶(hù)標(biāo)簽(例如性別、年齡等,需要上傳),就可以在分配流量(分流)的時(shí)候自動(dòng)完成用戶(hù)群分割,簡(jiǎn)單高效。
用于分割用戶(hù)群的用戶(hù)標(biāo)簽
在唯一性方面
為確保每個(gè)用戶(hù)不被重復(fù)計(jì)入測(cè)試,我們通過(guò)精準(zhǔn)且高效的Hash算法,確保單個(gè)用戶(hù)每次登錄應(yīng)用時(shí)被分到的試驗(yàn)版本是唯一的
在均勻性方面
技術(shù)上運(yùn)用了安全哈希算法SHA 1,經(jīng)過(guò)數(shù)個(gè)月的實(shí)戰(zhàn)檢測(cè),實(shí)際分流效果非常接近目標(biāo)流量分割比例,且用戶(hù)量越大分流結(jié)果越精確。并且,不止于此,Testin A/B測(cè)試依仗精準(zhǔn)的分流效果,允許用戶(hù)隨時(shí)在試驗(yàn)的進(jìn)行過(guò)程中調(diào)節(jié)試驗(yàn)版本之間的流量分配比例,你要2%,那么進(jìn)入測(cè)試的就只有2%的用戶(hù),你要50%,也就只有50%的用戶(hù)接受測(cè)試。
可調(diào)節(jié)的精確分流
很高興你能看到這里嗷!好有耐心的,贊相似、唯一、均勻,在抽樣上要滿足的三點(diǎn)即是Testin能夠在行業(yè)中站穩(wěn)腳跟的關(guān)鍵。尤其是相似性,是測(cè)試中容易被忽視但卻又不容忽視的重中之重。對(duì)于任何一位想要切實(shí)提高產(chǎn)品效益的運(yùn)營(yíng)和PM來(lái)說(shuō),使用的A/B測(cè)試工具是否具有精確分割用戶(hù)群的能力都是能否做好A/B測(cè)試的一個(gè)致命的關(guān)鍵點(diǎn)。
作者:一顆糯米C,公眾號(hào):云測(cè)數(shù)據(jù)(testindata),數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)的堅(jiān)定實(shí)行者
本文由 @一顆糯米C 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Pexels,基于 CC0 協(xié)議
更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
大家好,給大家介紹一下,這是在A/B測(cè)試起到奠基作用的依據(jù)@抽樣。
最近在微信公眾號(hào)的后臺(tái)陸陸續(xù)續(xù)收到了不少熱心小姐姐小哥哥的問(wèn)題,有關(guān)心我們流量層具體運(yùn)作原理這樣比較高端領(lǐng)域的,也有關(guān)心A/B測(cè)試基本能力是否真如傳說(shuō)中那樣強(qiáng)大的。
有位小姐姐問(wèn)到了抽樣這個(gè)詞,引起了我的深思思想者狀沉思ing,仔細(xì)想了想,目前已有的資料里面,對(duì)于A/B測(cè)試最最基本的組成部分:抽樣,好像鮮有提到。不僅如此,大量的新手教程啦入門(mén)指導(dǎo)啦各個(gè)案例什么的,都是在從更高的角度解讀A/B測(cè)試,沒(méi)什么資料從根源講解A/B測(cè)試一個(gè)致命的關(guān)鍵點(diǎn)……
1. 從根源出發(fā):深挖抽樣
在統(tǒng)計(jì)學(xué)中,平均數(shù)是反映數(shù)據(jù)集中趨勢(shì)的一項(xiàng)指標(biāo),一般通過(guò)將一組數(shù)據(jù)集中所有數(shù)據(jù)之和除以這組數(shù)據(jù)集的數(shù)據(jù)個(gè)數(shù)得到。在A/B測(cè)試中,我們無(wú)法知道所有用戶(hù)的行為(如點(diǎn)擊率)的真正均值——如果每次做活動(dòng)、每次做版本迭代的時(shí)候,都將測(cè)試面向所有用戶(hù)的話,且不說(shuō)動(dòng)用的人力物力,一旦其中有什么版本效果不好,比如大幅度降低了點(diǎn)擊之類(lèi),帶給企業(yè)的影響將是災(zāi)難性的。舉個(gè)栗子,一個(gè)APP如果有一萬(wàn)名用戶(hù),假設(shè)五千人測(cè)試版本A,五千人測(cè)試版本B,這樣固然可以知道AB之間孰優(yōu)孰劣,但是如果A的效果極差(比如引起用戶(hù)刪除應(yīng)用),那么使用A版本的五千人豈不是……簡(jiǎn)直是災(zāi)難——因此,必須通過(guò)抽樣,抽取一部分具有代表性的用戶(hù)來(lái)測(cè)試不同版本的效果(例如均值),從而基于抽樣數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。一般來(lái)說(shuō),我們抽樣的樣本數(shù)越多,方差也會(huì)逐漸變小,從而使抽樣樣本的均值和真正均值之間的誤差降低。
這事兒說(shuō)起來(lái)簡(jiǎn)單,但是有個(gè)很致命的要求:要保證所抽取的樣品單位對(duì)全部樣品具有充分的代表性。不然可不能確保數(shù)據(jù)分析的結(jié)果是否準(zhǔn)確。這就需要從這三大方面來(lái)保證:
相似性
很重要也最復(fù)雜的一點(diǎn)。相似,指的是用戶(hù)群體各個(gè)維度的群體特征相似。用戶(hù)使用的機(jī)型是手機(jī)還是平板、系統(tǒng)的版本是iOS幾還是安卓幾點(diǎn)幾,目前的應(yīng)用版本是幾點(diǎn)幾甚至使用的語(yǔ)言是中文還是英語(yǔ)法語(yǔ)日語(yǔ)之類(lèi)的外語(yǔ)之類(lèi),都是區(qū)分不同用戶(hù)群體的指標(biāo)。舉個(gè)栗子,某APP針對(duì)手機(jī)用戶(hù)有一項(xiàng)活動(dòng),那么在測(cè)試的時(shí)候如果放任平板用戶(hù)參與,就失去了活動(dòng)的意義不是嗎。相似性,正是為了確保被抽取的部分用戶(hù)足以代表整個(gè)用戶(hù)群而提出的。但這并不簡(jiǎn)單,實(shí)際上,分割各個(gè)用戶(hù)群的標(biāo)準(zhǔn)是什么?是客戶(hù)的需求。因?yàn)橹挥邪凑湛蛻?hù)要求進(jìn)行區(qū)分的用戶(hù)群才有價(jià)值,如何讓客戶(hù)隨心所欲區(qū)分用戶(hù)群,才是相似性復(fù)雜的地方。
唯一性
最重要的一點(diǎn),每個(gè)用戶(hù)分配到的試驗(yàn)版本得是唯一的。舉個(gè)栗子,為了推廣某項(xiàng)服務(wù),某APP推出了兩個(gè)版本A和B,分別用不同的界面來(lái)推銷(xiāo)這款服務(wù)。陸仁甲在測(cè)試期間登錄APP,看到了版本A,覺(jué)得A給出的這個(gè)界面非常不錯(cuò),于是充值打算購(gòu)買(mǎi)這個(gè)服務(wù),但因?yàn)橛袆e的事情于是只好先關(guān)閉了應(yīng)用。過(guò)了一段時(shí)間,他又登錄了,但是卻看到了版本B。“我去這什么界面設(shè)計(jì),太難看了”對(duì)于版本B感到反感的他,為了購(gòu)買(mǎi)在A中看到的服務(wù),只好被迫在B里面點(diǎn)擊了購(gòu)買(mǎi)按鈕……且不說(shuō)由于版本來(lái)回變換帶來(lái)的不良用戶(hù)體驗(yàn),更別提這種類(lèi)似于刷數(shù)據(jù)一樣bug,光是同一用戶(hù)的重復(fù)測(cè)試就已經(jīng)導(dǎo)致測(cè)試結(jié)果不可信了不是嗎,陸仁甲是被迫在版本B中提高了點(diǎn)擊,這將計(jì)入B的點(diǎn)擊轉(zhuǎn)化,但是實(shí)際上他喜歡的是A啊(A:是我,是我先,明明都是我先來(lái)的)。如果因此判斷B比A好而發(fā)布版本B……那畫(huà)面太美我不敢看
均勻性
既然是抽樣實(shí)驗(yàn),那么抽取的樣本量就必須一致,這樣才有對(duì)比性。這就跟初中高中物理里面用的控制變量法似的,保證單一變量(版本AB)有變化,而其他變量要保持一致。實(shí)現(xiàn)這一點(diǎn)的重要倚靠是分配流量是否真如所愿一般分配。就比如,一個(gè)有十萬(wàn)用戶(hù)群的APP,能不能做到給AB各分配2%的流量時(shí),進(jìn)入這兩個(gè)版本的用戶(hù)真的都是是在2000人附近。
2 回到根源,如何滿足三大性質(zhì)
滿足了這三個(gè)點(diǎn),才敢說(shuō)A/B測(cè)試真正有價(jià)值。Testin A/B測(cè)試從創(chuàng)始之初就致力于讓抽樣經(jīng)得住考驗(yàn),在這三方面不敢說(shuō)歷經(jīng)考驗(yàn),但起碼是經(jīng)得起考驗(yàn),受到諸多用戶(hù)的一致好評(píng)。讓我們從三個(gè)方面一個(gè)個(gè)來(lái)看Testin是怎么做的:
在相似性方面
首先基于SDK自動(dòng)采集來(lái)使用聚類(lèi)分析分割用戶(hù)群,確保各個(gè)維度的群體特征相似,例如不同用戶(hù)群的機(jī)型比例、語(yǔ)言比例等都會(huì)相似,以免干擾試驗(yàn)結(jié)果可信度。而在“讓客戶(hù)隨心所欲區(qū)分用戶(hù)群”這一點(diǎn)上,則在兼顧靈活性的基礎(chǔ)上做到了精確定向。通過(guò)允許客戶(hù)添加各類(lèi)用戶(hù)標(biāo)簽,Testin A/B測(cè)試可以依此實(shí)現(xiàn)精準(zhǔn)定向分流,客戶(hù)只要設(shè)置相應(yīng)的用戶(hù)標(biāo)簽(例如性別、年齡等,需要上傳),就可以在分配流量(分流)的時(shí)候自動(dòng)完成用戶(hù)群分割,簡(jiǎn)單高效。
用于分割用戶(hù)群的用戶(hù)標(biāo)簽
在唯一性方面
為確保每個(gè)用戶(hù)不被重復(fù)計(jì)入測(cè)試,我們通過(guò)精準(zhǔn)且高效的Hash算法,確保單個(gè)用戶(hù)每次登錄應(yīng)用時(shí)被分到的試驗(yàn)版本是唯一的
在均勻性方面
技術(shù)上運(yùn)用了安全哈希算法SHA 1,經(jīng)過(guò)數(shù)個(gè)月的實(shí)戰(zhàn)檢測(cè),實(shí)際分流效果非常接近目標(biāo)流量分割比例,且用戶(hù)量越大分流結(jié)果越精確。并且,不止于此,Testin A/B測(cè)試依仗精準(zhǔn)的分流效果,允許用戶(hù)隨時(shí)在試驗(yàn)的進(jìn)行過(guò)程中調(diào)節(jié)試驗(yàn)版本之間的流量分配比例,你要2%,那么進(jìn)入測(cè)試的就只有2%的用戶(hù),你要50%,也就只有50%的用戶(hù)接受測(cè)試。
可調(diào)節(jié)的精確分流
很高興你能看到這里嗷!好有耐心的,贊相似、唯一、均勻,在抽樣上要滿足的三點(diǎn)即是Testin能夠在行業(yè)中站穩(wěn)腳跟的關(guān)鍵。尤其是相似性,是測(cè)試中容易被忽視但卻又不容忽視的重中之重。對(duì)于任何一位想要切實(shí)提高產(chǎn)品效益的運(yùn)營(yíng)和PM來(lái)說(shuō),使用的A/B測(cè)試工具是否具有精確分割用戶(hù)群的能力都是能否做好A/B測(cè)試的一個(gè)致命的關(guān)鍵點(diǎn)。
作者:一顆糯米C,公眾號(hào):云測(cè)數(shù)據(jù)(testindata),數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)的堅(jiān)定實(shí)行者
本文由 @一顆糯米C 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Pexels,基于 CC0 協(xié)議
贊贊贊贊 寫(xiě)的真好