卡方檢驗(yàn)在實(shí)際工作中的應(yīng)用
卡方檢驗(yàn)是以χ2分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法,統(tǒng)計(jì)樣本的實(shí)際觀測值與理論推斷值之間的偏離程度,主要在分類數(shù)據(jù)資料統(tǒng)計(jì)推斷中應(yīng)用。
在電商平臺(tái)中,廣告圖到處可見,引起用戶興趣,為商品或者店鋪帶去流量。表征廣告圖是否“優(yōu)秀”的關(guān)鍵數(shù)據(jù)就是CTR(Click-Through-Rate,點(diǎn)擊通過率)。為了設(shè)計(jì)高CTR圖片,電商運(yùn)營、設(shè)計(jì)同學(xué)們都總結(jié)出了一些經(jīng)驗(yàn),但這些經(jīng)驗(yàn)未形成更精細(xì)化的設(shè)計(jì)原則來回答“特定品類下,什么樣的廣告圖CTR最高”。
借助于京東平臺(tái)沉淀的大量廣告圖數(shù)據(jù),我們希望通過分析歷史廣告圖的數(shù)據(jù)表現(xiàn),得到不同品類下高CTR廣告圖的設(shè)計(jì)特征,也為后期驗(yàn)證提供初步的數(shù)據(jù)假設(shè)。
我們對(duì)廣告圖包含的設(shè)計(jì)元素進(jìn)行了分類打標(biāo),但在缺少廣告圖的CTR具體數(shù)據(jù),僅有高低CTR分組數(shù)據(jù)時(shí),應(yīng)該如何分析呢?
答案是:卡方檢驗(yàn)。
為什么用卡方檢驗(yàn)?
定義是什么?
卡方檢驗(yàn)是以χ2分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法,統(tǒng)計(jì)樣本的實(shí)際觀測值與理論推斷值之間的偏離程度,主要在分類數(shù)據(jù)資料統(tǒng)計(jì)推斷中應(yīng)用,如兩個(gè)或多個(gè)率/構(gòu)成比之間的比較以及分類資料的相關(guān)分析等。
基于這個(gè)定義,我們了解到卡方檢驗(yàn)的適用范圍是“分類數(shù)據(jù)”,即說明事物類別名稱的數(shù)據(jù),比如“性別”是一個(gè)分類變量,其變量值是“男”或“女”,兩者之間無法進(jìn)行運(yùn)算或比較。
此案例為什么合適?
此案例中,廣告圖中不同的設(shè)計(jì)元素,如裝飾元素、設(shè)計(jì)手法、背景色調(diào)等均是分類變量。同時(shí),圖片被分為高低CTR兩組,也屬于分類變量。既然是對(duì)兩個(gè)分類變量(設(shè)計(jì)因素、高低CTR)做相關(guān)分析,卡方檢驗(yàn)很適用于此案例。
卡方檢驗(yàn)怎么做?
思路是什么?
在基本的假設(shè)檢驗(yàn)思路上,卡方檢驗(yàn)與t檢驗(yàn)、F檢驗(yàn)等有著相似的過程:
- 建立無效假設(shè)H0:觀察頻數(shù)與期望頻數(shù)沒有差別(即某一因素設(shè)計(jì)水平下高低點(diǎn)擊率廣告圖頻數(shù)與平均頻數(shù)沒有區(qū)別);
- 在假設(shè)H0成立基礎(chǔ)上,計(jì)算出χ2值來表征觀察值與理論值之間的偏離程度;
- 根據(jù)p值(多設(shè)定為0.05)及自由度,根據(jù)χ2分布查出拒絕H0假設(shè)的臨界值;
- 若計(jì)算得χ2>臨界值,即H0成立的概率<5%,表示在95%置信水平下,觀察值與理論值之間有顯著差異;反之,則說明兩者無差異。
根據(jù)這個(gè)基本思想及過程,可以看出,χ2、自由度(df)、不同自由度下χ2分布是我們進(jìn)行卡方檢驗(yàn)的必要元素。
具體怎么算?
(1)計(jì)算χ2值:
舉個(gè)例子來說明公式的含義:
1)將高低CTR的廣告圖設(shè)計(jì)因素不同水平的數(shù)據(jù)呈現(xiàn)為列聯(lián)表形式。
2)公式中A代表觀察值,E代表理論值,(A-E)代表觀察值及理論值的差異,其中理論值是假設(shè)兩個(gè)因素?zé)o關(guān)的情況下計(jì)算出來的。
e.g. 設(shè)計(jì)因素1水平1×高CTR組的理論值即(a+b)×(a+c)/N
3)求平方和以避免正負(fù)差值間抵消:由于有多個(gè)觀察值,差值可能出現(xiàn)正負(fù)值而互相抵消,故利用平方的計(jì)算來避免。
4)除以理論值以避免理論值大小影響偏差。
(2)確定自由度(df)
自由度指計(jì)算某一統(tǒng)計(jì)量時(shí),取值不受限制的變量個(gè)數(shù)。在列聯(lián)表中,由于行或列總數(shù)一定,因此行或列中受限制條件數(shù)為1,列聯(lián)表總df=(行數(shù)-1)×(列數(shù)-1)。
e.g. 2×2列聯(lián)表中df=1,在3×2列聯(lián)表中df=2
(3)結(jié)合df及p值確定χ2分布中的臨界值,與計(jì)算所得χ2值比較
e.g. df=1,p值為0.05情況下,χ2臨界值為3.84
如果我們計(jì)算所得的χ2值>3.84,意味著H0假設(shè)落入了下圖所示的右側(cè)“小尾巴”似的拒絕域,H0假設(shè)就不成立,即設(shè)計(jì)因素1不同水平下高低點(diǎn)擊率廣告圖頻數(shù)與平均頻數(shù)有區(qū)別,換句話說,設(shè)計(jì)因素1的不同水平與高低點(diǎn)擊率有相關(guān)。
spss怎么操作?
除了手工計(jì)算及查表外,可通過spss來進(jìn)行卡方檢驗(yàn),步驟如下:
(1)導(dǎo)入數(shù)據(jù)
將每張廣告圖的高低CTR分組作為A列,設(shè)計(jì)因素1分組作為B列,導(dǎo)入spss作為原始數(shù)據(jù),如下圖框1所示。(若原始數(shù)據(jù)是上方表格的頻數(shù)數(shù)據(jù),需進(jìn)行頻數(shù)加權(quán)處理)
(2)選擇<分析>-<描述統(tǒng)計(jì)>-<交叉表>
如下圖框2所示:
(3)將變量添加到行列中
在<統(tǒng)計(jì)>對(duì)話框中勾選卡方,在<單元格>對(duì)話框中勾選<z-檢驗(yàn)>下方倆選項(xiàng)以便進(jìn)行多變量間的兩兩比較。
兩兩比較方法之Bonferroni法(邦弗倫尼法,修正最小顯著差法):在每次比較中,將顯著性水平α除以兩兩比較的次數(shù)N,使得顯著性水平縮小到原來的N分之一,降低α錯(cuò)誤的概率,避免在原假設(shè)為真時(shí)拒絕原假設(shè),沒有顯著差異卻認(rèn)為有顯著差異。與常規(guī)的兩兩比較LSD檢驗(yàn)(最小顯著差法,Least Significant Difference)相比,其采用更嚴(yán)格的標(biāo)準(zhǔn),更容易導(dǎo)致兩兩比較時(shí)無顯著差異。
(4)解讀結(jié)果
1)重點(diǎn)關(guān)注第三張卡方檢驗(yàn)表格,指標(biāo)的選擇依照以下條件(定義n為總樣本量,理論頻數(shù)T):
- n≥40,T<5的單元格未超20%,且T均>1(圖中展示符合此條件),采用皮爾遜卡方檢驗(yàn)結(jié)果。e.g. χ2=10.38,p=0.001<0.05,即設(shè)計(jì)因素的不同水平會(huì)影響點(diǎn)擊率情況,結(jié)合描述統(tǒng)計(jì)判定水平2的高點(diǎn)擊率概率高于水平1。
- 若行、列變量較多, n<40,或有T<1,采用似然比卡方檢驗(yàn)。
- 若是2×2的四格表,n≥40,1≤T<5的單元格超20%,采用連續(xù)性修正檢驗(yàn)結(jié)果。
- 若是2×2的四格表,n<40,或有T<1,采用費(fèi)希爾精確檢驗(yàn)結(jié)果。
- 若行、列量變量是等級(jí)變量(可從小到大排列)時(shí),采用線性關(guān)聯(lián)檢驗(yàn)結(jié)果。
2)在確定初步結(jié)果顯著之后,若列聯(lián)表達(dá)到3列及以上,需兩兩比較列變量水平間是否有差異。第二張交叉表表格中有a、b的下標(biāo)提供了比較結(jié)果,不同下標(biāo)的列變量水平之間有顯著差異。
結(jié)論不符合預(yù)期時(shí),卡方檢驗(yàn)結(jié)論如何解讀?
至此完成了卡方檢驗(yàn)的基本操作,但檢驗(yàn)結(jié)果僅代表數(shù)據(jù)的顯著性,該顯著性是否有意義仍需要結(jié)合實(shí)際情況來看。當(dāng)數(shù)據(jù)顯著性出現(xiàn)與假設(shè)、預(yù)期不相符時(shí),多是以下幾種情況。
1. 描述統(tǒng)計(jì)差異較大但卡方檢驗(yàn)不顯著
e.g. 某品類廣告的<商品圖數(shù)量>元素,描述結(jié)論發(fā)現(xiàn)“兩個(gè)”商品圖的圖片高于平均水平(高點(diǎn)擊率圖片整體比例)11%,但卡方檢驗(yàn)卻沒有顯著(χ2=6.79,p=0.08)。
這里就涉及到自由度的概念,由于<商品圖數(shù)量>原始數(shù)據(jù)分類有四個(gè)水平:“無、一個(gè)、兩個(gè)、三個(gè)及以上”,導(dǎo)致自由度增加,卡方分布由陡峭變成緩坡,拒絕域隨之右移,需要更大的卡方值才能拒絕零假設(shè),雖然例子中6.59>3.84(自由度為1的極限卡方值),但仍<7.82(自由度為3時(shí)的極限卡方值),因此判定該設(shè)計(jì)因素不同水平對(duì)高低點(diǎn)擊率沒有顯著影響。
2. 描述統(tǒng)計(jì)差異不大但卡方檢驗(yàn)顯著
同樣是多水平條件的卡方檢驗(yàn),可能導(dǎo)致另一種現(xiàn)象,某一水平下點(diǎn)擊率情況與總體平均水平差異不大,但卡方檢驗(yàn)顯示其與高點(diǎn)擊率相關(guān)。
e.g. 某品類<裝飾元素>共三個(gè)水平“純色、少量、復(fù)雜”,其中“復(fù)雜”水平下高點(diǎn)擊率(32.5%)與整體平均水平(29.7%)差異并不大,但整體卡方檢驗(yàn)顯著,并將“純色”、“復(fù)雜”兩個(gè)水平認(rèn)為與高點(diǎn)擊率相關(guān)。
除“復(fù)雜”水平外其他兩組分布與理論頻數(shù)差異較大,導(dǎo)致整體的卡方分布顯著,而事后進(jìn)行兩兩比較的時(shí)候,“復(fù)雜”水平下頻數(shù)表現(xiàn)與“純色”組更為接近,因此“復(fù)雜”水平被認(rèn)為與高點(diǎn)擊率相關(guān)。
3. 結(jié)論與常規(guī)認(rèn)知不相符
在對(duì)廣告圖進(jìn)行分析時(shí),有一定的常規(guī)認(rèn)知假設(shè),如用戶會(huì)更偏好“有利益點(diǎn)”、“有品牌標(biāo)識(shí)”的圖片,但當(dāng)卡方檢驗(yàn)顯示兩者對(duì)點(diǎn)擊率無影響時(shí),可嘗試從以下維度去排查問題。
(2)是否分類方式出了問題?
e.g.<利益點(diǎn)>原分類方式:有具體數(shù)值或明確贈(zèng)品為“有利益點(diǎn)”,其他為“無利益點(diǎn)”,卡方檢驗(yàn)后此設(shè)計(jì)因素對(duì)點(diǎn)擊率無影響。
考慮到用戶在瀏覽廣告圖時(shí),不一定有具體數(shù)值才是有利益點(diǎn),“全場秒殺”、“直降”的文字也會(huì)吸引用戶點(diǎn)擊,后續(xù)將<利益點(diǎn)>分類方式調(diào)整為{“無”、“直降促銷(文字或數(shù)值)”、“滿減、買免等促銷(文字或數(shù)值)”、“買贈(zèng)或其他”}。卡方檢驗(yàn)發(fā)現(xiàn)中間兩類明確利益點(diǎn)的廣告圖均有較高點(diǎn)擊率。
分類方式作為原始數(shù)據(jù)對(duì)檢驗(yàn)結(jié)論影響巨大,在進(jìn)行設(shè)計(jì)因素分類時(shí)應(yīng)遵循用戶認(rèn)知廣告圖的方式,不局限于單純的視覺展現(xiàn)形式,從內(nèi)容、視覺形式等角度全面考慮。
(3)是否品類有其特殊性?
e.g. <是否有大促標(biāo)識(shí)>這個(gè)因素,在其他品類中,卡方檢驗(yàn)常得到“有大促標(biāo)識(shí)”比“無大促標(biāo)識(shí)”有更多“高點(diǎn)擊率”圖片的結(jié)論,但在手機(jī)品類下卻未有顯著差異。
仔細(xì)觀察后發(fā)現(xiàn),手機(jī)品類廣告圖的單品促銷較為常見,與大促活動(dòng)關(guān)聯(lián)度不高,因此在手機(jī)品類廣告圖展現(xiàn)大促標(biāo)識(shí)對(duì)點(diǎn)擊率影響不大是可以解釋的。
(3)是否采樣方式出了問題?
e.g. <文案行數(shù)>因素在某品類下僅“兩行文案”水平與“高點(diǎn)擊率”相關(guān),難以解釋。
用戶對(duì)廣告圖的利益點(diǎn)感知最強(qiáng)烈,所以選擇了<利益點(diǎn)>因素作為代表,與<文案行數(shù)>進(jìn)行交叉,看兩因素是否相互影響。而后發(fā)現(xiàn),兩行文案廣告圖中更多是低點(diǎn)擊率利益點(diǎn),即不同文案行數(shù)的廣告圖利益點(diǎn)分布不一致,樣本分布有偏。這也提示后期在驗(yàn)證時(shí),利益點(diǎn)、品牌效應(yīng)等作為影響用戶點(diǎn)擊廣告圖的最重要因子,應(yīng)盡量在其他變量間保持一致的分布。
4. 分類數(shù)據(jù)是否有更好的分析方法?
受數(shù)據(jù)類型的限制,不得已采用了卡方檢驗(yàn),僅能進(jìn)行單個(gè)設(shè)計(jì)因素內(nèi)不同水平的對(duì)比,無法進(jìn)行多個(gè)設(shè)計(jì)因素間重要性對(duì)比,也無法考慮不同設(shè)計(jì)因素間的交叉影響,綜合確定CTR更高的設(shè)計(jì)組合。
那么分類數(shù)據(jù)有沒有更深入的分析方法呢?曾經(jīng)同事采用了聯(lián)合分析方法,對(duì)廣告圖元素設(shè)計(jì)進(jìn)行了數(shù)據(jù)探索。簡要來說,聯(lián)合分析可以把用戶在購買決策中一系列的產(chǎn)品特征/價(jià)格考慮在內(nèi),綜合評(píng)估后確定用戶偏好的因素組合。
本文案例為什么不適用呢?
因?yàn)槁?lián)合分析對(duì)數(shù)據(jù)樣本的元素組合分布有一定要求,必須符合“均勻分散”、“整齊可比”的正交分布特征。本文案例中的卡方檢驗(yàn)更多是初步探索,在后續(xù)投放廣告圖進(jìn)行A/B Test時(shí)可采用正交設(shè)計(jì)來確定不同設(shè)計(jì)因素組合,回收數(shù)據(jù)后采用聯(lián)合分析明確最優(yōu)廣告圖形式。
作者: 韓泱泱,京東設(shè)計(jì)中心JDC
來源:https://mp.weixin.qq.com/s/rf1ME045WoyEyQrTFp5coQ
本文由 @京東設(shè)計(jì)中心JDC 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
不同下標(biāo)的列變量水平之間有顯著差異。“
—————
這個(gè)結(jié)論是怎么從截圖中得到的呢