問卷數(shù)據(jù),該如何著手分析呢?
工作中用到的調(diào)研問卷,探索的內(nèi)容相對具體,涉及的變量也比較少,一般不會用到太復(fù)雜的分析方法,Excel+SPSS即可搞定,本文整理了幾類常見的問卷分析思路。
拿到一份問卷數(shù)據(jù),該如何著手分析呢?且慢,要做分析得先檢查數(shù)據(jù)是不是完整、可信,所以先從數(shù)據(jù)清洗開聊。
一、數(shù)據(jù)清洗
(1)一份數(shù)據(jù)可能經(jīng)歷過編碼、合并、拆分等,先檢查數(shù)據(jù)是否完整,是否有異常值?
選擇題、排序題這類封閉題型的答案是有限制范圍的,針對這類題型,在spss內(nèi)使用頻率統(tǒng)計(jì)功能,查看每個題目的總量,缺失值,是否有異常值。比如:性別只有1、2兩個選項(xiàng),出現(xiàn)其他選項(xiàng)則說明有問題。有個小技巧,在Excel中可以使用篩選功能,快速查看每個題目的結(jié)果是否有異常值。
(2)有些用戶可能會不認(rèn)真填答,因此需要檢查邏輯合理性,是否有前后矛盾的情況?
有些問卷,前后題目有邏輯關(guān)系,可以用這類題目做測謊題,篩選出前后矛盾的答案,比如前邊用戶選擇了主要的出行方式是“自己開車”,后邊卻選擇自己的年齡“小于18歲”,那么這類問卷可以視為不認(rèn)真填答的,刪除。
如果沒有合適的題目做測謊題,也可以在編制問卷的時(shí)候設(shè)置測謊題,兩種設(shè)計(jì)思路:
- 同一個題目前后問兩遍,檢查答案是否一致,如:請從下列選項(xiàng)中選出你最常用的地圖APP。注意避免使用有兩個答案的問題,比如問用戶愛車的品牌就不合適,因?yàn)橛脩羟昂筇畲鸩灰恢?,不一定都是不認(rèn)真填答,也可能是因?yàn)橛脩舯旧碛袃奢v車。
- 設(shè)置一個有明顯錯誤答案的問題,檢查是否選擇了錯誤的答案,如:你最常用的地圖APP是哪個:混淆選項(xiàng)可以用 :京東。不過我們只是想檢驗(yàn)用戶的認(rèn)真程度,而非考驗(yàn)用戶的記憶力,所以測謊題要簡單明確,只要認(rèn)真看題就不會錯。比如問用戶最常用的地圖APP是哪個,混淆選項(xiàng)用“微信”就不合適,因?yàn)橛脩舨徽J(rèn)真想的話,很容易把微信自帶的地圖當(dāng)成地圖APP。
如果技術(shù)支持,也可以通過后臺數(shù)據(jù)和用戶問卷中的數(shù)據(jù)做匹配,常用的是性別、年齡、常居地之類的數(shù)據(jù),也可以問一些明確的行為數(shù)據(jù),比如是否用地圖買過火車票。
需要注意的是:選擇穩(wěn)定的明確的數(shù)據(jù)來做校驗(yàn)題目,不要使用需要回憶的數(shù)據(jù)來校驗(yàn),用戶的記憶是模糊的有誤差的,使用頻率、使用年限,這些都不適合做校驗(yàn),因?yàn)橛脩舻挠洃浐芸赡芘c實(shí)際行為不完全相符。
二、樣本加權(quán)
問卷調(diào)研絕大部分是抽樣調(diào)研,如果想通過樣本的情況去推測整體的情況,除了要考慮最小樣本量之外,還需要考慮樣本的代表性。群體有很多屬性,并不是要求樣本的每個屬性都和整體一致,而是關(guān)注那些對研究問題最有影響的屬性,在該屬性上樣本和整體盡量保持一致。
假設(shè):年齡對用戶忠誠度的影響非常大,對出行方式?jīng)]有影響,那么在研究忠誠度時(shí)就需要考慮到年齡因素,而在研究出行方式時(shí),就無需考慮年齡因素了。
一種是事前控制,區(qū)分出不同年齡段的用戶,分桶按比例發(fā)放,該方法成本高很少用。
另一種是事后控制——加權(quán) 。比如問卷收集到的用戶,與整體用戶群分布不一致,但是我們想知道整體用戶的忠誠度,此時(shí)可以通過加權(quán)的方式去調(diào)整。
具體方法如下:
先根據(jù)整體和樣本的年齡分布,計(jì)算出權(quán)重值,然后再使用spss的權(quán)重功能,給數(shù)據(jù)加權(quán)。加權(quán)后再統(tǒng)計(jì)忠誠度。
值得注意的是,不要為了省事兒,直接計(jì)算出樣本各年齡段的值,然后給個年齡段的值賦個權(quán)重,求均值。這樣的結(jié)果是不對的,必須要使用spss的加權(quán)功能。
如果有多個因素,挑選最重要的一個因素加權(quán)。如果非要考慮多個因素,那么需要了解多個因素交叉后的整體分布。比如既要考慮性別、又要考慮年齡,那么需要將性別和年齡交叉,知道整體男性的年齡分布、女性的年齡分布,再計(jì)算權(quán)重,成本太高了。
三、分析思路
我們先假設(shè)一份調(diào)研問卷,帶著這份問卷來看分析思路。
假設(shè)要針對大學(xué)生群體使用地圖APP的情況做個調(diào)研,設(shè)計(jì)了以下問卷,通過這個問卷我們能做哪些分析呢?
3.1 描述統(tǒng)計(jì),看整體分布情況
統(tǒng)計(jì)各選項(xiàng)的數(shù)量、頻率是最常用到的分析,然后通過圖表展現(xiàn)出來,可以非常直觀的看出整體分布情況。
通過這個問卷,我們可以得到:
- 在大學(xué)生群體中,各手機(jī)地圖的市場占有率,如果有整體的地圖市場占有率數(shù)據(jù),還可以比較得到,在學(xué)生群體中哪個地圖更有優(yōu)勢。
- 大學(xué)生群體,用戶常用的功能排序,以及各功能的占比。該題是多選題,可以使用spss的“定義多重響應(yīng)集”的功能。此外在計(jì)算占比的時(shí)候需要想明白,是以整體人數(shù)作為分母,還是以整體選擇量作為分母,分母不同解釋也不同,需要標(biāo)明。本題以整體人數(shù)作為分母,占比的意義是:大學(xué)生群體中,多少人使用**功能。
3.2 差異分析,找影響因素
除了看整體分布情況,我們還可以通過差異分析,探索更多的信息。
做差異分析,第一步先找到兩個可能有關(guān)系的因素;第二步將兩個因素交叉統(tǒng)計(jì)結(jié)果,根據(jù)結(jié)果在這兩個因素間做假設(shè);第三步根據(jù)這兩個因素的數(shù)據(jù)類型,選擇合適的統(tǒng)計(jì)方法,驗(yàn)證假設(shè)。
通過這個問卷,我們可以分析:
(1)男性和女性對手機(jī)地圖的選擇有差異么
先分別計(jì)算不同品牌的用戶性別占比,結(jié)果發(fā)現(xiàn)不同品牌的男性占比不同,性別和手機(jī)品牌都是分類變量,因此使用卡方檢驗(yàn)。
(2)男性和女性,對手機(jī)地圖的忠誠度有差異么?
先統(tǒng)計(jì)不同性別用戶的NPS值,NPS值是等距數(shù)據(jù)(NPS這個題目,本質(zhì)上是李克特量表,對該數(shù)據(jù)是否是等距數(shù)據(jù)尚有爭議,但大部分情況按照等距數(shù)據(jù)處理),我們想要看男性、女性兩組之間的差異,采用T檢驗(yàn)。
(3)不同品牌的手機(jī)地圖,用戶的忠誠度有差異么?
與性別變量不同的是,手機(jī)品牌有4個維度,T檢驗(yàn)只能做兩組之間的差異檢驗(yàn),多于兩組的時(shí)候采用方差分析。
(4)是否由于男性用戶多導(dǎo)致騰訊地圖的忠誠度低呢?
比如男性的忠誠度更低,而不同品牌之間男性的占比又不同,騰訊的男性用戶較多,就會假設(shè):是否由于男性用戶多導(dǎo)致騰訊地圖的忠誠度低呢。
當(dāng)有兩個因素的時(shí)候,可以采取協(xié)方差分析,在做方差分析的時(shí)候,將性別作為協(xié)變量納入,分別看男性組,不同地圖品牌間有差異否,女性組不同地圖品牌間有差異否。
總結(jié)一下,做差異檢驗(yàn)的統(tǒng)計(jì)方法常用的有三種:卡方檢驗(yàn)、T檢驗(yàn)、方差分析。但是,統(tǒng)計(jì)只是輔助判斷的一種工具,也有些情況,直接看交叉后的結(jié)果就能發(fā)現(xiàn)差異巨大,無需統(tǒng)計(jì)檢驗(yàn)肉眼都可以判斷,也有些情況下,統(tǒng)計(jì)結(jié)果顯著,但是差異實(shí)在是很微小,也不能做出明確的結(jié)論。
所以統(tǒng)計(jì)方法并不是重點(diǎn),找到可能有關(guān)系的因素才是重點(diǎn),學(xué)術(shù)研究一般會根據(jù)過往的研究提出假設(shè),而實(shí)際工作中,絕大部分靠經(jīng)驗(yàn),多熟悉產(chǎn)品多了解用戶,才會有思路。
之前有人提出要做女性地圖,認(rèn)為女性更看不懂地圖,需要在圖面上有不同的處理。實(shí)際調(diào)研下來,發(fā)現(xiàn)性別既不影響用戶使用地圖的習(xí)慣、也不影響用戶對地圖的感知。相反年齡明顯的影響地圖的使用習(xí)慣,接下來就需要進(jìn)一步挖掘年齡的差異了。
3.3 相關(guān)分析,找影響因素,以及影響程度
(1)通過差異分析,我們了解到性別會影響用戶的忠誠度,我們還想接著探索用戶常用的功能個數(shù)是否會影響忠誠度,是不是用的功能越多,忠誠度越高呢?
此時(shí)需要用到相關(guān)分析,使用功能個數(shù)是等距數(shù)據(jù),使用spss計(jì)算Pearson積差相關(guān)系數(shù)。相關(guān)系數(shù)介于-1~1之間,絕對值越大關(guān)系越密切,符號代表相關(guān)的方向。通常情況下,絕對值大于0.4就可以認(rèn)為這兩個數(shù)據(jù)之間有比較強(qiáng)烈的關(guān)系了。所以絕對值越大,說明這個因素的影響程度越大。
如果想探索使用頻率和忠誠度之間的關(guān)系呢,使用頻率是順序數(shù)據(jù),此時(shí)需要計(jì)算Speaman相關(guān)系數(shù)。相關(guān)是在工作中使用比較多的方法,需要注意的是,相關(guān)分析只能解釋兩個變量之間有無關(guān)系,不能得到因果結(jié)論。因果結(jié)論是我們基于邏輯賦予的,工作中,相關(guān)關(guān)系已經(jīng)足夠我們做判斷了。
(2)如果我們不只是想探索單個因素與忠誠度之間的關(guān)系,還想要探索多個影響因素合并在一起對忠誠度的影響,此時(shí)可以使用多元回歸的方法。
在本調(diào)研中,我們可以探索用戶遇到使用問題的次數(shù)與忠誠度的關(guān)系,用戶遇到的問題有4種,分別是定位問題、地點(diǎn)問題、路線問題、性能問題。以NPS值為因變量,將這四個問題一起作為因變量,求一個多元回歸方程。但是多元回歸方程的建立,對數(shù)據(jù)的要求比較高,實(shí)際調(diào)研中使用的非常少,相關(guān)系數(shù)基本夠用了。
不論是相關(guān)分析還是回歸分析,都只能反映出變量之間的線性相關(guān)關(guān)系,如果變量間是非線性的關(guān)系,是無法體現(xiàn)在相關(guān)系數(shù)上的,因此在做相關(guān)分析之前,可以先做一個散點(diǎn)圖,直接觀察一下,兩個變量間是否有其他的關(guān)系可能。
如果是自己做調(diào)研,不是拿到數(shù)據(jù)了才去想怎么分析,而是在編制問卷的時(shí)候就要想清楚:我要了解什么問題,需要什么數(shù)據(jù)支撐,該用什么方法分析?
文中提到的所有統(tǒng)計(jì)方法,在統(tǒng)計(jì)書中都可以找到細(xì)致的操作步驟。本文只是列了最粗淺的統(tǒng)計(jì)方法,但是往往粗淺的才夠直接,對實(shí)際的決策最有支持力。
參考書目:《量化研究與統(tǒng)計(jì)分析》邱皓政
本文由 @?喬溪 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
言簡意賅,學(xué)到了!
補(bǔ)充一下:如果是分析性別和nps的打分做t檢驗(yàn)的話,那檢驗(yàn)出來即使有差異,也不能說明忠誠度存在差異吧,因?yàn)橹艺\度還要算占比差值。不對的地方請指教哈~
有個疑問想請教一下,男性和女性,對手機(jī)地圖的忠誠度有差異么?,這個在分析是是分析性別和NPS值的t檢驗(yàn)嗎?NPS值是9-10分占比減去0-6分占比,這樣只有一組數(shù)據(jù),能做t檢驗(yàn)嗎?
想了解下數(shù)據(jù)類型除了分類數(shù)據(jù)、順序數(shù)據(jù)、等距數(shù)據(jù)還有哪些?排序是屬于哪種?
太厲害了
有些厲害
受益