亚洲欧美日韩成人一区在线,狠狠综合久久久久综合网 ,亚洲视频一区二区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

讓數據站住腳-淺談用戶研究中的信度與效度

騰訊CDC

2012-05-17

0 評論 6544 瀏覽 4 收藏

19 分鐘

在用戶研究工作中，如何讓自己的數據和結論更有說服力，是很重要的問題。最近將自己積累的用研信度和效度的筆記整理一下，羅列在文中，希望對大家有所幫助。

一、調查的質量取決于調查的信度和效度。

信度主要指測量結果的一致性、穩定性。也就是說結論和數據是否反映了用戶最真實穩定的想法。用戶在回答問題的時候，往往會受到環境、時間、當時當地的情緒影響，而作出并不真實的想法，即會有隨機誤差。

信度就是衡量這種隨機誤差對用戶想法的影響大小。

效度是指多大程度上測量了你想要測量的東西。

對某個產品用研，我們現在用得最多是用戶訪談、問卷調查和可用性測試。而在這幾個過程中都會涉及信度和效度的問題。

二、用戶訪談中的效度和信度

1. 訪談不能僅僅局限于用戶

任何一個產品項目都會受到市場環境、公司戰略、技術力量、平臺規范和流行趨勢等各個方面的影響。對某一產品的需求，可能來自用戶、產品、技術、交互以及視覺。不同崗位人員看待產品的角度不一樣，側重點也不一樣，找多個角色有助于把需求找全，不遺漏，所以必須提前了解他們的需求。這樣才能使我們的研究更有針對性、全面性、有用性。有用程度、全面程度是效度的重要組成部分。

2. 巧妙的選擇訪談用戶

通常，前期深度訪談的用戶數量不會太多，所以用戶條件一定要把握適當。反饋的問題才能全面、合理、有用。

比如是做Android平臺上的某一軟件。

首先Android新手用戶和熟練用戶都是必須的，熟練用戶更能反映android用戶習慣性操作方式、平臺特點、以及長期使用過程中積累的意見和建議；而新手用戶可以更好的反映該平臺哪些地方存在學習困難，從而通過我們的設計幫助用戶去降低學習成本。

其次非Android平臺用戶也是必須的，可以從側面了解他們不用Android的原因。從而幫助產品挖掘更多潛在用戶提供方向。

人口學信息（學歷、職業、性別、年齡）要覆蓋全面。不同屬性的用戶看重地方會存在差異。需求也會不一樣。

包含競品用戶。通過了解用戶對競品的評價，可以提煉出競品的優劣勢，從而為增強產品競爭力提供方向。

3. 一定要有專家

專家是重要的信息攜帶者。李樂山教授說專家有三類，用戶專家、制造專家、市場銷售專家，他指出判斷某人是否是專家的標準是：（1）能夠熟練使用一種產品；（2）能夠比較同類產品；（3）有關的新知識容易整合到自己的知識結構中；（4）具有10年專業經驗；（5）積累大量經驗并且在使用經驗方面具有絕招；（6）了解有關的歷史（該產品設計史、技術發展史等）；（7）關注產品發展趨勢;（8）知識鏈或者思維鏈比較長，提起任何一個有關話題，他們都能夠談出大量的有關信息；（9）能夠提出改進或創新的建議，他們的創新或改進方案，其高水平體現在采用簡單方法解決復雜問題。

對于互聯網，專家應該指的是用戶專家、開發專家、設計專家以及產品專家；他們憑借豐富的經驗，系統全面的掌握行業同類產品、開發及設計模式、歷史及發展趨勢、專業水平極高。他們可以為我們提供很多我們始料未及的建議。這是保證用研過程，特別是對于后期問卷結構效度有很大的作用。

三、問卷調查與分析中的信度與效度

為了提高工作效率，問卷調查往往采用網絡調查的方法，信度效度問題出現的可能性就更大。

最近看到一些滿意度調查是采用量表加結構方程模型（SEM）的方式。我們看看哪些地方可能會出現信度和效度的問題。

1. 理論模型支持

由于SEM進行的是驗證性因子分析，是檢驗而不是探索新的模型，因此，整個因果關系的假設必須有強有力的理論支持和嚴密的邏輯框架。包括模型中變量關系的假定、指標的選取、甚至測度項的表達方式等。如果最終輸出的模型和理論模型結構不符，那么該模型是沒有任何說服力的。比如用ACSI模型作為滿意度的理論模型時，是否真的按照感知質量、感知價值、顧客期望這幾個層面去設計問卷？

2. 保證份量

普通抽樣調查中原則上是越多越好，但遇到目標用戶較少的情況，只要保證一定的條件就ok的，樣本量受到置信區間、抽樣誤差范圍的影響，可根據實際的況測算出最小樣本量。常用的公式是：

14N=Z2蟽2d2′>（N為樣本量、Z為置信區間、d為抽樣誤差范圍、 14蟽’> 為標準差，常取0.5）

但對于結構方程模型大樣本是必須的，SEM中涉及的變量眾多，變量間的關系很復雜交錯，小樣本量會導致模型不穩定，收斂失敗進而影響模型中參數。朱遠程等^[1]在文獻中指出，當樣本低于100時，幾乎所有的結構方程模型分析都是不穩定的，大于200以上的樣本，才稱得上一個中型樣本。若要得到穩定的結構方程模型結構，低于200的樣本數量是不鼓勵的。有些學者將最低樣本量與模型變量結合在一起，建議樣本數至少應為變量的十倍，這一規則經常被引用。模型中變量越多，對大樣本的要求就越高。

3. 變量需遵循原則

a. SEM模型中各變量的函數關系要是線性的，否則是不能用回歸計算路徑系數的。

b. 在使用最大似然估計法時，變量一定要是多元正態分布的，這就要求指標要呈正態分布，否則就要對指標進行正態處理才行。

c. 變量間的多重共線性程度要低，否則路徑系數會有很大誤差。

d. SEM建立的過程中會不斷的修正才能得到比較完美的模型，比如因子分析時，若發現某一測度項對應的因子載荷過小，就會人為的將該測度項刪除，但是若模型建立之后，一些變量對應了4~5個測度項，一些變量只剩下1~2個測度項，那么我們就需要思考只有兩個測度項的變量是否被完全解釋，這僅有的兩個測度項就全面真實的反映該變量么？如果是這樣，就算KMO、Bartlett、因子載荷都通過了，效度也是難以保證的。所以問卷前期需要反復的預調研，不斷的對問題進行修正，而不是隨意的人為刪除。我學生時代對淘寶滿意度進行調查時，就犯了類似的錯誤，模型中的“互動性”片段，互動性由四個變量衡量，其中“雙向溝通性”一開始設計的時候由5個測度項支持，但是因子分析檢驗通不過，就直接將因子載荷比較小的客服、論壇、淘江湖三者去掉了，最后雖然在數據上通過了信度效度檢驗，但是只有阿里旺旺、留言板這兩個測度項支持是絕對不能解釋“雙向溝通性”的。

4. 數據質量是根源

要使模型結構穩定有效，首先要保證數據質量，反復檢驗問卷的信度。

a. 不同時間的一致性。

在設計問卷時，可以將同樣的問題對同一個人重復測試，如果這兩道題得到的答案是不一致的，相關系數（Pearson r）小于0.7，那么這份問卷的穩定信度就值得考量。

假如問卷樣本足夠大，可以一分為二（每一個樣本也要保證足夠樣本量），分別建立兩個模型；通過對比兩個模型中參數的差異，便可以檢驗該模型的穩定性和適用性。如果兩者差異太大，就說明模型本身是有問題的。

b. 不同形式的一致性

用內容等效但表達方式不同的兩份問卷調查，檢測兩者的等效信度，比如Gamma系數。

c. 內在一致性

問卷中相關的問題為同樣的目標服務，他們在邏輯一致，也就是同質的。首先要測量每個測度項與總體的相關性（item-total correlation），然后再測量同一變量下相關問題間的同質性，而對于不同的提問方式選擇對應的方法：比如,對于李克特量表方法，就用Chronbach系數檢驗；在基礎研究中，信度至少應達到 0.80 才可接受，在探索性研究中，0.70?可接受，0.70－0.98 為高信度,小于0.35 為低信度。對于是非題則采用kuder-Richardson系數檢驗。在進行內在一致性檢驗時，要看題目選項是否反序，如果兩道題都是問“對該產品是否滿意”，一道7代表滿意，1代表不滿意；另一道1代表滿意，7代表不滿意，這樣就會影響信度。遇到這種情況要提前人為調整過來。

5. 看得更遠一點

問卷結論不僅要解決當前的問題和需求，還有具有一定的預測作用，市場是變化的，當前的目標用戶不一定就是未來的（或者下一個版本的）目標用戶，比如目標用戶的收入可能有增加的趨勢，某一平臺的使用率在快速提高，當前的滿意度模型可能在一個月之后就不適用了（比如新功能點的出現）。

假設我們要對QQ影音進行滿意度調查，現在建立了一個滿意度模型，但若下個月QQ影音中多了一個重要的功能，對整個滿意度的提升產生了很大作用，那么，模型中各項的路徑系數會不會產生變化？該模型在下個月可能就不適用了，造成的后果就是當前的滿意度值與下個月的滿意度值沒有可比性了，很多工作也就白費了。所以，諸如滿意度模型這樣的研究，是需要反復調查，長期對該滿意度模型進行監控和修正，以求得到最穩定的模型，就可以讓模型會具有很預測和比對作用啦。

6.關注細節

a. 問卷設計中題項表述不能出現歧義、避免太專業詞匯以及誘導詞匯

b. 選項間要有明確的區分（互斥）

c. 避免遺漏，“其他”選項是必須的，而且最好配有輸入框，記憶中，每次問卷調查中都能從“其他”選項中獲取大量信息。

d. 一般題項不能太多，設置問題選項的時候，盡可能的讓選項隨機顯示，特別是在選項較多的情況下。

e. 數據處理過程中刪除重復項矛盾項之外，最好能統計到用戶填寫問卷的時間差。如果整個填寫的時間極短，完全可以判定用戶沒有認真填寫。

f. 極端的、離群的選項可以考慮將其刪除。

四、可用性測試中的信度與效度

首先保證，主持人的態度親切、測試前隨意聊聊彼此熟悉、測試提綱清晰全面。另外，以下幾點也對保證測試的信度和效度很重要。

1. 不要忽略異想天開

腦暴中要求彼此不能批評，在進行訪談或測試中，也不能對用戶某些操作做出評論，否則用戶很有可能隱藏內心真實的感受。關注并記錄用戶出錯，但是用戶出錯時態度要中立。

通常，用戶在體驗的真實的原型后，會產生很多看似異想天開的訴求，有些雖然在當前不能實現，但是會為未來發展提供很多思路和方向。所以，我們要積極鼓勵用戶進行思維發散。

2. 前后驗證、競品比對

在測試完成后，可以加上一個總體調查問卷，一者讓用戶對自己體驗的各個功能點有一個回顧和比較，同樣也可以驗證用戶體驗過程的態度和最終的態度是否具有一致性。如果存在不一致，應該進一步追問理由，確定用戶的真實想法。

測試時，讓用戶體驗競品，并作出比較，也是發現有效信息的途徑。

3. 敏銳觀察

測試中，除了按照已定的提綱進行問答之外，過程中還要敏銳的觀察用戶一些細微的表情、停留、思考。不但要了解用戶對個功能點如何評價的，還要知道用戶做某一任務過程中，是怎么思考、計劃、實施的，用戶的第一反應、習慣性的操作、思維路線的作用遠遠大于單純的評價。用戶任務完成之后，要追問用戶如此操作的原因。

4. 記錄原話并習慣性確認

測試結論要有用戶的原話支持，不能輕易的改變用戶的表述。和用戶交流過程中，要習慣性的問：“請問你的意思是……?”“我這樣理解你的意思，你看對么……?”以保證測試結論的效度。

5. 必要時進行入戶調查

首先，入戶調查會大大減少外界環境的影響，用戶在自己的空間中，會更真實的反映常見的問題。其次，入戶調查一般是在用戶畫像提取出來之后，按照用戶畫像描述的屬性，有意識有針對性去挑選具有某些典型屬性的對象進行深入、全面、系統調查（典型調查），比如某一產品的目標用戶，他們反映的問題，代表性強，往往有以一當十的功效，避免了非目標用戶信息造成的干擾。

6. 用戶條件與數量

參與測試用戶根據目標用戶特征選擇。

一般衡量測試是否需要繼續進行的方法是：看是否發現新的問題，如果有新的問題，就應該繼續，反之，可以結束。

Neilson研究結果表明，5名用戶的測試可以發現85%的可用性問題。而在我們在以往的可用性測試經驗中，用戶數一般定為6個，基本上能發現全部問題。當然任何數字都只是一個參考，用戶數量最好根據具體的測試情況（衡量時間、資源、投入產出比）而定?？傊?，關鍵在于是否有新的問題出現。

信度效度貫穿整個用戶研究過程，肯定會有很多沒有考慮到的地方，還請各位輕輕拍磚。

參考

1. 朱遠程、馬棟，“談結構方程模型的應用策略”，[企業管理]，2010

2. 李樂山教授2010騰訊演講

3.?http://www.useit.com/

4. 劉金蘭等譯，“美國顧客滿意度指數”[管理學報]，2005