定量研究:需要測試多少用戶?
在收集可用性指標問題時,20 個用戶的測試通常會提供相當可靠的置信區間。
我們可以根據質量指標定義可用性,例如學習時間、使用效率、可記憶性,用戶錯誤和主觀滿意度等。可悲的是,因為這么做費用很高,很少有項目收集以上這些指標:收集這些指標需要測試的用戶數是簡單測試的 4 倍。
由于用戶性能存在巨大的個體差異,因此需要測試許多用戶。當你衡量人時,你總會得到一些非??焖俚娜撕鸵恍┓浅>徛娜?。鑒于此,你需要在相當多的觀測值上對這些度量取均值,以平滑度量的可變性。
一、Web 可用性數據的標準偏差
從以前的分析中我們了解到,網站等產品上的用戶表現遵循正態分布。這是值得高興的,因為正態分布在統計上很容易處理。通過這兩個數字——平均值和標準偏差——你就可以繪制表示數據的鐘形曲線(正態分布曲線)。
我分析了 1520 個用戶任務時間度量,它們來自 70 個官網和內聯網相關的任務測試。在這些研究中,標準差為平均值的 52%。例如,如果某個人物的完成平均時間是 10 分鐘,那么該指標的標準偏差為 5.2 分鐘。
二、去除異常值
為了計算標準偏差,我首先刪除了過慢用戶的異常值。這是合理的嗎?在某些方面,不是的:慢用戶是真實存在,并且在評估設計質量時應該加以考慮的。因此,即使我建議從統計分析中刪除異常值,你也不應該忽略它們。對異常值的測試會話進行定性分析,并找出降低性能的“壞運氣”(例如:糟糕的設計)。
然而,對于大多數統計分析,都應該消除異常值。因為它們是隨機發生的,所以在一項研究中可能會有更多的異常值,這些極端值會嚴重影響平均值和其他結論。
計算統計數據的唯一理由是將它們與其他統計數據進行比較。假設任務時間均值為 10 分鐘,但 10 分鐘好還是壞?你無法判斷,因為這個數據是孤零零存在的,沒有和其他數據進行比較。
如果要求用戶訂閱電子郵件,10 分鐘的平均任務時間將會非常糟糕。從許多新聞訂閱流程相關的研究中得知,其他網站的平均任務時間為 1 分鐘,用戶只需要不到 2 分鐘就能滿意。另一方面,10 分鐘就表示用于更復雜任務的可用性非常高,例如申請抵押貸款。
關鍵在于收集可用性度量標準,將它們與其他可用性度量標準比較,例如將你的網站與競爭對手的網站進行比較,或將你新的設計與舊網站進行比較。
當從兩個統計數據中消除異常值后,仍然會有有效的比較。如果留有異常值,兩種情況下的平均任務時間都會顯得高一些。但如果沒有異常值,你更可能得出正確的結論,因為你不太可能高估平均值,而這個平均值恰好有更多的異常值。
三、估算誤差的余量
當將來自正態分布的多個觀測數據進行平均時,平均值的標準偏差(SD)是各個數值的 SD 除以觀測數量的平方根。例如,如果有 10 個觀察值,則平均值的 SD 為原始標準差的 1 / sqrt(10)= 0.316 倍。
我們知道,對于企業官網和內部網的用戶測試,SD 是平均值的 52%。換句話說,如果測試了 10 個用戶,那么平均值的 SD 將是平均值的 16%,因為 0.316 x 0.52 = 0.16。
假設我們正在測試需要 5 分鐘才能完成的任務。那么,平均值的 SD 是 300 秒的 16% = 48 秒。對于正態分布,2/3 的例子與平均值相差 +/- 1 SD。因此,我們的平均水平將在 48 秒之內。
下圖顯示了測試不同用戶數量時的誤差幅度,假設需要 90% 的置信區間(藍色曲線)。這意味著 90% 的可能性在此區間,5% 過低,5% 過高。對于實際的項目,確實不需要做得比這個更精準。
紅色曲線顯示了如果放寬要求到一半的時候會發生什么。(這意味著我們會在 1/4 時間內過低,而在 1/4 時間內過高。)
不同數量用戶與誤差范圍大小
四、確定用戶數量
在圖表中,誤差范圍表示為可用性度量標準平均值的百分比。例如,如果測試 10 個用戶,則誤差范圍則是平均值的 +/27%。這就是說如果平均任務時間是 300 秒(5 分鐘),那么誤差范圍是 +/-81 秒。因此,置信區間就從 219 秒變為 381 秒:90%的可能性在此區間內; 5% 的低于 219,5% 的高于 381。
這是一個相當寬松的置信區間,同時,這也是為什么我建議在收集量化可用性指標時用 20 個用戶進行測試的原因。對于 20 個用戶,可能會有1個異常值(因為 6% 的用戶是異常值),將平均覆蓋 19 個用戶數據。這使得置信區間從 243 變為 357 秒,因為測試 19 位用戶的誤差范圍是 +/-19%。
你可能覺得這仍然是一個很寬松的置信區間,但事實上,要進一步收緊這個置信區間需要付出高昂的代價。要獲得 +/-10% 的誤差范圍,需要 71 個用戶數據,也就是說你必須測試 76 人來考慮 5 個可能的異常值。
從實際項目來看,測試 76 個用戶是完全沒必要的。每個設計測試 20 個用戶,就可以獲得 4 種不同設計的足夠好的數據,而不僅是為了更好的指標,將預算用戶單個設計測試。
實際上,對于大多數情況來說,+/-19% 的置信區間就足夠了。主要是,要比較兩種設計,看哪一種更好。畢竟,網站之間的平均差異是 68% ——這遠高于誤差范圍。
另外,請記住 +/-19% 幾乎是最壞的情況;90% 的機會你會做得更好。紅色曲線顯示,如果使用 20 個用戶進行測試并分析 19 個數據,則??其中一半可能性在平均值的 +/-8% 范圍內。換句話說,一半的可能性獲得了較好的精準度,另一半獲得十分高的精準度。這就是非學術項目所需要的。
五、定量與定性
基于以上分析,我建議在做 20 個用戶的定量研究測試。這非常貴,因為很難找到符合目標用戶群的測試用戶。
幸運的是,你不必衡量可用性從而改進它。通常,只需少量用戶就可以進行測試,并根據對其行為的定性分析所發現的問題來修改設計。當你看到有幾個人被同樣的問題所困擾時,你并不需要了解用戶被影響到了什么程度。如果它正在(或者已經)傷害了用戶,那就有必要調整或者改進的必要。
通常可以對 5 個用戶進行定性研究,不過定量研究的費用大致為定性的 4 倍。此外,定量研究很容易出錯并產生誤導性數據。當你收集數據而不是見解時,一切都必須十分精確,否則就做不好定量研究。
由于價格昂貴且難以正確運用,通常會特別謹慎的使用定量研究。我十分建議,你做的前幾個可用性研究最好是定性的。只有經常做可用性研究,并且將研究結果與實際結合運用并取得實質性的進展后,才能開始在研究中使用一些定量研究。
#專欄作家#
鄭幾塊,人人都是產品經理專欄作家,前新浪微博產品經理。
本文系作者@鄭幾塊 獨家翻譯授權,未經本站許可,不得轉載
題圖來自 Pexels,基于 CC0 協議
挺復雜的 ?