99国产欧美另类久久久精品 ,99精品久久久久久久婷婷,99热这里只有精品最新地址获取

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

定量研究：需要測試多少用戶？

鄭幾塊Yechiel

2018-06-02

2 評論 6255 瀏覽 17 收藏

10 分鐘

在收集可用性指標問題時，20 個用戶的測試通常會提供相當可靠的置信區間。

我們可以根據質量指標定義可用性，例如學習時間、使用效率、可記憶性，用戶錯誤和主觀滿意度等。可悲的是，因為這么做費用很高，很少有項目收集以上這些指標：收集這些指標需要測試的用戶數是簡單測試的 4 倍。

由于用戶性能存在巨大的個體差異，因此需要測試許多用戶。當你衡量人時，你總會得到一些非?？焖俚娜撕鸵恍┓浅＞徛娜?。鑒于此，你需要在相當多的觀測值上對這些度量取均值，以平滑度量的可變性。

一、Web 可用性數據的標準偏差

從以前的分析中我們了解到，網站等產品上的用戶表現遵循正態分布。這是值得高興的，因為正態分布在統計上很容易處理。通過這兩個數字——平均值和標準偏差——你就可以繪制表示數據的鐘形曲線（正態分布曲線）。

我分析了 1520 個用戶任務時間度量，它們來自 70 個官網和內聯網相關的任務測試。在這些研究中，標準差為平均值的 52%。例如，如果某個人物的完成平均時間是 10 分鐘，那么該指標的標準偏差為 5.2 分鐘。

二、去除異常值

為了計算標準偏差，我首先刪除了過慢用戶的異常值。這是合理的嗎？在某些方面，不是的：慢用戶是真實存在，并且在評估設計質量時應該加以考慮的。因此，即使我建議從統計分析中刪除異常值，你也不應該忽略它們。對異常值的測試會話進行定性分析，并找出降低性能的“壞運氣”（例如：糟糕的設計）。

然而，對于大多數統計分析，都應該消除異常值。因為它們是隨機發生的，所以在一項研究中可能會有更多的異常值，這些極端值會嚴重影響平均值和其他結論。

計算統計數據的唯一理由是將它們與其他統計數據進行比較。假設任務時間均值為 10 分鐘，但 10 分鐘好還是壞？你無法判斷，因為這個數據是孤零零存在的，沒有和其他數據進行比較。

如果要求用戶訂閱電子郵件，10 分鐘的平均任務時間將會非常糟糕。從許多新聞訂閱流程相關的研究中得知，其他網站的平均任務時間為 1 分鐘，用戶只需要不到 2 分鐘就能滿意。另一方面，10 分鐘就表示用于更復雜任務的可用性非常高，例如申請抵押貸款。

關鍵在于收集可用性度量標準，將它們與其他可用性度量標準比較，例如將你的網站與競爭對手的網站進行比較，或將你新的設計與舊網站進行比較。

當從兩個統計數據中消除異常值后，仍然會有有效的比較。如果留有異常值，兩種情況下的平均任務時間都會顯得高一些。但如果沒有異常值，你更可能得出正確的結論，因為你不太可能高估平均值，而這個平均值恰好有更多的異常值。

三、估算誤差的余量

當將來自正態分布的多個觀測數據進行平均時，平均值的標準偏差（SD）是各個數值的 SD 除以觀測數量的平方根。例如，如果有 10 個觀察值，則平均值的 SD 為原始標準差的 1 / sqrt（10）= 0.316 倍。

我們知道，對于企業官網和內部網的用戶測試，SD 是平均值的 52%。換句話說，如果測試了 10 個用戶，那么平均值的 SD 將是平均值的 16%，因為 0.316 x 0.52 = 0.16。

假設我們正在測試需要 5 分鐘才能完成的任務。那么，平均值的 SD 是 300 秒的 16% = 48 秒。對于正態分布，2/3 的例子與平均值相差 +/- 1 SD。因此，我們的平均水平將在 48 秒之內。

下圖顯示了測試不同用戶數量時的誤差幅度，假設需要 90% 的置信區間（藍色曲線）。這意味著 90% 的可能性在此區間，5% 過低，5% 過高。對于實際的項目，確實不需要做得比這個更精準。

紅色曲線顯示了如果放寬要求到一半的時候會發生什么。（這意味著我們會在 1/4 時間內過低，而在 1/4 時間內過高。）

不同數量用戶與誤差范圍大小

四、確定用戶數量

在圖表中，誤差范圍表示為可用性度量標準平均值的百分比。例如，如果測試 10 個用戶，則誤差范圍則是平均值的 +/27%。這就是說如果平均任務時間是 300 秒（5 分鐘），那么誤差范圍是 +/-81 秒。因此，置信區間就從 219 秒變為 381 秒：90％的可能性在此區間內; 5% 的低于 219，5% 的高于 381。

這是一個相當寬松的置信區間，同時，這也是為什么我建議在收集量化可用性指標時用 20 個用戶進行測試的原因。對于 20 個用戶，可能會有1個異常值（因為 6% 的用戶是異常值），將平均覆蓋 19 個用戶數據。這使得置信區間從 243 變為 357 秒，因為測試 19 位用戶的誤差范圍是 +/-19%。

你可能覺得這仍然是一個很寬松的置信區間，但事實上，要進一步收緊這個置信區間需要付出高昂的代價。要獲得 +/-10% 的誤差范圍，需要 71 個用戶數據，也就是說你必須測試 76 人來考慮 5 個可能的異常值。

從實際項目來看，測試 76 個用戶是完全沒必要的。每個設計測試 20 個用戶，就可以獲得 4 種不同設計的足夠好的數據，而不僅是為了更好的指標，將預算用戶單個設計測試。

實際上，對于大多數情況來說，+/-19% 的置信區間就足夠了。主要是，要比較兩種設計，看哪一種更好。畢竟，網站之間的平均差異是 68% ——這遠高于誤差范圍。

另外，請記住 +/-19% 幾乎是最壞的情況；90% 的機會你會做得更好。紅色曲線顯示，如果使用 20 個用戶進行測試并分析 19 個數據，則??其中一半可能性在平均值的 +/-8% 范圍內。換句話說，一半的可能性獲得了較好的精準度，另一半獲得十分高的精準度。這就是非學術項目所需要的。