卡片分類法解析:究竟要測試多少用戶?
在卡片分類測試中,使用過多的測試用戶會使回報率遞減,但測試至少 15 個用戶,效果將是傳統可用性測試的 3 倍之多。
官網和內網設計(注1)中最大的挑戰之一就是信息架構:在哪會發生什么?一個經典的錯誤類型就是根據如何查看內容來構建信息空間——這往往會導致公司各個部門或信息提供商擁有不同的子網站。
可以通過創建反映用戶查看內容的信息架構的方式,來提高可用性測試,而不是簡單地鏡像組織結構。在每項企業內部網絡調研中,我們發現,當企業重組內部網反映員工工作流程時,生產力會高效增長。而在電子商務中,當產品出現在用戶期望找到的類別時,銷售量會增加。
所有這一切都很棒,但如何找出用戶對信息空間的看法,以及他們認為每個項目應該如何進行呢?為了研究這種心智模式,主要的方法是卡片分類法:
- 在索引卡上寫下每個主要項目的名稱(以及簡短描述)。沒錯,就是那種舊式的紙卡片。(注意不要使用讓用戶產生偏向的術語。)
- 隨意打亂卡片后交給用戶。(招募測試者的標準,建議:他們必須是典型用戶,等等)
- 要求用戶將卡片分分類,將同一類的在一起。用戶可以根據自己的喜好進行分類,包括類型的數量、類型的大小,等等。
- 可選的額外步驟包括:要求用戶將已有的分類分成更大的組、給不同的組和類命名。之后可以針對用于導航標簽、鏈接、標題和搜索引擎優化的單詞和同義詞,給出建議。
由于卡片分類不使用技術,這些 1995 年的組卡方式,在當今看來,也并未過時。
一、研究進展
富達投資集團擁有一支非常棒的可用性測試團隊,由人機界面設計高級副總裁 Thomas S. Tullis 博士領導。Tullis 和合著者 Larry Wood 發布過一項研究結果,該研究測量了在卡片分類練習中測試各種用戶數量的權衡曲線。
首先,他們測試了 168 位用戶,有了非??煽康慕Y果。然后,他們通過分析總體樣本的隨機子集,使用較小用戶群對卡片分類研究的結果進行模擬。例如,要模擬 20 個用戶的測試結果,他們從 168 個用戶中隨機抽取了 20 個用戶,并僅分析該小組的卡片分類數據。通過選擇多個類似的樣本,可以估計來自不同數量用戶測試的平均結果。
卡片分類研究中主要的定量數據是一組相似度分數,用于度量用戶對不同物品評分的相似度。如果所有用戶將兩張卡片分成同一組,那么由卡片代表的兩個項目將具有 100% 的相似度。如果有一半的用戶將兩張卡放在一起,一半放在不同的組中,那么這兩個項目的相似度為 50%。
我們可以通過研究的相似性得分與測試大量用戶群所得分數的相關程度來評估較小的卡片分類研究的結果。(提醒:相關性從 -1 到 +1 ,相關性 1 表示完全一致;0 表示無關;-1 表示相互對立。)
二、需要多少用戶?
對于大多數可用性研究來說,我建議測試 5 個用戶,因為這就能夠讓你獲得足夠的數據了,在測試中你能夠了解大部分可用性問題。但是,對于卡片分類,5 位用戶的結果與最終結果之間只有 0.75 的相關性。這個結果還不夠好。
測試 15 個用戶才能達到 0.90 的相關性,這是一個更加合適的范圍。在 15 個用戶之后,不但收益會遞減而相關性的增加也不明顯:測試 30 人相關性達到 0.95 ——這當然更好,但通常不值雙倍的錢。超過 30 名用戶幾乎沒有任何改進:測試 60 人相關性達到 0.98,這么做無疑是一種浪費。
Tullis 和 Wood 建議使用 20-30 個用戶進行卡片分類測試。根據他們的數據,我的建議是測試 15 個用戶。
為什么我建議測試更少的用戶?我認為,大多數情況下,0.90(15 個用戶)或 0.93(20 個用戶)的相關性已經足夠好了。如果你有一個大型的、資金充足的項目(比如一個涉及 10 萬名員工的內部網絡,或者一個收入為 5 億美刀的電子商務網站),我當然希望測試 30 人使相關性達到 0.95。但大多數用戶研究資源非常有限,在 3 個不同的定性可用性測試中,每個測試 5 個用戶——共 15 人進行的測試更為合適。
三、讓用戶盡情表達
我不建議純粹基于以卡片排序的相似性組織的信息架構進行設計。在決定哪里有什么的具體細節時,應該盡可能多地運用在測試階段獲得的定性數據??ㄆ诸惖拇蟛糠謨r值來自聽取用戶的評論,因為是他們對卡片進行分類:你要知道,了解為什么人們將某些卡片放在一起,能夠更深入地了解他們的心理模型,而不是單純地將卡片分類到同一組中。
四、為什么需要更多的用戶進行卡片分類?
我們知道對于大多數可用性研究,5 個用戶已經足夠了,為什么卡片分類卻需要 3 倍的參與者才能達到相同的水平?因為它們在兩個關鍵點上有所不同:
- 用戶測試是一種評估方法:我們已經有了一個設計,我們試圖找出它是否與人性和用戶需求相匹配。雖然人們在能力(領域知識,智能和計算機技能)方面存在很大差異,但如果某個設計因素產生問題,在測試一些用戶之后,就會發現這些問題。低端用戶可能會比高端用戶遇到更嚴重的問題,但除非你正在進行測量研究(這需要更多用戶),否則難度的大小并不是問題所在。你需要知道的是,設計元素如果不適用于人,就應該改變它。
- 卡片分類是一種生成方法:我們還沒有設計,我們的目標是找出人們如何思考某些問題。不同人的心智模式和他們用來描述相同概念的詞匯存在很大的差異。我們必須從一定數量的用戶那里收集數據,才能獲得穩定的用戶偏好畫像,并確定如何適應用戶之間的差異。
如果你有一個現有的官網或內部網,測試一些用戶會告訴你信息架構是否給人們帶來了問題。所以要從頭開始創建新的結構,必須抽取更多人進行測試。
幸運的是,你可以將這兩種方法結合:首先,使用生成性研究為設計確定方向。其次,設計一份草稿,最好使用紙質原型,并進行評估研究以改進設計。因為可用性評估速度快而且便宜,所以你可以做多次;并且還為你最初的創造性發現提供了質量保證。這就是為什么你不應該浪費資源來壓縮卡片分類那最后 0.02 相關性的原因。在隨后的用戶測試中,你會發現任何小的錯誤,這比卡片分類研究的規模增加一倍或三倍都要便宜得多。
五、研究的不足
富達研究有兩個明顯的不足:
- 這只是一項研究。有多家公司的數據會更好。
- 該分析純粹是定量的,側重于相似性的統計分析,忽略用戶評論和其他定性數據。
不過,這兩個不足卻不足以致命。我認為這是一項開拓性的研究,對網絡可用性知識做出了巨大貢獻。但是,由于該研究存在缺點,如果用不同的信息空間復制它,并且同時分析定性數據與定量數據,將會非常有用。聽起來像是一個很好的研究生論文的選題,這個選題研究的是與真實世界影響相關的事物。
盡管數據多會讓人感到欣慰,但我對富達研究的結論充滿信心,因為它們與我多年來從事卡片研究的觀察結果相符。我一直說,有必要為卡片分類測試更多的用戶,而不是傳統的可用性研究。我通常會推薦大約 15 位用戶進行測試,不過在預算緊張或用戶特別難招募(只有 12 位用戶)的時候,也有不錯的結果。
有好多中方法,在定量研究過程中,會誤導你。因此,如果你看到一個單獨的定量研究與定性研究中已知的所有結論相矛盾,一個謹慎的做法是忽視新研究并假定它很可能是假。但是當一項定量研究證實了已知的信息時,它很可能是對的,并且可以使用新的數據作為合理的預測值,即便這基于你現有的可憐的數據。
因此,當前的建議是在大部分卡片分類中測試 15 位用戶,在有資金支持的大型項目中測試 30 位用戶。
參考:
- Tullis, Tom, and Wood, Larry. (2004) How Many Users Are Enough for a Card-Sorting Study?, Usability
- Professionals Association (UPA) 2004 Conference, Minneapolis, MN, June 7–11, 2004.
注釋:我希望擴大網站的思考范圍到產品和服務層面
相關閱讀
Guerrilla 可用性測試:7 步 DIY 屬于你的可用性測試方法
有了這 10 個技巧,做好 Guerrilla 可用性測試不用愁
原文地址:https://www.nngroup.com/articles/card-sorting-how-many-users-to-test/
#專欄作家#
鄭幾塊,人人都是產品經理專欄作家,前新浪微博產品經理。
本文系作者@鄭幾塊 獨家翻譯授權,未經本站許可,不得轉載
題圖來自 Pixabay,基于 CC0 協議
- 目前還沒評論,等你發揮!