可用性研究中要測試多少個(gè)用戶?
答案是 5 個(gè),無一例外。使用更多測試者的論點(diǎn)大多數(shù)時(shí)候是不對的,不過有些卻需要更多。
如果你想要一個(gè)單一的數(shù)字,答案很簡單:在可用性研究中測試 5 個(gè)用戶。在可用性研究中,測試 5 個(gè)人可以讓你發(fā)現(xiàn)絕大部分的可用性問題,這和你測試更多用戶得到的結(jié)果并沒有太大的差異。
從 1989 開始推廣“折扣可用性工程”以來,這個(gè)答案一直是這樣的。無論你測試官網(wǎng)、內(nèi)部網(wǎng)、PC應(yīng)用程序,還是測試移動(dòng)應(yīng)用,都是這樣。測試 5 個(gè)用戶,你幾乎總能得到最大投入產(chǎn)出比。
然而,與人為因素有關(guān)的問題,當(dāng)然也會有例外:
- 定量研究(針對統(tǒng)計(jì)數(shù)字,而不是洞察力):測試至少 20 個(gè)用戶以獲得統(tǒng)計(jì)學(xué)上顯著的數(shù)字;嚴(yán)格的置信區(qū)間需要更多的用戶。
- 卡片分類:每個(gè)測試組至少有 15 個(gè)用戶。
- 目測:如果要獲得穩(wěn)定的數(shù)據(jù),要測試 39 個(gè)用戶才行。
不過,你沒必要擔(dān)心上面那三種情況,因?yàn)槟愕慕^大多數(shù)用戶研究都是定性的,也就是說,旨在收集洞察力驅(qū)動(dòng)產(chǎn)品設(shè)計(jì),而不是在 PPT 上給人留下深刻印象的數(shù)字。
5 人測試的主要爭論點(diǎn)是簡單的投資回報(bào):隨著參與測試用戶的增加(同時(shí)成本也在增加),但到了一定數(shù)量后回報(bào)的增速遞減。在同一個(gè)研究中測試超過 5 個(gè)人沒有什么額外的好處;ROI 像一個(gè)大石頭一樣極具下降。
如果你有足夠的預(yù)算?哎呀!快去把它花在額外的研究上,而不是在每項(xiàng)研究中更多的用戶上。
遺憾的是,大多數(shù)公司堅(jiān)持做更大的測試。在 UX 會議期間,我調(diào)查了 217 名參與者公司的情況,他們每次進(jìn)行測試用戶數(shù)量的均值是 11 ——是推薦數(shù)的兩倍以上。顯然,我需要更好地解釋 5 人可用性測試的好處。
更多測試參與者的參數(shù)
“一個(gè)大網(wǎng)站有數(shù)百萬用戶?!?/p>
即使你在做統(tǒng)計(jì)分析,那也不影響樣本大小。一項(xiàng)民意調(diào)查需要相同數(shù)量的受訪者來找出誰將當(dāng)選匹茲堡市長或法國總統(tǒng)。統(tǒng)計(jì)抽樣中的方差是由樣本大小決定的,而不是抽取樣本的全部人口的大?。傮w)。
在用戶測試中,我們專注于一個(gè)網(wǎng)站的功能,看看哪些設(shè)計(jì)元素好用或難用。設(shè)計(jì)元素的質(zhì)量評價(jià)不依賴于多少人使用它。(相反,關(guān)于是否修復(fù)設(shè)計(jì)缺陷的決定當(dāng)然應(yīng)該考慮多少人使用:可能不值得去努力改善較少用戶使用的功能;較好地應(yīng)該把錢和精力放到數(shù)百萬用戶使用的功能上。)
“一個(gè)大的網(wǎng)站有幾百個(gè)特征。”
這是一個(gè)用于做幾個(gè)不同測試的爭論——每個(gè)測試集中在一個(gè)較小的功能上,而不是在每個(gè)測試中測試更多的用戶。在用戶感到疲倦前,你就該停下測試更多的任務(wù)了。
的確,對于一個(gè)功能較多的產(chǎn)品,你需要更多的用戶進(jìn)行測試,但是需要將這些用戶分散到許多個(gè)測試中,每一個(gè)都集中在一個(gè)較小的功能點(diǎn)上。
“我們有幾個(gè)不同的目標(biāo)受眾?!?/p>
實(shí)際上,這是測試更多用戶的一個(gè)正當(dāng)理由,因?yàn)樾枰總€(gè)目標(biāo)組的典型用戶。然而,實(shí)際上,只有當(dāng)用戶以完全不同的方式(譯者注:用戶群體和目的等的不同)使用產(chǎn)品時(shí),這才成立。我們項(xiàng)目中的一些例子包括:
- 一個(gè)以醫(yī)生和病人為目標(biāo)的醫(yī)療網(wǎng)站
- 一個(gè)以買家和賣家為主的拍賣網(wǎng)站
當(dāng)用戶和任務(wù)不同的時(shí)候,基本上你就可以為每個(gè)目標(biāo)群體做新的測試了。當(dāng)然,你要為每個(gè)組測試 5 個(gè)用戶。通常,你可以為每組測試 3-4 個(gè)用戶,因?yàn)橛脩趔w驗(yàn)會在兩組之間有所重疊。
比如說,一個(gè)以新投資者、有一定經(jīng)驗(yàn)的投資者以及資深投資者為目標(biāo)用戶的金融網(wǎng)站,每組測試 3 人共 9 個(gè)用戶就可以了,而不需要測試 15 個(gè)用戶。
“這個(gè)產(chǎn)品(網(wǎng)站、App 等)賺了很多錢,即使是細(xì)小的可用性問題也是難以忍受的?!?/p>
有錢的公司當(dāng)然會通過投資回報(bào)率來決定如何開展可用性測試,即使在每一次優(yōu)化相關(guān)的測試上花費(fèi)太多,也會因?yàn)樵诋a(chǎn)品中大量資金的流動(dòng)而做出更多的讓步(譯者注:因?yàn)閮?yōu)化就有可能意味著帶來負(fù)向的資金變動(dòng),得不償失,所以不如不改)。
然而,在設(shè)計(jì)可用性測試和實(shí)施的過程中,也會考慮測試本身的投資回報(bào)率,當(dāng)然會選擇投入和產(chǎn)出比較大的方案,來提高整體的收益了。
最基本的一點(diǎn)是:
只要是不斷的迭代產(chǎn)品,在設(shè)計(jì)和測試其他版本過程中,任何一個(gè)版本實(shí)施可用性測試都是可以的。沒有固定的東西會在下次優(yōu)化,如果有很多優(yōu)化項(xiàng),只需要規(guī)劃版本。
相比較一次測試更多用戶,多版本每次解決不同問題的方式,這么做最終的結(jié)果將帶來更高的質(zhì)量(伴有更高的商業(yè)價(jià)值)。
83個(gè)案例研究
下圖總結(jié)了尼爾森-諾爾曼集團(tuán)最近實(shí)施的 83 個(gè)可用性咨詢項(xiàng)目。每個(gè)點(diǎn)是一個(gè)可用性研究,它顯示了測試的用戶數(shù)(橫軸),以及收集到的可用性問題(縱軸)。(圖中僅包含常規(guī)的定性研究;我們還運(yùn)行有競爭力的研究和基準(zhǔn)測量,以及并未在這里顯示的其他類型的研究。)
有一個(gè)相關(guān)性,真的很小。在眾多的項(xiàng)目中,測試更多的用戶并沒有引起更多的洞察力。
既然相信這些研究結(jié)果顯示了小規(guī)模測試的優(yōu)越性,為什么我們還要做更多的用戶測試呢?原因有三個(gè):
- 一些客戶希望對內(nèi)部信譽(yù)進(jìn)行更大規(guī)模的研究。當(dāng)一個(gè)研究的贊助商向不了解可用性的管理者提出調(diào)查結(jié)果時(shí),測試更多的用戶,這些結(jié)果更容易接受。(如果管理層相信自己的員工,就可以節(jié)省很多錢啊。)
- 一些設(shè)計(jì)項(xiàng)目有多個(gè)目標(biāo)用戶群,預(yù)期(或至少懷疑)行為的差異大到足以證明測試更多用戶的花費(fèi)是可行的。
- 最后,事實(shí)上,這些使用更多用戶測試的咨詢項(xiàng)目是合理的,這也是為什么我們經(jīng)常做大約 8 個(gè)用戶的研究。投資回報(bào)率是投入和產(chǎn)出之間的比率。當(dāng)聘請顧問時(shí),真正的投入往往比實(shí)際的要高出很多,因?yàn)槠髽I(yè)必須花費(fèi)時(shí)間來尋找顧問并進(jìn)行談判。隨著投資的增加,你希望獲得更大的收益。
最后一點(diǎn)也解釋了為什么“多少用戶”的真正答案有時(shí)會遠(yuǎn)遠(yuǎn)小于5。如果有一個(gè)較低投入的敏捷 UX 過程,在每一項(xiàng)研究中的投入都可以忽略不計(jì),以至于成本效益被優(yōu)化得很好。(在每一項(xiàng)研究中獲益較少的情況下,獲得更多的投資回報(bào)似乎是違反直覺的,但這種節(jié)省是因?yàn)槊宽?xiàng)研究的投入越少,就可以進(jìn)行更多的研究,那么產(chǎn)出就會不斷積累。)
對于實(shí)際投入很低的項(xiàng)目,最好的方式是只測試 2 個(gè)用戶。對于其他一些項(xiàng)目,8 個(gè)用戶——有時(shí)會更多——可能會更好。然而,對于大多數(shù)項(xiàng)目,你應(yīng)該不斷嘗試和驗(yàn)證:有 5 個(gè)用戶的可用性測試。
#專欄作家#
鄭幾塊,人人都是產(chǎn)品經(jīng)理專欄作家,前新浪微博產(chǎn)品經(jīng)理。
本文系作者@鄭幾塊 獨(dú)家翻譯授權(quán),未經(jīng)本站許可,不得轉(zhuǎn)載
題圖來自 pexels,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!