做可用性測(cè)試時(shí),只需要5名用戶參與測(cè)試就夠了
精心設(shè)計(jì)可用性測(cè)試無(wú)疑是浪費(fèi)資源。最佳的結(jié)果是測(cè)試用戶不超過(guò) 5 個(gè)用戶,在測(cè)試過(guò)程中盡可能多地采用小測(cè)試。
測(cè)試用戶數(shù)量曲線
有些人認(rèn)為可用性是非常昂貴和復(fù)雜的,用戶測(cè)試應(yīng)該預(yù)留給罕見(jiàn)的網(wǎng)頁(yè)設(shè)計(jì)項(xiàng)目(補(bǔ)充,目前常見(jiàn)的多是應(yīng)用或者服務(wù)等產(chǎn)品),而且預(yù)算龐大、時(shí)間表繁瑣。
其實(shí),不是這樣的。精心設(shè)計(jì)可用性測(cè)試無(wú)疑是浪費(fèi)資源。最佳的結(jié)果是測(cè)試用戶不超過(guò) 5 個(gè)用戶,在測(cè)試過(guò)程中盡可能多地采用小測(cè)試。
在早先的研究中,Tom Landauer 和我表明,在 n 個(gè)用戶的可用性測(cè)試中發(fā)現(xiàn)的可用性問(wèn)題的數(shù)量是:
N (1-(1- L ) n )
其中: N 是設(shè)計(jì)中可用性問(wèn)題的總數(shù),L 是測(cè)試單個(gè)用戶時(shí)發(fā)現(xiàn)的可用性問(wèn)題的比例。 L 的典型值為 31%,在我們研究的大量項(xiàng)目中取平均值。
繪制 L = 31% 的曲線得出以下結(jié)果:
曲線中,最引人注目的事實(shí)是:零用戶給出的洞察數(shù)為零。
只要你從一個(gè)測(cè)試用戶那里收集數(shù)據(jù),洞察數(shù)就會(huì)出現(xiàn),你已經(jīng)學(xué)會(huì)了近三分之一的知識(shí)來(lái)了解設(shè)計(jì)的可用性——零和即便是一點(diǎn)點(diǎn)數(shù)據(jù)之間的差異是驚人的。
當(dāng)你測(cè)試第二個(gè)用戶時(shí),你會(huì)發(fā)現(xiàn)這個(gè)人和第一個(gè)用戶做了一些相同的事情,所以你掌握的東西有一些重疊。人們是完全不同的,所以從第二個(gè)用戶那,也會(huì)有一些第一個(gè)用戶那沒(méi)有的新的東西出現(xiàn)。所以從第二個(gè)用戶那也會(huì)增加一些新的洞察力,但不像第一個(gè)用戶那么多。
第三個(gè)用戶會(huì)做很多事情,這些事你已經(jīng)從觀察過(guò)的第一個(gè)用戶或第二個(gè)用戶那觀察過(guò)了,甚至有些事情你已經(jīng)看過(guò)兩次了;此外,第三位用戶當(dāng)然也將產(chǎn)生少量新數(shù)據(jù),這些數(shù)據(jù)僅是第三位用戶產(chǎn)生的。
隨著添加越來(lái)越多的測(cè)試用戶,你能獲得的越來(lái)越少,因?yàn)槟銜?huì)一次又一次地看到相同的內(nèi)容。真的沒(méi)有必要多次持續(xù)觀察同一件事,并且你將很樂(lè)意回到繪圖板并重新設(shè)計(jì)網(wǎng)站或者產(chǎn)品,以消除可用性問(wèn)題。
在第五位用戶后,通過(guò)反復(fù)觀察相同的發(fā)現(xiàn)而浪費(fèi)了時(shí)間,但沒(méi)有獲得太多的新東西。
迭代設(shè)計(jì)
曲線清楚地表明:你需要測(cè)試至少 15 個(gè)用戶才能發(fā)現(xiàn)設(shè)計(jì)中的所有可用性問(wèn)題。
那么,為什么我建議用更少的用戶進(jìn)行可用性測(cè)試呢?
主要原因是最好是在許多小測(cè)試中分配用戶測(cè)試的預(yù)算,而不是在單個(gè)精細(xì)的研究中將所有內(nèi)容都放在一起。讓我們假設(shè)你有資金招募 15 位典型客戶并讓他們參與你的測(cè)試。將這些預(yù)算用在每組 5 個(gè)用戶的 3 項(xiàng)研究上!
你想進(jìn)行多個(gè)測(cè)試,因?yàn)榭捎眯怨こ痰恼嬲繕?biāo)是改進(jìn)設(shè)計(jì),而不僅僅是記錄它的缺點(diǎn)。在進(jìn)行 5 名參與者的第一次研究發(fā)現(xiàn)了 85% 的可用性問(wèn)題后,你將需要在重新設(shè)計(jì)中解決這些問(wèn)題。
重新設(shè)計(jì)之后,你需要再次進(jìn)行測(cè)試。盡管我說(shuō)重新設(shè)計(jì)應(yīng)該“解決”第一次研究中發(fā)現(xiàn)的問(wèn)題,但事實(shí)是,你認(rèn)為重新設(shè)計(jì)可以克服這些問(wèn)題。但由于沒(méi)有人可以設(shè)計(jì)出完美的用戶界面,因此不能保證新設(shè)計(jì)確實(shí)能夠解決問(wèn)題。第二次測(cè)試會(huì)發(fā)現(xiàn)重新設(shè)計(jì)是否有效。而且,在引入新設(shè)計(jì)時(shí),即使舊的可用性問(wèn)題得到修復(fù),總會(huì)有引發(fā)新的可用性問(wèn)題的風(fēng)險(xiǎn)。
此外,另外 5 名用戶的第二輪測(cè)試將發(fā)現(xiàn)第一輪測(cè)試中未發(fā)現(xiàn)的 15% 的原始可用性問(wèn)題中的大部分。(仍然會(huì)殘留 2% 的原始問(wèn)題 —— 這些將不得不等待第三輪測(cè)試才能確定)。
最后,第二輪測(cè)試將能夠深入探討網(wǎng)站或產(chǎn)品基本結(jié)構(gòu)的可用性,評(píng)估信息架構(gòu)、任務(wù)流程以及與用戶需求匹配等問(wèn)題。在最初的研究中,這些重要問(wèn)題常常被模糊處理,因?yàn)橛脩舯挥薮赖摹氨砻婕?jí)”可用性問(wèn)題困擾著,這些問(wèn)題阻礙了他們真正深入使用網(wǎng)站或者產(chǎn)品。
因此,第二輪測(cè)試將作為第一輪測(cè)試結(jié)果的驗(yàn)證過(guò)程,并有助于提供更深入的見(jiàn)解。第二輪測(cè)試總是會(huì)導(dǎo)致新的(但較小的)可用性問(wèn)題,并在新一輪的設(shè)計(jì)中得到修復(fù)。同樣的見(jiàn)解也適用于這種重新設(shè)計(jì):并非所有的修復(fù)都可行;清理界面之后將會(huì)發(fā)現(xiàn)一些更深層的問(wèn)題。因此,還需要第三輪測(cè)試。
最終的用戶體驗(yàn)通過(guò) 3 輪測(cè)試得到了更多的改進(jìn),每組 5 個(gè)用戶,每個(gè)用戶進(jìn)行一輪測(cè)試,一共 15 個(gè)用戶。
為什么不用單個(gè)用戶進(jìn)行每輪測(cè)試?
你可能會(huì)認(rèn)為 15 個(gè)使用單一用戶的測(cè)試甚至比 5 個(gè)用戶的 3 輪測(cè)試更好。曲線確實(shí)表明我們從第一個(gè)用戶那里了解的東西,比從任何后續(xù)用戶那里了解的要多得多,所以為什么要繼續(xù)下去??jī)蓚€(gè)原因:
- 總是有被單個(gè)人的虛假行為誤導(dǎo)的風(fēng)險(xiǎn),他們可能會(huì)以意外或非典型的方式執(zhí)行某些行為。即使 3 個(gè)用戶也足以了解用戶行為的多樣性,并洞察什么是獨(dú)特的、什么是普遍的。
- 根據(jù)測(cè)試的風(fēng)格,用戶測(cè)試的成本效益分析提供了 3-5 個(gè)用戶的最佳比例。計(jì)劃和運(yùn)行一項(xiàng)測(cè)試總會(huì)有一個(gè)固定的初始成本:最好在多個(gè)用戶的研究結(jié)果中降低這個(gè)初始成本。
何時(shí)測(cè)試更多用戶?
當(dāng)一個(gè)網(wǎng)站或者產(chǎn)品有幾個(gè)高度不同的用戶群時(shí),你需要測(cè)試其他用戶。該公式僅適用于以相當(dāng)類似的方式使用網(wǎng)站或產(chǎn)品的用戶。
例如,如果你有一個(gè)供兒童和家長(zhǎng)使用的網(wǎng)站或產(chǎn)品,那么這兩組用戶的行為就會(huì)有很大差異,因此有必要與兩組人員進(jìn)行測(cè)試。對(duì)于旨在連接采購(gòu)代理和銷售人員的系統(tǒng)來(lái)說(shuō)也是如此。
即使用戶群體差異很大,兩組的觀察結(jié)果仍然會(huì)有很大的相似之處。畢竟,所有的用戶都是人。此外,許多可用性問(wèn)題都與人們與網(wǎng)站或產(chǎn)品互動(dòng)的基本方式,以及其他網(wǎng)站或產(chǎn)品對(duì)用戶行為的影響有關(guān)。
在測(cè)試多個(gè)不同用戶組時(shí),不用像單一用戶組的單個(gè)測(cè)試那樣,包含每個(gè)組的多個(gè)成員。觀察之間的重疊將確保——從針對(duì)每個(gè)組較少人員的測(cè)試中——得出更好的結(jié)果。我建議:
- 如果測(cè)試兩組用戶,每個(gè)類別有 3-4 個(gè)用戶
- 如果測(cè)試三個(gè)或三個(gè)以上的用戶組,則每個(gè)類別有3個(gè)用戶(你總是希望每個(gè)類別至少有3個(gè)用戶,這樣就能確保涵蓋組內(nèi)的各種行為)
參考
Nielsen, Jakob, and Landauer, Thomas K.: “A mathematical model of the finding of usability problems,” Proceedings of ACM INTERCHI’93 Conference (Amsterdam, The Netherlands, 24-29 April 1993), pp. 206-213.
注
譯文中對(duì) redesign (重新設(shè)計(jì))的翻譯,我理解為重新規(guī)劃、調(diào)整,包括產(chǎn)品需求、UI/UE、開(kāi)發(fā)等各個(gè)環(huán)節(jié),而不是單指設(shè)計(jì) UI/UE 環(huán)節(jié)。
另外,我仔細(xì)思考了下這里的可用性測(cè)試范圍其實(shí)是針對(duì)單一功能而言的。為什么?當(dāng)產(chǎn)品用戶類型不同,層次不同的時(shí)候,總體的測(cè)試用戶量會(huì)變的非常大,但就單一類型的單一層次來(lái)說(shuō),5 個(gè)人基本上就符合文章中提到的范圍了。
作者:Jakob Nielsen
原文地址:https://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/
#專欄作家#
鄭幾塊,人人都是產(chǎn)品經(jīng)理專欄作家,前新浪微博產(chǎn)品經(jīng)理。
本文系作者@鄭幾塊 獨(dú)家翻譯授權(quán),未經(jīng)本站許可,不得轉(zhuǎn)載
題圖來(lái)自 Unsplash ,基于 CC0 協(xié)議
- 目前還沒(méi)評(píng)論,等你發(fā)揮!