為什么網(wǎng)站項目只需測試5個用戶
人們總是認(rèn)為,用戶測試是一個復(fù)雜且代價昂貴的事情。一個網(wǎng)站設(shè)計項目需要一個龐大的預(yù)算和長長的時間表。其實,可用性測試并非如大多數(shù)人認(rèn)為的是浪費(fèi)資源的事情。在你可承受的測試成本范圍內(nèi),使用不超過5個用戶,即可達(dá)到很好的測試效果。最初的研究過程中,Tom Landauer 和我得出了一個可用性測試方面的,關(guān)于測試人員的數(shù)量的公式:
假設(shè)一個可用性測試的測試人員數(shù)量為n,N為所有可用性測試發(fā)現(xiàn)的問題總數(shù),L是單個測試人員的問題發(fā)現(xiàn)率。
N(1-(1-L)n)
我們發(fā)現(xiàn),大多數(shù)項目的平均的問題發(fā)現(xiàn)率為31%。當(dāng)?L=31%時,可以得到如下的圖形:
當(dāng)用戶為零時,發(fā)現(xiàn)的問題數(shù)目是零,即“零用戶零發(fā)現(xiàn)”。我們可以看到,第一個用戶幾乎發(fā)現(xiàn)的三分之一的設(shè)計的可用性的問題,和零發(fā)現(xiàn)截然不同。當(dāng)我們看第二個用戶的測試情況時,可以發(fā)現(xiàn),有一部分問題是和第一個user重合的。人們之間的行為或發(fā)現(xiàn)有一定的差異,第二個user可以發(fā)現(xiàn)一些不同于第一個user的問題,有區(qū)別于第一個用戶的新發(fā)現(xiàn),但是問題數(shù)量不及第一個用戶的最初發(fā)現(xiàn)。第三個用戶做了很多前兩者重復(fù)的事情,有些甚至重復(fù)2次。另外,當(dāng)然,第三個用戶本身異能發(fā)現(xiàn)少量的新問題,顯然數(shù)量遠(yuǎn)遠(yuǎn)不及前 兩個用戶。
現(xiàn)在,加入更多的測試人員(user),你會發(fā)現(xiàn)一個現(xiàn)象,隨著人數(shù)的增加,重復(fù)的事情一再出現(xiàn),發(fā)現(xiàn)的新問題發(fā)現(xiàn)率開始下降。顯然不再需要讓更多的人來重復(fù)發(fā)現(xiàn)重復(fù)的問題,自然回回去重新設(shè)計,以解決發(fā)現(xiàn)問題。
到了第5個user,你就是在浪費(fèi)時間,去做重復(fù)的事情,并且?guī)缀踉贈]有先的發(fā)現(xiàn)。
迭代設(shè)計
上圖中的曲線很清除地標(biāo)明,至少需要15個用戶去發(fā)現(xiàn)所有的設(shè)計中的可用性問題。但是,為什么我更傾向于推薦 用更少的測試人員呢?一個主要的原因是合理分配可用性測試的預(yù)算。讓我們看看,當(dāng)你招聘15個客戶代表來對你的設(shè)計進(jìn)行測試時,就一位著你得花費(fèi)5個用戶 的3倍的費(fèi)用!
當(dāng)我們?nèi)プ鲇脩舻目捎眯詼y試時,最終的目標(biāo)是為了解決或者提高實際的設(shè)計,而不是僅僅得到一份書面的報告。當(dāng)5個用戶的首次測試發(fā)現(xiàn)了85%的可用性問題時,你已經(jīng)可以在下一個desagn中修復(fù)這些問題。
如果想發(fā)現(xiàn)更多的問題,當(dāng)然需要再次測試。即使我說重新設(shè)計可以修復(fù)第一次測試時發(fā)現(xiàn)的問題,事實是你可能認(rèn) 為新的設(shè)計可以客服已有的問題。但是,在沒有人能設(shè)計出更完美的用戶界面之前,無法保證新的設(shè)計可以修復(fù)事實存在的問題。第二次測試可以回歸已有的問題, 確認(rèn)是否修復(fù)。同時,一個新的設(shè)計,意味著還需要一次新的用戶測試。
5個用戶的第二次測試,可以發(fā)現(xiàn)第一次測試時遺留的15%的問題。(仍舊會有2%的問題遺留要等到第三次測試來發(fā)現(xiàn))。
最終,第二次測試的深度可以設(shè)計到網(wǎng)站的設(shè)計架構(gòu),獲取到我們所需的一些信息,如體系架構(gòu)、任務(wù)流程等是否符合客戶需求。這些問題常常在隱藏在一些表面的可用性問題之后,而為人們所忽略。
所以,第二次的測試作為第一次測試的質(zhì)量保障,并且可以發(fā)現(xiàn)更深入的問題。第二次測試會為系統(tǒng)的重新設(shè)計提供一份新的問題清單,但數(shù)量顯然會少于第一次測試。但是,本次測試并不能完全補(bǔ)充第一次測試,還需要第三次的測試來進(jìn)行查漏補(bǔ)缺。
5個用戶三次的最終測試效果要遠(yuǎn)高于15個用戶測試一次的效果。
為什么不建議單用戶的測試?單個人的行為總會有一些風(fēng)險,人總會有一些意外的,不確定的行為。
你可能會認(rèn)為15個用戶做一輪測試,比5個用戶做3輪要好。因為曲線表明,第一個用戶的發(fā)現(xiàn)率明顯高于后續(xù)的 用戶,但是,為什么我們要堅持多輪測試?兩個原因:第一,通過觀察3個人就可以看到用戶行為的多樣性,可以洞察到那些行為是獨(dú)特的那些是可以一概而論的; 第二,用戶測試的成本效益分析表明,3-5個測試用戶的最佳比例,依賴于測試的風(fēng)格。初始的運(yùn)行成本和測試計劃相關(guān),多個用戶對于降低最初的成本效果更好。
什么時候增加更多的測試用戶
當(dāng)你的網(wǎng)站客戶群覆蓋到幾個不同高度的用戶群時,你需要增加更多的測試用戶。上面公式的適用于網(wǎng)站的用戶群接 近或者差異很小時。舉個例子,當(dāng)你的網(wǎng)站客戶群是定位于父母和孩子時,你就需要充分考慮到兩個不同群里的使用行為。系統(tǒng)的相同之處是對于采購代理商的銷售 人員之間的連接。
甚至當(dāng)用戶群體差異性完全不同時,在兩類人之間也可發(fā)現(xiàn)很多相似之處。畢竟,所有的用戶都是人。所有的可用性問題反應(yīng)的都是人的行為與網(wǎng)站之間的互動和影響。
在測試不同的用戶群時,你不需要每個用戶群中都有很多測試人員(user),有以下的一個測試人員數(shù)目就足夠了:1、如果測試兩個用戶群,則每類群需要3-4個用戶;2、如果測試3個或更多的用戶群,則每類有3個測試用戶就可以了(至少3個users就可以確保你覆蓋到某一個用戶群中的不同的行為)
參考:Nielsen, Jakob, and Landauer, Thomas K.: “A mathematical model of the finding of usability problems,”?Proceedings of ACM INTERCHI’93 Conference (Amsterdam, The Netherlands, 24-29 April 1993), pp. 206-213.
本文來自:http://article.yeeyan.org/view/3323/2018
英文原文:http://www.useit.com/alertbox/20000319.html
- 目前還沒評論,等你發(fā)揮!