在线观看国产精品普通话对白精品,黄色网站在线观看日本

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

可用性測(cè)試溯源：5個(gè)人就夠了？

白話說交互

2022-06-24

3 評(píng)論 6242 瀏覽 12 收藏

16 分鐘

編輯導(dǎo)語：做可用性測(cè)試時(shí)，要注意什么？大廠在做可用性測(cè)試時(shí)有什么不一樣？找多少個(gè)用戶做可用性測(cè)試才合適？本文就此問題做了分析和解答，希望對(duì)你有所幫助。

你是否常常覺得看不懂“可用性測(cè)試”這個(gè)東西，感覺它做法復(fù)雜、又不知道具體哪些環(huán)節(jié)必須做、哪些環(huán)節(jié)不用做？“大廠”做可用性測(cè)試是否會(huì)更嚴(yán)謹(jǐn)、寫更多文檔？究竟找多少個(gè)用戶做可用性測(cè)試才合適？

假如你有以上疑問，這篇文章適合你繼續(xù)閱讀。本文部分觀點(diǎn)來自《人因?qū)W手冊(cè)》handbook of human factors and ergonomics的“可用性測(cè)試”一章。

一、你也是半個(gè)心理學(xué)家

我之前反復(fù)提過，我們體驗(yàn)設(shè)計(jì)現(xiàn)在的主流研究方法大部分從社會(huì)學(xué)或者心理學(xué)里移植而來，而可用性測(cè)試就直接脫胎于認(rèn)知心理學(xué)的看家研究方法“實(shí)驗(yàn)法”。

假如有讀者小時(shí)候上幼兒園的職業(yè)理想曾經(jīng)是“做實(shí)驗(yàn)、當(dāng)科學(xué)家”，那么恭喜你，當(dāng)設(shè)計(jì)師會(huì)做可用性測(cè)試，某種程度上也算是部分實(shí)現(xiàn)了你當(dāng)年的心愿。先給自己一點(diǎn)鼓勵(lì)。

認(rèn)知心理學(xué)的基本思路是把人的心理活動(dòng)理解成一套像精密機(jī)械一樣的信息加工系統(tǒng)，里面的各個(gè)零件可以拆開來各自研究的：比如人的注意力、記憶，或者某種感受。它有許多的研究?jī)?nèi)容都是很微觀的概念和現(xiàn)象，這些（短期）現(xiàn)象發(fā)生得非常快、并且在自然環(huán)境下受各種因素影響干擾，很難測(cè)量。

因此為了在現(xiàn)象或概念間建立有力的因果關(guān)系，認(rèn)知心理學(xué)作為橫跨社科和自然科學(xué)兩個(gè)領(lǐng)域的一門學(xué)科，向自然科學(xué)取經(jīng)從而發(fā)展出了很成熟的控制實(shí)驗(yàn)技術(shù)（包括咱們比較常見的眼動(dòng)儀實(shí)驗(yàn)）。

這個(gè)方法后來輻射到了各個(gè)其他社會(huì)學(xué)科中，又誕生了“實(shí)地實(shí)驗(yàn)”（field experiments，自然實(shí)驗(yàn)/社會(huì)實(shí)驗(yàn)）的說法，其思路很像我們今天經(jīng)常做的AB test。

還是拿我們上篇文章的“可愛小貓論”作案例，假設(shè)你是一個(gè)很有才華的心理學(xué)家，發(fā)現(xiàn)小貓可愛程度會(huì)影響人的身心健康，養(yǎng)越可愛的貓?jiān)接欣谏硇慕】?。你要如何證明這一點(diǎn)？

可用性測(cè)試溯源：5個(gè)人就夠了？

我們需要確定這個(gè)現(xiàn)象普遍廣泛存在，而不是僅僅存在在你這個(gè)貓奴身上的個(gè)例，因此一定需要通過定量的方法做驗(yàn)證。
在現(xiàn)實(shí)生活中能對(duì)人的身心健康產(chǎn)生影響的東西太多了，比如這個(gè)月老板老給你穿小鞋，導(dǎo)致你身心受到了巨大打擊；下個(gè)月你苦練搏擊，身心健康又增長(zhǎng)不少，那么如何從這么多因素中抽離出貓咪對(duì)你的影響，而過濾職場(chǎng)/鍛煉/飲食等其他因素的影響？
也許養(yǎng)貓和身心健康是有關(guān)系，但其實(shí)是身心健康較弱的人更不愿意養(yǎng)貓，而非反過來——如何能準(zhǔn)確探究這兩個(gè)因素的關(guān)系？

答案是在實(shí)驗(yàn)室環(huán)境下嚴(yán)格地控制變量，通過對(duì)實(shí)驗(yàn)環(huán)境和環(huán)節(jié)的科學(xué)設(shè)置、對(duì)被試者情況的篩選和抽樣來確保得到精準(zhǔn)的結(jié)果。

比如你可以假設(shè)被試對(duì)貓的喜愛程度、貓的可愛度都可能影響實(shí)驗(yàn)結(jié)果，所以你可以被試分成4個(gè)單元小組：不可愛的貓配不喜歡貓的人、可愛的貓配不喜歡貓的人、不可愛的貓配喜歡貓的人、可愛的貓配喜歡貓的人。

在測(cè)量了人的初始身心健康程度后，讓他們與貓呆3小時(shí)，然后再次測(cè)量人的身心健康程度。此外還需要配備一個(gè)對(duì)照組，這個(gè)組的人只能看3小時(shí)動(dòng)畫片——這就是一個(gè)很簡(jiǎn)單的小實(shí)驗(yàn)。

可用性測(cè)試溯源：5個(gè)人就夠了？

由此可以看出控制實(shí)驗(yàn)法和其他的研究方法相比，完全脫離了情境，所以實(shí)驗(yàn)室內(nèi)的結(jié)果是否可以推廣到實(shí)際生活中去，是需要打一個(gè)大大的問號(hào)的，但正因?yàn)槿绱耍瑢?shí)驗(yàn)法也為驗(yàn)證因果關(guān)系創(chuàng)造了可能性。這一點(diǎn)也就是我之前在不要從“交互設(shè)計(jì)定理”入門交互設(shè)計(jì)中強(qiáng)調(diào)的。

說回到咱們的可用性測(cè)試，根據(jù)《人因?qū)W手冊(cè)》的說法，可用性測(cè)試在80年代初被提出后馬上在80～90年代風(fēng)行于業(yè)界，影響了施樂（Xerox）、蘋果、IBM等一代明星公司的產(chǎn)品評(píng)估流程。

在可用性測(cè)試引進(jìn)之初從業(yè)者仍然比較嚴(yán)格地遵守控制實(shí)驗(yàn)的方法，對(duì)測(cè)試的環(huán)節(jié)設(shè)計(jì)、環(huán)境設(shè)置要求十分嚴(yán)格，是一種主要用于評(píng)估/對(duì)比設(shè)計(jì)方案的、定量的、脫離情景的手段。

舉個(gè)例子，為了得到比較嚴(yán)謹(jǐn)?shù)慕Y(jié)果，可用性測(cè)試應(yīng)該：

做預(yù)測(cè)試：在設(shè)計(jì)完實(shí)驗(yàn)流程后需要先找一些被試，看看控制變量的手段是否有效
考慮組內(nèi)實(shí)驗(yàn)還是組間實(shí)驗(yàn)：比如是找同一個(gè)用戶測(cè)試3組設(shè)計(jì)圖，還是3個(gè)不同的用戶每人測(cè)試1組設(shè)計(jì)圖
考慮實(shí)驗(yàn)順序：假如找同一個(gè)用戶測(cè)試3組設(shè)計(jì)圖，那么先看哪個(gè)、后看哪個(gè)
……

此外，各個(gè)公司會(huì)為了可用性測(cè)試搭建專門的、昂貴的可用性實(shí)驗(yàn)室。在實(shí)驗(yàn)室環(huán)境下對(duì)用戶發(fā)布任務(wù)、進(jìn)行測(cè)試，主要是為了規(guī)避噪音、燈光、外來人員打斷等干擾因素對(duì)實(shí)驗(yàn)結(jié)果的影響。比如下圖就是一個(gè)典型的可用性測(cè)試實(shí)驗(yàn)室。

可用性測(cè)試溯源：5個(gè)人就夠了？

二、發(fā)展與“5個(gè)就夠了”

90年代后隨著可用性測(cè)試相關(guān)的應(yīng)用和研究快速發(fā)展，可用性測(cè)試的概念也從驗(yàn)證性研究逐漸擴(kuò)展到形成性的、探索性研究。

對(duì)可用性測(cè)試的要求也遠(yuǎn)遠(yuǎn)沒80年代那么高了，到今天據(jù)我所知很多廠的用戶研究部門把可用性測(cè)試?yán)斫獾睾軐挿?，只要和用戶有接觸、只要設(shè)置了任務(wù)，都可以勉強(qiáng)講是“可用性測(cè)試”。

這樣做測(cè)試不再需要嚴(yán)格的實(shí)驗(yàn)室環(huán)境與變量控制技術(shù)，反而更加偏向?qū)嵉卣{(diào)研，讓用戶在自己熟悉的環(huán)境中完成任務(wù)。

造成這個(gè)發(fā)展的原因其實(shí)有很多：

（1）軟件開發(fā)模式變了

70～80年代盛行的瀑布流式開發(fā)，要求軟件的設(shè)計(jì)開發(fā)者一次性完全完成一個(gè)環(huán)節(jié)后，再邁入下一個(gè)環(huán)節(jié)。比如你做設(shè)計(jì)時(shí)，需要提前想好未來需要應(yīng)對(duì)的所有場(chǎng)景，一次把幾千張?jiān)O(shè)計(jì)圖全部交付開發(fā)，開發(fā)開始寫所有的頁(yè)面，寫完了這幾千張圖再上市。

這種開發(fā)模式在90年代被敏捷開發(fā)或迭代開發(fā)逐漸替代，這要求設(shè)計(jì)者出一版能用的先做出來，根據(jù)用戶反饋再迭代之前的想法。因此，設(shè)計(jì)師對(duì)于快速定位設(shè)計(jì)問題的訴求大大提升，而可用性測(cè)試作為一種有用戶參與的評(píng)估方式（可能是唯一一種），可以滿足這種訴求。

（2）從調(diào)研目的的角度上來講，我們作為設(shè)計(jì)者說到底和科學(xué)家做的事兒是不同的

對(duì)于科學(xué)家來講研究概念之間的相互關(guān)系是有意義的，其最終的目的是形成一個(gè)具有解釋力的學(xué)說。但對(duì)于設(shè)計(jì)師來說我們需要選出更優(yōu)的設(shè)計(jì)，但并不關(guān)心究竟是哪個(gè)變量導(dǎo)致了設(shè)計(jì)最優(yōu)、變量之間相互的關(guān)系是啥。

比如你可能做了兩個(gè)稿子，A稿紅色按鈕放右邊、B稿橙色按鈕放左邊，最終用戶覺得B稿好，你的研究就結(jié)束了；而心理學(xué)家需要去思考到底是位置、顏色，還是別的什么因素影響了用戶的什么體驗(yàn)，最終導(dǎo)致用戶的決策？

對(duì)控制變量的嚴(yán)格要求，最終導(dǎo)致做一場(chǎng)嚴(yán)格的控制實(shí)驗(yàn)成本超高，除去復(fù)雜的控制變量帶來的成本以外，為了讓整個(gè)實(shí)驗(yàn)可以使用統(tǒng)計(jì)學(xué)分析，一般會(huì)要求每個(gè)單元小組的樣本量大于30——做學(xué)術(shù)也許可以不那么考慮成本，但企業(yè)總是會(huì)思考投入產(chǎn)出比。

可用性測(cè)試溯源：5個(gè)人就夠了？

比如90年代軟件業(yè)界就曾經(jīng)把當(dāng)時(shí)出現(xiàn)的專家啟發(fā)式評(píng)估、認(rèn)知走查這些無需用戶參與、專家進(jìn)行即可的方法當(dāng)成可用性測(cè)試的廉價(jià)替代品。雖然后來被證實(shí)沒有方法可以替代用戶評(píng)估——專家走查出來的問題往往不是真實(shí)用戶遇到的問題，而往往是一無傷大雅的小細(xì)節(jié)。

（3）90年代尼爾森寫了一篇關(guān)于可用性測(cè)試樣本量的文章，極大地鼓舞了用可用性測(cè)試做探索性研究、尋找可用性問題的做法

這篇文章我最開從《用戶體驗(yàn)度量》里讀到，我把這個(gè)理論叫“5個(gè)就夠了”論。

可用性測(cè)試溯源：5個(gè)人就夠了？

尼爾森將此前為一些產(chǎn)品做的可用性測(cè)試與專家評(píng)估結(jié)果整理了一下，用一個(gè)泊松模型來預(yù)測(cè)參與可用性測(cè)試的用戶數(shù)或參與評(píng)估的專家數(shù)與最后找到的可用性問題的比例之間的關(guān)系，最終“發(fā)現(xiàn)5個(gè)用戶就能發(fā)現(xiàn)83%的問題”。

下面這張圖能看出來假如拆分了可用性測(cè)試和專家評(píng)估，那么可用性測(cè)試需要的人數(shù)稍微多一些，5個(gè)用戶大約能發(fā)現(xiàn)70%的問題。

可用性測(cè)試溯源：5個(gè)人就夠了？

現(xiàn)在看來尼爾森這個(gè)模建得說不上多么精細(xì)。注意這個(gè)圖里的因變量是百分比，“1”代表“所有被發(fā)現(xiàn)的問題”，而不代表“本系統(tǒng)所有可能存在的問題”，所以尼爾森這個(gè)結(jié)論正確的解讀方式是，假設(shè)他們測(cè)試了20個(gè)用戶最終發(fā)現(xiàn)了10個(gè)問題，那么5個(gè)用戶就能發(fā)現(xiàn)其中8個(gè)問題。

這種問題的重疊很有可能是因?yàn)閷?duì)用戶的不當(dāng)抽樣帶來的。比如我們現(xiàn)在很多系統(tǒng)存在不同的用戶角色與用戶場(chǎng)景，用戶個(gè)體的技能水平也有差異，因此不同用戶組的關(guān)注點(diǎn)、問題點(diǎn)可能都是不一樣的，很可能這一組用戶找不到另外一組的問題，這一點(diǎn)在《用戶體驗(yàn)度量》也有所說明。

后來尼爾森在他公司的網(wǎng)站上對(duì)“5個(gè)就夠了”論做出了補(bǔ)充，當(dāng)前版本的可用性測(cè)試結(jié)合了設(shè)計(jì)迭代的動(dòng)作，更偏向定性的、個(gè)案研究的思路。按他現(xiàn)在的話來講，可用性測(cè)試這個(gè)事情應(yīng)該多次多輪的進(jìn)行：首先選取5個(gè)人可用性測(cè)試-然后馬上對(duì)設(shè)計(jì)進(jìn)行修改和迭代-再找另外5個(gè)人重復(fù)進(jìn)行可用性測(cè)試，看看他們有沒有新的觀點(diǎn)，如此多輪往復(fù)，最終打磨出一版好設(shè)計(jì)。

三、怎么做更好

我們總結(jié)一下：假如你不太熟悉可用性測(cè)試的發(fā)展脈絡(luò)，那可能會(huì)對(duì)這個(gè)東西有點(diǎn)犯迷糊：一會(huì)要設(shè)置任務(wù)，一會(huì)要發(fā)問卷，一會(huì)又要觀察用戶的動(dòng)作；一會(huì)5個(gè)就夠了，一會(huì)又要多找?guī)讉€(gè)人。簡(jiǎn)單來講：

假如你做可用性測(cè)試是為了發(fā)現(xiàn)問題，5個(gè)人夠了。雖然要設(shè)置任務(wù)但不需要太嚴(yán)謹(jǐn)，以快取勝
假如你做可用性測(cè)試是為了對(duì)比方案/評(píng)估方案的優(yōu)劣程度，5個(gè)人不夠。嚴(yán)格來說每個(gè)組至少30人，但我們畢竟不做學(xué)術(shù)，少一點(diǎn)也勉強(qiáng)可接受。雖然今天已經(jīng)基本不做嚴(yán)格的實(shí)驗(yàn)設(shè)計(jì)，但應(yīng)該盡量減少對(duì)用戶的言語干擾、指導(dǎo)，讓用戶自由體驗(yàn)產(chǎn)品

最后關(guān)于樣本量的事情我再多說兩句。雖然調(diào)研的用戶數(shù)量是一個(gè)困擾大部分設(shè)計(jì)師的問題，但根據(jù)我個(gè)人的經(jīng)驗(yàn)來看，可用性測(cè)試是“多做比少做好，但做了一定比不做好”的一件事。對(duì)上線前的飛機(jī)稿來說，即使你只找1個(gè)用戶看了你的設(shè)計(jì)，甚至你只找同事看了一眼你的設(shè)計(jì)，都會(huì)比你閉門造車要更好。不要懼怕做體驗(yàn)調(diào)研，也不要認(rèn)為非要花多大代價(jià)才算在做體驗(yàn)調(diào)研。

作者：白話說交互；微信公眾號(hào)：白話說交互（ID：gh_96e304585325）

本文由 @白話說交互原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App