移動APP可用性測試:數(shù)據(jù)的量化處理(下)

8 評論 17445 瀏覽 80 收藏 14 分鐘

作為一名用戶研究從業(yè)者,想找到一本真正可以用來指導(dǎo)實踐的資料卻是十分難得。本文是繼《移動APP可用性測試(上篇):實驗室測試與現(xiàn)場測試對比》后的第二篇《量化研究》,主要和大家來聊一聊,拿到可用性測試數(shù)據(jù)后的量化方式。綜合上下兩篇文章的主旨來看,解答了如何科學地選擇測試場地、如何量化可用性測試結(jié)果的兩個“冷門問題”。

量化數(shù)據(jù)

用戶研究從業(yè)者常常在做可用性測試的時候碰到這樣的問題,可用性測試作為一種定性的研究方法,拿到完成率、完成時間以及滿意度等結(jié)果時是簡單做下描述性統(tǒng)計分析(畢竟我們稱之為定性),還是可以進一步量化、標準化比較呢?

不是所有的數(shù)據(jù)都可以拿來量化,這取決于這是哪一種可用性測試。

美國教育家和心理學家Scriven(1967)曾將用來測試學習成果的考試分為兩類,一類是Formative test即形成性測試,目的是通過及時的反饋來改進學習(例如隨堂聽寫);另一類是Summative testF即總結(jié)性測試,目的是通過測試成績來評估學習的效果(例如期末考試)。

那么,可用性測試如果也分為形成性測試和總結(jié)性測試的話,結(jié)果會有什么差異嗎?

形成性測試

大部分的可用性測試都是形成性測試,以查找和修復(fù)可用性問題為目的,數(shù)據(jù)也是以問題描述和設(shè)計建議的形式來輸出。這時候的量化一般僅以問題發(fā)生頻率和嚴重等級為代表,任務(wù)完成率、完成時間因沒有可對比性,所以只做描述性分析。

總結(jié)性測試

而總結(jié)性測試既然目的是用數(shù)據(jù)指標去度量一個應(yīng)用程序的可用性,那么這個指標必然需要一個可以比較的對象,不然又如何去評價這個指標代表的可用性到底是好還是壞。如果以“比較的對象”來劃分,總結(jié)性測試則又可以分為“基準測試”和“比較測試”。

(1)基準可用性測試

基準可用性測試的目標是描述一個應(yīng)用程序相對于基準目標的可用性程度(如用你的每門期末考試的成績?nèi)ズ椭邦A(yù)定的目標成績進行比較),那么這也就提供了改善產(chǎn)品修復(fù)問題的著力點(哪門課沒達到預(yù)期目標就重點復(fù)習),同時為比較改善后的效果提供了基線(重點復(fù)習后下次考試是否達到目標)。

(2)比較可用性測試

比較可用性測試,一般設(shè)計兩個及以上的應(yīng)用程序進行比較??梢允钱斍鞍姹九c前期舊版本的比較,或者是競品之間的比較。如果去設(shè)計一場比較可用性測試你需要考慮清楚是“被試內(nèi)測試”(相同的用戶完成所有產(chǎn)品的任務(wù))還是“被試間測試”(不同的用戶分別完成不同產(chǎn)品的任務(wù))。

  • 被試內(nèi)測試:在用戶數(shù)較少(或能夠給予的酬金有限,無法邀請多人參與)時可以考慮讓每個用戶分別去完成各款產(chǎn)品的測試,但是必須要切記不能讓所有用戶在每個產(chǎn)品上的先后順序保持一致(打破順序效應(yīng))。
  • 被試間測試:在用戶數(shù)充足時可以考慮每款產(chǎn)品分別找不同的用戶進行測試,但是這里需要注意的則是必須保證每款產(chǎn)品間的用戶個體差異不大(即有相似的年齡、性別、學習經(jīng)歷、競品使用經(jīng)歷),如果需要在每組內(nèi)劃分為新手用戶、中間用戶、專家用戶,則須保證各組中三類角色的人數(shù)占比一致。

圖2

數(shù)據(jù)統(tǒng)計

雖然對如何測量有效性、效率和滿意度沒有具體的指導(dǎo)方針,但Sauro and Lewis在一項針對近100個總結(jié)性可用性測試的調(diào)研揭示了從業(yè)者收集的典型數(shù)據(jù)。大多數(shù)的測試包含任務(wù)完成率(失敗率)、任務(wù)時間、主觀評價、尋求幫助的次數(shù)、可用性問題清單(通常包括問題頻次和嚴重等級)。

本文主要就以上幾個指標的量化處理進行介紹,更多可用性測試中收集測量指標的實操技巧,請參見《A Practical Guide to Measuring Usability》(Sauro,2010)和《Measuring the User Experience》(Tullis andAlbert,2008)。

任務(wù)完成率

(1)定義

也稱為成功率,是最基礎(chǔ)的可用性測量指標(Nielsen,2001)。

(2)計算

通常以二進制測量形式采集,以任務(wù)成功完成以編碼1、失敗為編碼0。

注:二進制完成率即是基礎(chǔ)可用性度量指標,也是應(yīng)用到所有科學領(lǐng)域的度量指標。

圖3

圖4

(3)置信區(qū)間

雖然我們計算出A產(chǎn)品任務(wù)1的完成率為80%(10個人中有8人完成)但是我們卻沒有辦法保證當樣本數(shù)量為幾百人、幾千人,甚至當我們有上萬用戶在使用這個功能時,完成率還會是80%。

如果想要知道在未知的用戶總數(shù)中能夠完成該任務(wù)的比例范圍,我們需要在這一樣本范圍上計算出一個二項式的置信區(qū)間。Wald校正區(qū)間二項式置信區(qū)間是最常用的方法,對于任何一種被編為二進制碼的測試都適用。并且除完成率外,另一種衡量可用性的常用方法是統(tǒng)計遇到了同一問題的用戶數(shù)。在使用Wald校正區(qū)間公式時,如果3/5的用戶遇到了UI設(shè)計上的一個問題,那么我們可以95%的肯定,所有實際用戶中23%-88%比例的人可能遇到了同樣的問題。

任務(wù)完成時間

(1)定義

即用戶花費在一個任務(wù)上的時間,通常為成功完成一個預(yù)先設(shè)置的任務(wù)場景的時間總和。測量和分析任務(wù)持續(xù)時間的方式一般有三種:

  1. 任務(wù)完成時間:用戶成功完成任務(wù)的時間;
  2. 直到用戶失敗為止所用的時間:從開始直到用戶放棄或者未正確完成任務(wù)的時間;
  3. 任務(wù)總時間:用戶花費在一個任務(wù)上的總持續(xù)時間。

(2)測量單位

可以是毫秒、秒、分鐘、小時、天或年,通常以均值(算術(shù)平均數(shù)或中位數(shù),兩者適用場景不同)。

(3)算術(shù)平均數(shù) VS 中位數(shù)

到目前為止,我們最常用的是將算術(shù)平均數(shù)作為衡量集中趨勢和等級量表的平均數(shù)代表,但是當樣本分布呈現(xiàn)為左偏態(tài)和右偏態(tài)時,中位數(shù)明顯要比算術(shù)平均數(shù)更加合適(當為正太分布時中位數(shù)與算術(shù)平均數(shù)相近)。這樣說來,是否以后都用中位數(shù)來報告平均任務(wù)時長就萬事大吉了?答案是NO,別忘記了中位數(shù)與生俱來的兩大缺點:變異性與偏差。關(guān)于中位數(shù)的變異性與偏差有疑問的同學可查資料或者后臺留言哦,篇幅關(guān)系這里就不拓展解釋了。

圖5

(4)幾何均值的計算方法

對于小樣本而言(小于25人),幾何均值比中位數(shù)、算術(shù)平均數(shù)都更適用(Sauro and Lewis,2010)。對于樣本量更大的可用性測試而言,中位數(shù)則是最合適的估算方法。計算幾何均值,首先要將原始任務(wù)時長數(shù)據(jù)進行對數(shù)轉(zhuǎn)換,然后計算所得到轉(zhuǎn)化值的平均數(shù),最后再將其轉(zhuǎn)化回原尺度。工具上可以用Excel函數(shù)=LN( )進行對數(shù)轉(zhuǎn)換運算,或者使用大多數(shù)計算器上都有的“l(fā)n”按鈕。

滿意度評分

(1)定義

即用戶使用系統(tǒng)時感知到的主觀評價,可在完成一項任務(wù)之后立即完成(任務(wù)評估問卷),也可以一系列可用性環(huán)節(jié)結(jié)束后完成(整體評估問卷),更可以獨立于可用性測試使用。

圖6

(2)測量工具

雖然可以自己編寫感知易用性的問題,但采用當前可使用的標準化問卷,評估結(jié)果會更加可靠。對用研來說標準化問卷是最熟悉的工具與助手,這類可重復(fù)使用的問卷,一般由一組特定的問題+使用特定的格式+按照特定的順序呈現(xiàn),基于用戶的答案產(chǎn)生度量值后也用特地的方法進行統(tǒng)計?;诓煌难芯繉ο蠛湍康模蛇x用的標準化問卷也不盡相同,所有的標準化問卷都有其優(yōu)點和缺點,每種問卷都或許在你特定的情況下是最合適的。

常見標準化量表:

圖7

(3)比較方法

如果要判斷例如SUS可用性評分、NPS或者任務(wù)時長此類連續(xù)變量的均值之間是否存在顯著差異,你首先需要明確的是這是場被試間測試還是被試內(nèi)測試。并且對于不同的數(shù)據(jù)類型(連續(xù)變量or 分類變量)、用戶小組數(shù)、樣本數(shù),均有不同的統(tǒng)計方法。

下圖為連續(xù)型數(shù)據(jù)(滿意度評分、任務(wù)時長)選擇統(tǒng)計方法的決策圖。離散型二進制數(shù)據(jù)(任務(wù)完成率)的統(tǒng)計決策圖,后面有時間會補上。

圖8

可用性問題清單

(1)定義

一般包括所屬模塊、問題編號、問題描述、問題層級(一到四級)、處理優(yōu)先級以及跟進人。

嚴重等級判斷與可用性準則這里就不重復(fù)介紹了,此前的上篇已介紹過。

(2)問題優(yōu)先級的計算方式

[(問題頻數(shù)X4)/總參與人數(shù)]+嚴重等級

如一個UI問題被提到3次,總參與人數(shù)為10人,嚴重等級為三級(一級最高),那么相應(yīng)的優(yōu)先級則計算為四級(4.2四舍五入為4),即表示該UI問題的修復(fù)優(yōu)先級為最低四級。

但是在實際工作中,可用性測試中發(fā)現(xiàn)的問題,當確定好嚴重等級后,修復(fù)的優(yōu)先級除了問題頻數(shù),還需要綜合考慮開發(fā)成本、業(yè)務(wù)成本,最后需要用研人員與產(chǎn)品經(jīng)理共同確定修復(fù)問題的優(yōu)先級。上方公式僅可作為用研根據(jù)問題頻次與嚴重等級去判斷修復(fù)優(yōu)先級的算法之一。

總結(jié)

關(guān)于可用性測試中收集的指標如何量化,本篇中就介紹到這里。其實對于可探索、可深究的問題仍有許多,例如一個復(fù)合型的度量指標是否可以全權(quán)代表可用性測試中其他指標?小樣本數(shù)據(jù)的量化是否真的可以達到一個可靠的置信區(qū)間?

帶著問題希望大家可以繼續(xù)深入探討,本次拋磚引玉的介紹就到這里,歡迎交流。

 

作者:媛媛大王(微信公眾號:用戶研究社?),資深用戶研究員

本文由 @媛媛大王 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 專家~有個問題想請教下,像「任務(wù)完成率」「任務(wù)完成時長」「錯誤次數(shù)」「提示次數(shù)」這些指標,能否捏合成一個上一層的定量指標?有沒有相關(guān)的案例,比如在產(chǎn)品發(fā)展不同階段,通過不同指標整合的公式來測量對比提升的效果這樣的?求分享~

    來自北京 回復(fù)
  2. 那個圖里,左右偏態(tài)說反啦

    來自北京 回復(fù)
  3. 對【問題優(yōu)先級的計算方式】有個疑惑,比如一個問題被提到8次,總參與人數(shù)為10人,嚴重等級為三級,那么按您說的計算則為8*4/10+3=6.2,那么應(yīng)該屬于1、2、3、4哪個級別?

    來自北京 回復(fù)
  4. 學習了

    來自北京 回復(fù)
  5. 標準化量表確實非常少,這些量表都有相當?shù)睦碚摶A(chǔ)但對于告訴發(fā)展的互聯(lián)網(wǎng),略顯的有些遲鈍。我原來發(fā)表過一篇關(guān)于sus量表的文章,歡迎交流

    來自北京 回復(fù)
    1. 厲害了word哥

      來自北京 回復(fù)
    2. 的確,從國外引進的量表很多未經(jīng)過國內(nèi)市場的改編,對于互聯(lián)網(wǎng)產(chǎn)品的適應(yīng)力較差,所以基本我們在用的時候都會根據(jù)公司的產(chǎn)品和用戶特性進行調(diào)整,歡迎交流~!

      來自浙江 回復(fù)
    3. 我這里還有一篇《SUS 量表在用戶體驗度量中的應(yīng)用》顯示正在排版,可能是小編要控制每天產(chǎn)量,到時再交流

      來自浙江 回復(fù)