亚洲综合无码日韩国产加勒比,亚洲欧美成人自偷自拍

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

移動APP可用性測試：數(shù)據(jù)的量化處理（下）

媛媛大王

2016-10-09

8 評論 17445 瀏覽 80 收藏

14 分鐘

作為一名用戶研究從業(yè)者，想找到一本真正可以用來指導(dǎo)實踐的資料卻是十分難得。本文是繼《移動APP可用性測試（上篇）：實驗室測試與現(xiàn)場測試對比》后的第二篇《量化研究》，主要和大家來聊一聊，拿到可用性測試數(shù)據(jù)后的量化方式。綜合上下兩篇文章的主旨來看，解答了如何科學地選擇測試場地、如何量化可用性測試結(jié)果的兩個“冷門問題”。

量化數(shù)據(jù)

用戶研究從業(yè)者常常在做可用性測試的時候碰到這樣的問題，可用性測試作為一種定性的研究方法，拿到完成率、完成時間以及滿意度等結(jié)果時是簡單做下描述性統(tǒng)計分析（畢竟我們稱之為定性），還是可以進一步量化、標準化比較呢？

不是所有的數(shù)據(jù)都可以拿來量化，這取決于這是哪一種可用性測試。

美國教育家和心理學家Scriven（1967）曾將用來測試學習成果的考試分為兩類，一類是Formative test即形成性測試，目的是通過及時的反饋來改進學習（例如隨堂聽寫）；另一類是Summative testF即總結(jié)性測試，目的是通過測試成績來評估學習的效果（例如期末考試）。

那么，可用性測試如果也分為形成性測試和總結(jié)性測試的話，結(jié)果會有什么差異嗎？

形成性測試

大部分的可用性測試都是形成性測試，以查找和修復(fù)可用性問題為目的，數(shù)據(jù)也是以問題描述和設(shè)計建議的形式來輸出。這時候的量化一般僅以問題發(fā)生頻率和嚴重等級為代表，任務(wù)完成率、完成時間因沒有可對比性，所以只做描述性分析。

總結(jié)性測試

而總結(jié)性測試既然目的是用數(shù)據(jù)指標去度量一個應(yīng)用程序的可用性，那么這個指標必然需要一個可以比較的對象，不然又如何去評價這個指標代表的可用性到底是好還是壞。如果以“比較的對象”來劃分，總結(jié)性測試則又可以分為“基準測試”和“比較測試”。

（1）基準可用性測試

基準可用性測試的目標是描述一個應(yīng)用程序相對于基準目標的可用性程度（如用你的每門期末考試的成績?nèi)ズ椭邦A(yù)定的目標成績進行比較），那么這也就提供了改善產(chǎn)品修復(fù)問題的著力點（哪門課沒達到預(yù)期目標就重點復(fù)習），同時為比較改善后的效果提供了基線（重點復(fù)習后下次考試是否達到目標）。

（2）比較可用性測試

比較可用性測試，一般設(shè)計兩個及以上的應(yīng)用程序進行比較?？梢允钱斍鞍姹九c前期舊版本的比較，或者是競品之間的比較。如果去設(shè)計一場比較可用性測試你需要考慮清楚是“被試內(nèi)測試”（相同的用戶完成所有產(chǎn)品的任務(wù)）還是“被試間測試”（不同的用戶分別完成不同產(chǎn)品的任務(wù)）。

被試內(nèi)測試：在用戶數(shù)較少（或能夠給予的酬金有限，無法邀請多人參與）時可以考慮讓每個用戶分別去完成各款產(chǎn)品的測試，但是必須要切記不能讓所有用戶在每個產(chǎn)品上的先后順序保持一致（打破順序效應(yīng)）。
被試間測試：在用戶數(shù)充足時可以考慮每款產(chǎn)品分別找不同的用戶進行測試，但是這里需要注意的則是必須保證每款產(chǎn)品間的用戶個體差異不大（即有相似的年齡、性別、學習經(jīng)歷、競品使用經(jīng)歷），如果需要在每組內(nèi)劃分為新手用戶、中間用戶、專家用戶，則須保證各組中三類角色的人數(shù)占比一致。

數(shù)據(jù)統(tǒng)計

雖然對如何測量有效性、效率和滿意度沒有具體的指導(dǎo)方針，但Sauro and Lewis在一項針對近100個總結(jié)性可用性測試的調(diào)研揭示了從業(yè)者收集的典型數(shù)據(jù)。大多數(shù)的測試包含任務(wù)完成率（失敗率）、任務(wù)時間、主觀評價、尋求幫助的次數(shù)、可用性問題清單（通常包括問題頻次和嚴重等級）。

本文主要就以上幾個指標的量化處理進行介紹，更多可用性測試中收集測量指標的實操技巧，請參見《A Practical Guide to Measuring Usability》（Sauro,2010）和《Measuring the User Experience》（Tullis andAlbert,2008）。

任務(wù)完成率

（1）定義

也稱為成功率，是最基礎(chǔ)的可用性測量指標（Nielsen，2001）。

（2）計算

通常以二進制測量形式采集，以任務(wù)成功完成以編碼1、失敗為編碼0。

注：二進制完成率即是基礎(chǔ)可用性度量指標，也是應(yīng)用到所有科學領(lǐng)域的度量指標。

（3）置信區(qū)間

雖然我們計算出A產(chǎn)品任務(wù)1的完成率為80%（10個人中有8人完成）但是我們卻沒有辦法保證當樣本數(shù)量為幾百人、幾千人，甚至當我們有上萬用戶在使用這個功能時，完成率還會是80%。

如果想要知道在未知的用戶總數(shù)中能夠完成該任務(wù)的比例范圍，我們需要在這一樣本范圍上計算出一個二項式的置信區(qū)間。Wald校正區(qū)間二項式置信區(qū)間是最常用的方法，對于任何一種被編為二進制碼的測試都適用。并且除完成率外，另一種衡量可用性的常用方法是統(tǒng)計遇到了同一問題的用戶數(shù)。在使用Wald校正區(qū)間公式時，如果3/5的用戶遇到了UI設(shè)計上的一個問題，那么我們可以95%的肯定，所有實際用戶中23%-88%比例的人可能遇到了同樣的問題。

任務(wù)完成時間

（1）定義

即用戶花費在一個任務(wù)上的時間，通常為成功完成一個預(yù)先設(shè)置的任務(wù)場景的時間總和。測量和分析任務(wù)持續(xù)時間的方式一般有三種：

任務(wù)完成時間：用戶成功完成任務(wù)的時間；
直到用戶失敗為止所用的時間：從開始直到用戶放棄或者未正確完成任務(wù)的時間；
任務(wù)總時間：用戶花費在一個任務(wù)上的總持續(xù)時間。

（2）測量單位

可以是毫秒、秒、分鐘、小時、天或年，通常以均值（算術(shù)平均數(shù)或中位數(shù)，兩者適用場景不同）。

（3）算術(shù)平均數(shù) VS 中位數(shù)

到目前為止，我們最常用的是將算術(shù)平均數(shù)作為衡量集中趨勢和等級量表的平均數(shù)代表，但是當樣本分布呈現(xiàn)為左偏態(tài)和右偏態(tài)時，中位數(shù)明顯要比算術(shù)平均數(shù)更加合適（當為正太分布時中位數(shù)與算術(shù)平均數(shù)相近）。這樣說來，是否以后都用中位數(shù)來報告平均任務(wù)時長就萬事大吉了？答案是NO，別忘記了中位數(shù)與生俱來的兩大缺點：變異性與偏差。關(guān)于中位數(shù)的變異性與偏差有疑問的同學可查資料或者后臺留言哦，篇幅關(guān)系這里就不拓展解釋了。

（4）幾何均值的計算方法

對于小樣本而言（小于25人），幾何均值比中位數(shù)、算術(shù)平均數(shù)都更適用（Sauro and Lewis，2010）。對于樣本量更大的可用性測試而言，中位數(shù)則是最合適的估算方法。計算幾何均值，首先要將原始任務(wù)時長數(shù)據(jù)進行對數(shù)轉(zhuǎn)換，然后計算所得到轉(zhuǎn)化值的平均數(shù)，最后再將其轉(zhuǎn)化回原尺度。工具上可以用Excel函數(shù)=LN（）進行對數(shù)轉(zhuǎn)換運算，或者使用大多數(shù)計算器上都有的“l(fā)n”按鈕。

滿意度評分

（1）定義

即用戶使用系統(tǒng)時感知到的主觀評價，可在完成一項任務(wù)之后立即完成（任務(wù)評估問卷），也可以一系列可用性環(huán)節(jié)結(jié)束后完成（整體評估問卷），更可以獨立于可用性測試使用。

（2）測量工具

雖然可以自己編寫感知易用性的問題，但采用當前可使用的標準化問卷，評估結(jié)果會更加可靠。對用研來說標準化問卷是最熟悉的工具與助手，這類可重復(fù)使用的問卷，一般由一組特定的問題+使用特定的格式+按照特定的順序呈現(xiàn)，基于用戶的答案產(chǎn)生度量值后也用特地的方法進行統(tǒng)計?；诓煌难芯繉ο蠛湍康模蛇x用的標準化問卷也不盡相同，所有的標準化問卷都有其優(yōu)點和缺點，每種問卷都或許在你特定的情況下是最合適的。

常見標準化量表：

（3）比較方法

如果要判斷例如SUS可用性評分、NPS或者任務(wù)時長此類連續(xù)變量的均值之間是否存在顯著差異，你首先需要明確的是這是場被試間測試還是被試內(nèi)測試。并且對于不同的數(shù)據(jù)類型（連續(xù)變量or 分類變量）、用戶小組數(shù)、樣本數(shù)，均有不同的統(tǒng)計方法。

下圖為連續(xù)型數(shù)據(jù)（滿意度評分、任務(wù)時長）選擇統(tǒng)計方法的決策圖。離散型二進制數(shù)據(jù)（任務(wù)完成率）的統(tǒng)計決策圖，后面有時間會補上。

可用性問題清單

（1）定義

一般包括所屬模塊、問題編號、問題描述、問題層級（一到四級）、處理優(yōu)先級以及跟進人。

嚴重等級判斷與可用性準則這里就不重復(fù)介紹了，此前的上篇已介紹過。

（2）問題優(yōu)先級的計算方式：

[（問題頻數(shù)X4）/總參與人數(shù)]+嚴重等級

如一個UI問題被提到3次，總參與人數(shù)為10人，嚴重等級為三級（一級最高），那么相應(yīng)的優(yōu)先級則計算為四級（4.2四舍五入為4），即表示該UI問題的修復(fù)優(yōu)先級為最低四級。

但是在實際工作中，可用性測試中發(fā)現(xiàn)的問題，當確定好嚴重等級后，修復(fù)的優(yōu)先級除了問題頻數(shù)，還需要綜合考慮開發(fā)成本、業(yè)務(wù)成本，最后需要用研人員與產(chǎn)品經(jīng)理共同確定修復(fù)問題的優(yōu)先級。上方公式僅可作為用研根據(jù)問題頻次與嚴重等級去判斷修復(fù)優(yōu)先級的算法之一。

總結(jié)

關(guān)于可用性測試中收集的指標如何量化，本篇中就介紹到這里。其實對于可探索、可深究的問題仍有許多，例如一個復(fù)合型的度量指標是否可以全權(quán)代表可用性測試中其他指標？小樣本數(shù)據(jù)的量化是否真的可以達到一個可靠的置信區(qū)間？

帶著問題希望大家可以繼續(xù)深入探討，本次拋磚引玉的介紹就到這里，歡迎交流。

作者：媛媛大王（微信公眾號：用戶研究社?），資深用戶研究員

本文由 @媛媛大王原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

如何打造一款觸動人心的APP？文章被收錄于該專欄

共 20 篇文章45407 人已學習

媛媛大王

用戶研究經(jīng)理公眾號[用戶研究社]博主

14篇作品 280457總閱讀量

JTBD在產(chǎn)品體驗設(shè)計中的應(yīng)用

09-145247 瀏覽

淘寶在抖快尋找“薇婭”

05-191728 瀏覽

喜茶&FENDI事件營銷：給品牌從業(yè)者的啟示錄

05-235423 瀏覽

尋找正確的問題，而不是正確的解決方案

04-146802 瀏覽

產(chǎn)品轉(zhuǎn)型-業(yè)財融合知識梳理

11-161235 瀏覽

評論

Jasmine

專家~有個問題想請教下，像「任務(wù)完成率」「任務(wù)完成時長」「錯誤次數(shù)」「提示次數(shù)」這些指標，能否捏合成一個上一層的定量指標？有沒有相關(guān)的案例，比如在產(chǎn)品發(fā)展不同階段，通過不同指標整合的公式來測量對比提升的效果這樣的？求分享~

最近來自北京回復(fù)
.

那個圖里，左右偏態(tài)說反啦

最近來自北京回復(fù)
Sissi

對【問題優(yōu)先級的計算方式】有個疑惑，比如一個問題被提到8次，總參與人數(shù)為10人，嚴重等級為三級，那么按您說的計算則為8*4/10+3=6.2，那么應(yīng)該屬于1、2、3、4哪個級別？

最近來自北京回復(fù)
少帥從良

學習了

最近來自北京回復(fù)
白白說話

標準化量表確實非常少，這些量表都有相當?shù)睦碚摶A(chǔ)但對于告訴發(fā)展的互聯(lián)網(wǎng)，略顯的有些遲鈍。我原來發(fā)表過一篇關(guān)于sus量表的文章，歡迎交流

最近來自北京回復(fù)
1. 少帥從良回復(fù)白白說話
  
  厲害了word哥
  
  最近來自北京回復(fù)
2. 媛媛大王作者回復(fù)白白說話
  
  的確，從國外引進的量表很多未經(jīng)過國內(nèi)市場的改編，對于互聯(lián)網(wǎng)產(chǎn)品的適應(yīng)力較差，所以基本我們在用的時候都會根據(jù)公司的產(chǎn)品和用戶特性進行調(diào)整，歡迎交流~！
  
  最近來自浙江回復(fù)
3. 媛媛大王作者回復(fù)白白說話
  
  我這里還有一篇《SUS 量表在用戶體驗度量中的應(yīng)用》顯示正在排版，可能是小編要控制每天產(chǎn)量，到時再交流
  
  最近來自浙江回復(fù)