量化用戶研究:可用性測試
編輯導語:對用戶進行研究是研發產品、創造服務的一個前提,那么什么是用戶研究、怎么做用戶研究呢?這篇文章對這兩個問題進行了一個非常詳細的解答,一起來看看吧。
一、WHAT? 什么是用戶研究?
用戶研究聽起來是個非常大的學科和話題,沒有具象的描述和切實的研究方法就顯得虛無縹緲,讓人有種霧里看花的感覺。
用戶研究和用戶體驗一樣,在國外市場得到驗證、認可并被不同行業的企業所接受,而國內市場處于萌芽階段,只有部分行業的頭部企業對其有較為清晰的認知和應用。
那么怎么定義用戶研究?
首先,用戶研究的目的是了解用戶,對用戶有更清晰、具象的畫像,是一系列研究方法的概括型的名稱。
聚焦互聯網行業,什么崗位的同學最需要關注和學習用戶研究方法?與用戶、數據打交道的崗位需要對相關用研方法和分析方法有不同程度了解和應用能力,例如,用戶研究員、市場研究員、數據分析師、產品經理、體驗設計師、交互設計師等等。
作為體驗設計師或交互設計師,可以通過研究方法對用戶目標、需求和能力的系統研究,用于指導設計、產品結構或者工具的優化,提升用戶工作和生活體驗。
二、HOW? 怎么做用戶研究?
研究中包含的用研方法有很多,可以根據實際場景和資源選擇適合的方法,目前常用的實用性、可操作性比較強的四大方法:可用性測試、網站訪客(埋點數據)、用戶調查、A/B Test。
在設計過程中的每個階段,用戶研究是都需要做的工作,但很多時候由于工期較短,deadline在前,設計師在產品設計初期沒有辦法做到較為完善的用戶研究,那么這部分工作就會被延后,在驗證階段研究任務就會變得比較重,后期的優化對此依賴性也比較強。
可用性測試是設計師在驗證階段相對比較能貼近用戶的用研方式,在測試過程中通過觀察用戶行為,從即時的反饋中更容易獲得貼近真實的定性數據,用對話溝通的方式深度挖掘用戶遇到的問題,從而鎖定優化重點。
1. 了解可用性測試
(1)可用性測試的優勢
可用性測試是確定用戶是否完成目標的核心方式,它與其他用戶研究方法有許多相同的測試指標,并且能夠得出較多可用的定性數據,可以收集的數據類型也比較多,例如,完成率、出錯數、任務時間、任務水平的滿意度、測試水平的滿意度、尋求幫助的次數和可用性問題清單,這些數據極大的便利了后續的分析工作,幫助多維度的判斷產品的狀態、用戶的滿意度、體驗問題等等。
(2)可用性測試的類型
可用性測試可以分為兩種測試類型:形成性測試(Formative Test)和總結性測試(Summative Test)。
①形成性測試
主要作用于查找與修復可用性問題,提供及時反饋便于改進,是設計師重點參與的測試類型。
- 通常以小樣本量的定性調查
- 數據以問題描述和設計建議形成輸出
- 采用頻率和嚴重性為指標量化問題,追蹤那些用戶用到什么樣的問題,衡量完成任務時長,并判定他們是否成功的完成任務等
②總結性測試
用指標度量可用性,用來評估效果,其中又分為基準測試和比較測試。
(3)可采集的數據
樣本量:通常大于30,當數據量小于10可通過統計學方法計算得到有效統計分析結論。
代表性:樣本能夠代表預期要描述的用戶群,若存在不同用戶群組中有重要差異因素的使用分層抽樣(Stratified Sampling)的方式。
隨機性:考慮所有重要變量,設計理想樣本,合理合并用戶群組。
測試數據:現場/遠程測試,觀察記錄用戶用戶行為,與用戶互動深入挖掘問題。
完成率:即成功率,完成=1、失敗=0,完成率=完成任務用戶數/用戶總數。
可用性問題:根據問題出現的頻率和影響程度評估嚴重性、優先級。
任務時間:任務完成時間、直到用戶失敗所用的時間、任務總時間。
出錯數:嘗試任務產生的無意識的出錯數量,診斷失敗原因,預判可能出現的場景。
滿意度評分:使用標準化可用性問卷,回收數據計算得出。
復合分數:復合型總結可為用戶體驗提供更好的總體描述。
2. 可用性測試問卷
經過長期的研究和市場驗證,目前已沉淀出很多標準化的可用性問卷,不同的問卷的評估針對性不一樣,可以滿足大部分用研需求。
使用標準化的問卷是因為這些問卷是經過大量的使用后驗證校準后產生的,是被認可具有通識性的衡量標準,這些問卷都具備客觀性、重復性、量化、經濟、溝通、科學的普適性的優質屬性。
(1)標準化的可用性測試問卷
問卷類型主要可以分為以下兩大類:
列表中的問卷大部分是需要繳納一定的費用后才能使用,但其中系統可用性整體評估問卷、軟件可用性問卷、場景后問卷是標準可用性問卷中可以免費使用的。
應用廣泛且被專家推薦的測試問卷是:軟件可用性問卷主要針對系統或功能進行整體評估,問題設計精煉清晰,使用快捷方便;單項難易度問題追求的是心理測試的簡單和適用性,有5分和7分制,7分制的可靠性更高;主觀腦力負荷問題是在線測試,靈敏性更好。
綜合評估下,軟件可用性問卷(Software Usability Scale,SUS)是設計日常中最合適最經濟實用的測試問卷。
(2)軟件可用性問卷(SUS)
軟件可用性問卷是可用性測試結束時的主觀性評估問卷,應用廣泛,測試后該問卷使用占比約43%。
整個問卷共10題,每題為5分制,奇數項為正面描述,偶數項為反面描述,可以通過修改問題文案聚焦測試范圍;如有需要可以將偶數項的問題調整為正面描述,但數據驗證調整為正面描述的問卷結果與包含負面描述的問卷差異不大,不影響問卷的測試結論。
在完成測試任務后,用戶需快速完成各個題目,不進行過多思考,若用戶因某些原因無法完成其中某個題目,則視為選擇中間值。
(3)可用性、易用性抽取
問卷整體可以抽取部分題目作為子測量表來作為單獨的問卷有針對性的進行可用性和易學性測量,可用性由問卷中1-3、5-9題構成,易學性由問卷中4、10題構成。研究表明使用子測量表對量表的可信度的減低可忽略不計(0.92 → 0.91),并且使用子測量表可減少答題時間。
(4)分值計算
得分計算:范圍在0-4,每題進行轉化分值;奇數題(正面):原始分減去1,(x-1);偶數題(負面):5減去原始分,(5-x)
- SUS總分= 所有轉化過的分值相加 * 2.5, 多樣本算SUS總分均值。
- 可用性總分=所有轉化過的可用性分數相加*3.125。
- 易用性總分=所有轉化過的易用性分數相加*12.5。
3. 統計學描述方法
可用性測試因為耗費時間較長,能夠參與測試的用戶資源稀缺,回收樣本量小能夠收集到的樣本量一般會比較小。
樣本量小的情況下這個樣本量所能概括的整體是范圍比較大的,會存在較大誤差,那么在較為嚴謹的報告中,可能需要對所得分數和除測試樣本外的分值預期進行描述,這時候會涉及到統計學中常用的描述方式,即通過置信度及置信區間來描述,根據置信區間的下邊界看軟件是否低于行業標準。
(1)相關概念
置信區間是指在一定概率下包含樣本位置總體參數的這部分數值區間,通過計算置信區間來描述測試結果的概率。置信區間寬度和樣本量之間是一個逆平方根的關系, 樣本量越小,誤差越大,未知樣本數據可能所在的區間更大。
置信度就是說,你測得的均值,和總體真實情況的差距小于這個給定的值的概率,應該是1-α;換句話描述,即我們有1-α的信心認為,你測得的這個均值和總體的實際期望很接近了(測得的均值就是總體期望是很草率的,但是說,我有95%的把握認為我測得的均值,非常接近總體的期望了)。研究員可以選擇0%-100%之間的任意數值的置信度,通常設為90%或95%(最常用)。
臨界值是在原假設下,檢驗統計量在分布圖上的點,這些點定義一組要求否定原假設的值。
(2)置信區間計算
置信區間= (樣本平均值-誤差幅度)~(樣本平均值+誤差幅度)=(x -(x-μ))~(x +(x-μ))
- x = 樣本平均值
- 誤差幅度=臨界值*(樣本標準差/樣本量的平方根),即:(x – μ) =α* (s / sqrt(n))
- α=臨界值(Excel函數=TINV(1-置信度,樣本量-1))
- μ=被檢驗的基準值(行業標準)
- s=樣本的標準差(Excel函數=STDEVP(N1,N2,..))
- n=樣本量
tips:臨界值可以通過所設置信度和樣本量在t分布表中查找相應的值。
(3)可用性測試策劃應用
在做可用性測試前,需要進行很多準備,過程中也需要記錄很多相關的信息,初步嘗試的設計師可以參照以下步驟完成可用性測試的整個流程:
Step1:確定調研目標(目的、用戶、時間、環境)。
Step2:確定測試任務(任務內容、測試方案、SUS問卷地址),任務內容可以通過抽取用戶體驗地圖(User Journey Map)流程中的觸點設計,保證流程的完整性和任務的關聯性。
Step3:引導測試用戶完成可用性測試,過程中記錄測試時間、用戶遇到的問題、發生的頻率等等,記錄類型可以根據測試測中點進行記錄。
Step4: 用戶填寫SUS問卷,回收問卷分數進行計算,得出SUS分數、可用性分數、易用性分數的均值作為本次測試的結論。
Step5:作為補充,可以計算SUS樣本分數的置信區間,預期未被測到的目標用戶對產品的評分可能落在的區間,區間下限可橫向對比,看是否低于行業標準??梢悦枋鰹椤皹颖痉謹禈藴收`差約=5.34,置信區間為63.78~69.12;有95%的把握認為測得的均值接近總體期望,未測樣本分值將落在63.78~69.12之間,符合行業標準預期”。
Step6:通過測試過程中觀察用戶行為,探討用戶提出或下意識忽略的問題,并進行問題的記錄和分類。
Step7:用戶訪談記錄問題進行解析,對問題的嚴重程度進行評級,選出問題較多的部分并提供可能的解決辦法進行優化。
Step8:根據以上結論對測試進行總結性分析。
Reference:
- 數據:文中數據為樣例,非真實數據,僅作為演示用途
- 資料:《用戶體驗度量:量化用戶體驗的統計學方法》 — Jeff Sauro, Jame R Lewis
圖片:
- https://www.jianshu.com/p/d9346e4dd1b0
- https://www.pianshen.com/article/4953599654/
作者:藜漫;公眾號:酷家樂用戶體驗設計
本文由 @酷家樂用戶體驗設計 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Pexels,基于 CC0 協議
文中有關SUS的計算是否有誤?
原始數據:
3 5 4 3 4
3 3 4 2 3
4 3 3 4 5
3 2 4 2 3
4 3 3 2 4
2 3 4 2 3
4 3 4 4 5
3 3 2 4 3
3 3 3 4 3
2 3 2 3 3
轉化分值
2 4 3 2 3
2 2 1 3 2
3 2 2 3 4
2 3 1 3 2
3 2 2 1 3
3 2 1 3 2
3 2 3 3 4
2 2 3 1 2
2 2 2 3 2
3 2 3 2 2
五位用戶的SUS分值分別為62.5 57.5 52.5 60 65
SUS平均值為59.5
請問圖中的67.34是怎么得來的?
用戶研究對于一個新產品、一個新服務的開發還是挺重要的。
是的~