用戶體驗評估方法匯:可用性測試

2 評論 33174 瀏覽 153 收藏 14 分鐘

文章主要圍繞可用性測試展開分享。可用性測試在產品評估體系里一直被稱為無往而不利的神器。

基本概念

今天我們來分享可用性測試,它在產品評估體系里一直被稱為無往而不利的神器!而概念的分歧和模糊,我們在討論它的時候經常混亂,所以我不得不用許多字數將概念澄清:

1.可用性

根據ISO?9241-11的定義,可用性是指在特定環境下,產品為特定用戶用于特定目的時所具有的有效性、效率和主觀滿意度。

  1. 有效性是用戶完成特定任務和達成特定目標時所具有的正確和完整程度。
  2. 效率是用戶完成任務的正確和完成程度與所用資源(如時間)之間的比率。
  3. 主觀滿意度是用戶在使用產品過程中所感受到的主觀滿意和接受程度。

Nielsen認為可用性有五個指標,分別是易學性、易記性、容錯性、交互效率和用戶滿意度。產品只有在每個指標上都達到很好的水品,才具有高的可用性。

  1. 易學性:產品是否易于學習
  2. 交互效率:即客戶使用產品完成具體任務的效率
  3. 易記性:客戶擱置某產品一段時間后是否仍然記得如何操作
  4. 容錯性:操作錯誤出現的頻率和嚴重程度如何

總的來說,可用性直接關系著產品是否能滿足用戶的功能性需要,是用戶體驗中的一種工具性的成分。可用性是交互式產品的重要質量指標,如果人們無法使用或不愿意某個功能,那么該功能的存在也就沒什么意義了。

1.2可用性測試

可用性測試是在產品或產品原型階段實施的通過觀察或訪談或二者相結合的方法,發現產品或產品原型存在的可用性問題,為設計改進提供依據。可用性測試不是用來評估產品整體的用戶體驗,主要是發現潛在的誤解或功能在使用時存在的錯誤。

可用性測試的具體操作概念包括觀察和訪談:

  • 觀察:讓一群具有代表性的用戶對產品進行典型操作,同時觀察員和開發人員在一旁觀察,聆聽,做記錄。動作的起始位置、習慣順序、操作的流暢程度、是否有遲疑、循環、肢體和面部表情的變化等等。
  • 訪談:讓用戶陳述使用產品的體驗感受,遇到的問題,以及由自身出發提出建議。

您這么操作是為了??這里遇到什么問題了?總體使用感受怎么樣?您覺得怎么設計會更好用?…

該產品可能是一個網站,軟件,或者其他任何產品,它可能尚未成型。測試可以是早期的紙上原型測試,也可以是后期成品的測試。

適合用階段

一般在產品概念初始原型(如圖紙/稿紙)提出之后,即可進行簡單的可用性測;后期做出高保真原型之后,可以進行更深入的測試;直至產品上線以后,也可對比競品進行比較測試。

分類

目前的可用性評估方法超過20種,按照參與可用性評估的人員劃分,可以分為專家評估和用戶評估;按照評估所處于的軟件開發階段,可以將可用性評估劃分為形成性評估和總結性評估。形成性評估是指在軟件開發或改進過程中,請用戶對產品或原型進行測試,通過測試后收集的數據來改進產品或設計直至達到所要求的可用性目標。形成性評估的目標是發現盡可能多的可用性問題,通過修復可用性問題實現軟件可用性的提高,總結性評估的目的是橫向評估多個版本或者多個產品,輸出評估數據進行對比。網站可用性測試包含的步驟有:定義明確的目標和目的,安裝測試環境,選擇合適的受眾,進行測試和報告結果。

1.認知預演

認知預演(Cognitive?Walkthroughs)是由Wharton等(1990)提出的,該方法首先要定義目標用戶、代表性的測試任務、每個任務正確的行動順序、用戶界面,然后進行行動預演并不斷地提出問題,包括用戶能否建立達到任務目的,用戶能否獲得有效的行動計劃,用戶能否采用適當的操作步驟,用戶能否根據系統的反饋信息評價是否完成任務,最后進行評論,諸如要達到什么效果,某個行動是否有效,某個行動是否恰當,某個狀況是否良好。

  • 該方法優點在于能夠使用任何低保真原型,包括紙原型。
  • 該方法缺點在于:評價人不是真實的用戶,不能很好地代表用戶。

例如:對于安卓橫屏原型的認知預演,由團隊成員完成,主要是產品經理。

2.啟發式評估

啟發式評估?(Heuristic?Evaluation)由Nielsen和Molich(1990)提出,由多位評價人(通常4至6人)根據可用性原則反復瀏覽系統各個界面,獨立評估系統,允許各位評價人在獨立完成評估之后討論各自的發現,共同找出可用性問題。

該方法的優點:專家決斷比較快、使用資源少,能夠提供綜合評價,評價機動性好;

不足之處:

  1. 是會受到專家的主觀影響;
  2. 是沒有規定任務,會造成專家評估的不一致;
  3. 是評價后期階段由于評價人的原因造成信度降低;
  4. 是專家評估與用戶的期待存在差距,所發現的問題僅能代表專家的意思。

例如:對于安卓橫屏原型的啟發式評估,由產品經理、用戶研究員、技術開發共5名成員完成。

操作使用完原型之后,按照事先擬定的評估原則表進行評分和備注,隨后根據所有評估原則表結果總結并討論;評估原則表如下:

3.用戶測試法

用戶測試法(User?Test)就是讓用戶真正地使用軟件系統,由實驗人員對實驗過程進行觀察、記錄和測量。這種方法可以準確地反饋用戶的使用表現、反映用戶的需求,是一種非常有效的方法。用戶測試可分為實驗室測試和現場測試。實驗室測試是在可用性測試實驗室里進行的,而現場測試是由可用性測試人員到用戶的實際使用現場進行觀察和測試。

用戶測試之后評估人員需要匯編和總結測試中獲得的數據,例如完成時間的平均值、中間值、范圍和標準偏差,用戶成功完成任務的百分比,對于單個交互,用戶做出各種不同傾向性懸著的直方圖表示等。然后對數據進行分析,并根據問題的嚴重程度和緊急程度排序撰寫最終測試報告。

例如:對于安卓橫屏原型的用戶測試,由公司內部員工(已排除相關產品和技術開發人員)6名用戶完成。

測試腳本于事先根據測試需求擬定,用于引導用戶觸及典型操作,也用于測試后評估問題優先級用。如下:

注意事項

  1. 你測試的是產品,而不是使用者。當用戶不能按預期完成任務時,需要改變的是產品而非用戶。
  2. 更多地依靠用戶的表現(操作,使用時間,錯誤率等),而不是他們的偏好(主觀態度,滿意度評價等)。
  3. 基于用戶體驗,找出問題的最佳解決方法

測試流程

1.定義并招募被試

選擇具有代表性的用戶可以減少樣本數量,提高研究效率。一般來說,參與可用性測試的產品的用戶或近期使用過競品的用戶。在定義目標用戶時,可以從三個角度入手:

  1. 人口學特征,性別、年齡、學歷、職業、地域等
  2. 使用動機,如買家/賣家、企業/個人等
  3. 使用經驗,如產品使用時長、競品使用情況、互聯網使用年限等

應該招募多少用戶呢?據統計5名用戶大約可以發現85%的問題。一般在迭代測試中,用戶數量一般控制在5-10個。如果用戶類型較多事,可安排每個類型3-5名用戶。

2.典型任務創建

首先要通過內部溝通確定一份功能點清單。一般選擇產品或頁面5-8個功能點進行測試,這些功能點可以是用戶常用功能、新增功能、關注度高的功能及先前版本中存在問題的功能等。在可用性測試中,以用戶任務的方式展示出來。任務要能夠代表典型用戶的行為,并且聚焦在我們關心的功能點上。任務設置要具體、可執行,盡量接近用戶使用的實際情況。聯系產品或頁面的使用場景,給用戶提供執行任務的情境信息,如告訴用戶為什么要查找信息、為什么要購買物品等。避免專業術語或內部用語。

3.測試結果整理——可用性問題分級

經過可用性測試,可能會發現產品或頁面的很多可用性問題。為了方便內部人員決策,需要對這些可用性問題進行分類或等級界定。常見的分級方法有:

五級劃分

  1. 5級:無關緊要的錯誤
  2. 4級:問題雖小但卻讓用戶焦躁
  3. 3級:中等程度,耗費時間但不會丟失數據
  4. 2級:導致數據丟失的嚴重問題
  5. 1級:災難性錯誤,導致數據的丟失或者軟硬件的損壞

三級劃分

  • 低:會讓參加者心煩或沮喪,但不會導致任務失敗。
  • 中:與任務的失敗有一定關系但不直接導致任務的失敗。
  • 高:直接導致任務失敗的問題。

二維劃分,根據出現頻率和影響嚴重性

  • 頻率低 ?、頻率高
  • 影響大、中等、嚴重
  • 影響小、不嚴重 、中等

決策樹,根據以下三個因素綜合決定的:

  • 頻率(Frequency):偶然的or經常性的
  • 影響(Impact):容易克服or很難克服
  • 持續性(Persistence):一次性的or持續的

多維劃分,根據問題所屬范圍和問題出現頻率

  • 問題所屬范圍:交互、視覺、文案、功能、bug
  • 問題出現頻率:N個人出現同樣的錯誤

最后,根據分級后的可用性問題,安排優先級去解決和調整??捎眯詼y試在產品迭代中,可以迅速敏捷地使用,通常出現了各種各樣的變式,我們在實際使用中應該結合本項目的實際情況和已有的人力、物力來靈活使用。

 

作者:大狗狗,互聯網金融產品用戶研究員,心理學二年級學渣,公眾號:同花順UED(公眾號:Mob-HitThink-UED)

本文由 @大狗狗 原創發布于人人都是產品經理。未經許可,禁止轉載

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 學習了

    來自廣東 回復
  2. 截圖的紅配黑,兩個色系都這么深,怎么看得見呢?這種截圖建議多和你們美工溝通下

    來自福建 回復