移動APP可用性測試:實驗室測試和現(xiàn)場測試的比較(上)

1 評論 18931 瀏覽 99 收藏 13 分鐘

當(dāng)測試一款移動APP的用戶界面時,現(xiàn)場測試可能不是最好的選擇;多數(shù)還是因為它比實驗室測試更加耗時。

可用性測試的重點

可用性測試是在移動APP在設(shè)計、投入市場后用來評估可用性的一種常用工具??捎眯詼y試實施時一般是使用發(fā)聲思考,即用戶在一個測試環(huán)境中被給予任務(wù),并鼓勵他們在嘗試完成任務(wù)時出聲思考。這能夠幫助可用性測試的主試即實驗者知道用戶界面(APP設(shè)計)是如何幫助用戶自然地思考和執(zhí)行操作,強調(diào)對于產(chǎn)品的特色和改善方法的認知。

用研工作

如何去定義一個可用性問題修改的緊迫性?

可用性問題的嚴重等級是一個重要的因素。當(dāng)這個問題阻止用戶任務(wù)完成時,就需要最緊急的修復(fù)行動了。Dumas和Redish(1993)使用了4個關(guān)鍵等級,至今仍被用戶研究員引用的較多:第一個等級為最嚴重的等級,表示最嚴重的問題,第四個等級為表示最輕的嚴重性。Kallio等人(2004)也將問題按嚴重性進行分類:高(導(dǎo)致任務(wù)執(zhí)行失?。械龋ú皇悄敲磭乐?,任務(wù)可以完成)和低(小問題)。

問題等級嚴重性

可用性準則

實驗室 VS 現(xiàn)場

傳統(tǒng)的實驗室測試

傳統(tǒng)的可用性測試一般是在可用性測試實驗室實施完成,如阿里、網(wǎng)易游戲都有專業(yè)的實驗室,一般是由一間類似于辦公室的區(qū)域和一面單向玻璃的可監(jiān)視房間組成。必須保障實驗室環(huán)境是一個安靜的空間,測試的用戶能夠全神貫注于任務(wù)的執(zhí)行。

實驗室測試的擔(dān)憂

經(jīng)常在實驗室進行測試的用戶研究員都會擔(dān)心在實驗室進行的評估會由于沒有模仿用戶的使用情境而缺少生態(tài)效度。因為在現(xiàn)實的使用場景中,打斷、移動、聲音和多重任務(wù)操作等,這些沒有出現(xiàn)在實驗室測試中的因素,都可能在現(xiàn)實情景中影響到用戶的操作。

現(xiàn)場測試

然而現(xiàn)場的可用性測試是非常罕見的,大部分(70%以上)的移動APP評估是在實驗室設(shè)備中做的。這可能是因為數(shù)據(jù)的收集,如出聲思考、視頻記錄或者觀察記錄,這些在現(xiàn)場做比較困難。

幸好由于便攜式錄像設(shè)備在近兩年快速發(fā)展,使得在現(xiàn)場進行用戶測試變得容易些。這些發(fā)展允許用戶研究員像在實驗室那樣,可以在現(xiàn)場做一些小測試了;也使得他們能夠有意識的去跟蹤屏幕上發(fā)生的事情,去傾聽用戶的評論。同時也允許在現(xiàn)場的可用性測試中使用出聲思考的方法。盡管發(fā)展了合適的工具,現(xiàn)場測試仍然比實驗室更加耗時,也可能需要測試的用戶和主持人付出更大的努力。

研究目的

敏捷用研在APP快速迭代開發(fā)的環(huán)境下被提出和倡導(dǎo),以用戶為中心的設(shè)計和可用性測試一定要非常高效。敏捷測試需要用戶研究員在產(chǎn)品開發(fā)時間被嚴格限制的期間內(nèi),發(fā)現(xiàn)最重大的可用性問題在上線前進行修復(fù)。所以,可用性測試的焦點絕不是發(fā)現(xiàn)每個可能的細小問題。

敏捷用研

如何使測試的結(jié)果最優(yōu)化,選擇正確的評估方法尤為重要。對可用性測試者來說,經(jīng)過科學(xué)驗證的合適的測試方法是非常寶貴的。在我們的研究中,主要的目的是了解清楚,當(dāng)評估移動APP可用性時,現(xiàn)場測試是否有風(fēng)險,或者實驗室環(huán)境是否可以模擬出足夠的生態(tài)效度。

對比研究

為了解清楚可用性測試中環(huán)境的影響,我們實施了一個對比研究,即同時在現(xiàn)場和實驗室兩種環(huán)境下開展可用性測試,并且保證其他因素(執(zhí)行的任務(wù),發(fā)聲思考的方法等)都是一樣的,只有測試的環(huán)境不同。

兩種測試環(huán)境分別是:

  1. 實驗室:一般用戶研究員進行可用性測試的地方,預(yù)算較低;
  2. 現(xiàn)場:一個用戶會真正使用移動APP的地方。

對比

研究問題和假設(shè)

(1)問題:在實驗室和現(xiàn)場會發(fā)現(xiàn)同樣數(shù)量的問題和現(xiàn)象嗎?

假設(shè):如果進行對比的兩組測試都是在足夠多的用戶中進行,那么現(xiàn)場測試發(fā)現(xiàn)的問題數(shù)量會更多。

(2)問題:在兩個測試環(huán)境中發(fā)現(xiàn)的問題和現(xiàn)象會是一樣的嗎?如果不是,有什么差異?

假設(shè):兩種環(huán)境中的問題將會是不同的。例如最常下載時間在現(xiàn)場可能更能被容忍。

(3)問題:如果發(fā)現(xiàn)的問題有不同,那么是因為實驗室或現(xiàn)場發(fā)生問題的嚴重性不同嗎?

假設(shè):現(xiàn)場的問題會因為在任務(wù)執(zhí)行過程中被打斷而更加嚴重。

(4)問題:任務(wù)執(zhí)行時間會不同嗎?由此我們可以從測試中推斷出什么?

假設(shè):任務(wù)執(zhí)行時間在現(xiàn)場將會更長。

(5)問題:環(huán)境會影響測試用戶的執(zhí)行嗎?

假設(shè):現(xiàn)場測試的任務(wù)在執(zhí)行過程中將會有更多的被打斷機會,而打斷行為的發(fā)生次數(shù)會影響用戶操作。

(6)問題:當(dāng)評估移動APP的可用性時,是實驗室更適合還是現(xiàn)場測試更合適?

假設(shè):當(dāng)評估移動APP的可用性時,現(xiàn)場測試將會更適合,因為情境影響使用和操作。

研究結(jié)果

然而對比研究的結(jié)果使我們驚訝,因為結(jié)果并沒有支持大部分我們之前的假設(shè)。

(1)問題:在實驗室和現(xiàn)場會發(fā)現(xiàn)同樣數(shù)量的問題和現(xiàn)象嗎?

根據(jù)我們的研究:現(xiàn)場測試發(fā)現(xiàn)的問題會比實驗室多,但并未達到顯著差異。

我們的假設(shè)是在現(xiàn)場測試會發(fā)現(xiàn)更多的問題,但是沒有被實驗結(jié)果支持。

(2)問題:在兩個測試環(huán)境中發(fā)現(xiàn)的問題和現(xiàn)象是一樣的嗎?如果不是,有什么差異?

盡管觀察到了同樣的問題,但是同一問題在現(xiàn)場測試中發(fā)生的頻率更高。

(3)問題:如果發(fā)現(xiàn)的問題有不同,那么是因為實驗室或現(xiàn)場發(fā)生問題的嚴重性不同嗎?

假設(shè)是在現(xiàn)場會發(fā)現(xiàn)更多嚴重的問題,但是沒有被證實。有關(guān)問題的嚴重性,在兩種測試環(huán)境中沒有差異。

(4)問題:任務(wù)執(zhí)行時間會不同嗎?由此我們可以從測試中推斷出什么?

個人任務(wù)完成的時間,現(xiàn)場測試的用戶沒有比實驗室測試的用戶更長。當(dāng)然在測試所需要的總時間上,現(xiàn)場的確要比實驗室長,這說明現(xiàn)場測試是一個更消耗時間的方法。

(5)問題:環(huán)境會影響測試用戶的執(zhí)行嗎?

在現(xiàn)場,測試有潛在的干擾,但是對于用戶的操作似乎沒有太大的影響。因為當(dāng)執(zhí)行復(fù)雜任務(wù)時,用戶會尋找一個安全的地方(方位/角度)去執(zhí)行,只有一小部分用戶會一邊執(zhí)行一邊踱步。在現(xiàn)場,用戶的注意力會非常集中在測試上,例如在進出地鐵時也會持續(xù)工作,在地鐵上他們似乎也沒有被其他地鐵乘客打擾到,即使其他乘客會來和主持人說話。

盡管主持人的行為在兩場測試中是一樣的,但是現(xiàn)場測試中用戶的表現(xiàn)似乎更加放松、隨便,表現(xiàn)在他們更頻繁的去發(fā)表關(guān)于APP的評論。

(6)問題:當(dāng)評估移動APP的可用性時,是實驗室更適合還是現(xiàn)場測試更合適?

當(dāng)做一款移動APP的用戶界面評估時,現(xiàn)場測試可能沒法顯著增加測試的有效性和完全性。不是因為一些問題沒有被發(fā)現(xiàn),而是因為現(xiàn)場測試所需要的時間更長,需要付出的努力更多?;谖覀兊膶嶒灒?strong>實驗室測試似乎已經(jīng)能夠在提高用戶界面和系統(tǒng)交互方面給予充足的信息。

現(xiàn)場測試完成后,主持人和用戶交談的更隨意,似乎用戶更容易說出自己關(guān)于產(chǎn)品觀念的想法。現(xiàn)場測試的方法適合于不僅和一個系統(tǒng)交互進行測試,還包括測試用戶行為和環(huán)境。另外,APP或設(shè)備如有一定的機密性那么測試通常是在實驗室進行的,特別是在還在開發(fā)周期的產(chǎn)品。

在現(xiàn)場環(huán)境中,用戶似乎在尋找一個安靜的角落來和APP進行交互。個人空間似乎并不只在與別人交流時才被需要;在公共場合,當(dāng)人們在做自己的事情時同樣需要隱私。

研究的影響和將來的研究

正如用戶研究員的目標是在嚴格的項目經(jīng)費和時間的限制下,找到最大和最致命的可用性問題,那么這項研究幫助用戶研究員在測試地點上做了決策。當(dāng)測試一個移動APP的可用性時,實驗室測試能夠給予充足的信息。

給予用戶研究從業(yè)者的啟示

當(dāng)測試一款移動APP的用戶界面時,現(xiàn)場測試可能不是最好的選擇;多數(shù)還是因為它比實驗室測試更加耗時。

如果需要進行現(xiàn)場測試,則需要準備好比實驗室雙倍的時間來進行;因為在現(xiàn)場,你可能一天下來只能測試實驗室的一半被試,且你需要做好事情不按計劃走的準備,因為除了測試還會有更多的干擾和意想不到的事情。

在做現(xiàn)場測試前,先做一個嚴格的預(yù)測試是必要的;因為許多細節(jié)都會很容易出錯,你真的需要檢查所有的準備來確保萬無一失。

 

作者:媛媛大王(微信公眾號:用戶研究社?),資深用戶研究員

本文由 @媛媛大王 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 這都可以沙發(fā)?

    來自北京 回復(fù)