機器學習算法生成的界面,真的能被用戶理解嗎?
機器學習算法可以基于用戶信息和行為數據,為用戶推薦感興趣的內容,但是當這些內容被展示到界面上時,用戶真的能夠理解嗎?
一個基于機器學習的人機交互研究表明:在使用由機器學習算法所驅動的應用界面中,用戶在操作時會有一定的使用困難,并且只能形成較弱的心智模型。(譯者注:用戶通常無法理解自己的使用行為,與應用內所呈現的內容推薦結果有什么關聯。)
我們正處于信息大爆炸的時代,對信息的跟蹤捕捉和人工整理歸納變得越來越難。但幸運的是,現代數據科學可以對龐大的數據和信息進行歸類整理,在界面上直接展示與我們相關的內容(例如網易云音樂推薦歌單)。
機器學習算法可以基于用戶信息和行為數據,為用戶推薦感興趣的內容。如今,機器學習技術能更多地被開發者利用,這推動了大批的公司利用大數據算法去改善產品和提升用戶體驗。
利用人工智能去提升用戶體驗的3個典型例子有:
1. 內容推薦:(例:為用戶推薦潛在感興趣的電影/商品)
2. 廣告或內容(如新聞頭條)的選擇性展示:根據用戶需求提供定制化的折扣和優惠信息。(如用戶最近有搜索過汽車購買內容,推送給用戶的可能是與汽車購買折扣相關的廣告)
3. 定制個性化捷徑,用戶可以一鍵觸發下一步的操作
遺憾的是,這一系列的算法對用戶通常是不可見的:用戶在操作過程中,無法感知自己的哪些行為會被定義為“影響算法的行為”。并且算法的產出通常很難以理解。
由算法所提供的內容建議或推薦有可能命中用戶需求,有可能表面上看起來是隨機的,甚至有可能是毫無意義的。通常的情況是,這些算法對展示內容的分類標準是不可見的,它們會把展示內容按照特定的、并不互斥的分類進行分組。
雖然從算法角度出發,這樣的內容展示/推薦機制是有意義的,但是用戶通常很難理解推薦內容的邏輯,而且還可能會與傳統的內容構建方式產生沖突。
在本文中,我們會探討 Facebook,Instagram,Google news,Netflix 用戶以及 Uber 司機與機器學習人機交互過程中遇到的一些問題。我們所采用持續一周的日記研究方式,在研究中,14 位真實用戶會用 v-log 的形式記錄下他們的人機交互過程。
黑盒模型
若想與任何系統進行順暢的人機交互,用戶必須對該系統建立一個心智模型。
大部分人都不是軟件工程師,對軟件程序的執行過程都沒有清晰的概念。但是人們通常都能根據他們之前對應用程序、用戶界面甚至是對世界的認知去形成一個相對正確的心智模型。
在很多情況下,測試者將一個新的系統當成黑盒,并且會通過改變測試過程中所有潛在的輸入方式(如:瀏覽的內容或瀏覽的路徑)去改變系統的產出。
機器學習算法對于用戶來說就是一種黑盒系統。參與調研的用戶可以理解:機器學習算法會將他們的交互行為作為產出內容的判斷依據。
為了與算法進行順暢的人機交互,用戶必須形成一個對人機學習機制有足夠認知的心智模型,通過這個心智模型,用戶需要理解機器學習算法是如何去改變產出結果,從而滿足用戶需求的。在形成這個心智模型的過程中通常會出現兩種阻礙:
1. 不明確的用戶輸入:用戶的何種行為會對產出造成影響并不明確。
2. 對產出缺乏控制:即使用戶知道他們的何種行為會被算法判定為有效的輸入,用戶依然無法確定這些輸入對產生所需結果是否有效。
我們將對以上的原因進行分類探討:
不明確的用戶輸入
對輸入行為若沒有一個明確的認知或判斷,將很難在黑盒實驗里構建一個準確的用戶心智模型。導致用戶輸入行為不明確的原因包括
1. 算法對于用戶來說是不透明的:算法無法告訴用戶,在他們的人機交互過程中,哪些行為是重要行為,會對算法構成影響。用戶對于“潛在輸入行為”的定義了解不充分。用戶的行為不會僅僅局限于當前的應用,這些“潛在的輸入行為”也包括在操作過程中的其他行為數據(如:閱讀第三方網站)。
2. 用戶輸入行為與界面呈現的結果存在時間延遲:用戶的某些輸入行為不會直接影響界面上輸出結果的變化。
在我們所討論的機器學習系統中,Netflix 很好地幫助用戶去了解他們的何種行為會對 app 的推薦系統有影響。Netflix 的主頁通常是一長串的影片信息流,這些信息流列表會有相應的標簽解釋為什么這條信息會出現在用戶的首頁——因為你曾觀看過相關的內容/因為你曾添加過某些內容到你的播放列表等等。
(譯者注:補充閱讀Netflix相關介紹)
人們非常喜歡這類型的推薦,不僅僅是用戶感覺到對 App 內容的控制權,更重要的是,他們認為當前頁面所展示的內容對于他們來說是有用的。
即便是這樣, Netflix 在幫助用戶去了解用戶的操作行為與首頁的推薦內容之間的關聯性仍無法做到最好,因為 用戶當前的操作行為 并不會立刻直觀地影響App的推薦內容。
舉個例子,一個用戶在最近一次使用 Netflix 的時候觀看了單口相聲,但是她“最佳推薦”里的播放列表似乎沒有出現這個內容相關的信息。這時候的用戶可能會很疑惑:“我以為‘最佳推薦’里的內容會根據我曾經的觀看記錄而有所改變,但是看來兩者似乎并沒有太大的關系,我的‘最佳推薦’列表里并沒有出現很多相關的喜劇”。
一個 Facebook 用戶曾把他的首頁信息流的一個廣告關閉,但是在接下來的信息流里卻再次看到了這個廣告。另外一些用戶認為“最佳推薦”里的內容和自己播放列表里的內容重合度非常高,他們也會疑惑:“我不知道‘最佳推薦’里的內容是怎樣進行篩選的,我相信內容篩選的算法和我曾經的觀看行為會有一定的關聯。但無論怎樣我希望這個算法能更精準一些,因為里面推薦的內容要么有一些是我很久之前已經看過的,要么是我已經添加到播放列表的,要么就是我根本不感興趣的。所以我有時候也很奇怪為什么會推薦這些內容給我?”
Facebook 與 Instagram 的用戶會更難理解他們的何種行為會對自己首頁的信息流內容造成影響。用戶會認為,信息流中自己曾經參與過互動的內容(互動包括:點贊等相關操作),會成為機器學習算法展示信息流內容的參考。但一些關于“潛在輸入行為”的定義很明顯是牽強的,有時甚至是錯誤的。(譯者注:有些用戶會誤以為自己現實生活中的聊天內容也會被應用監控,成為 “潛在輸入行為”。)
這也意味著,對于大部分用戶來說,機器學習算法的邏輯關系并不清晰明確。舉個例子,一個用戶昨天和朋友聊到忽然很想吃越南粉,這是一樣平常他很少吃的東西。然后不久后,他就看到了一個越南粉春卷的廣告?!斑@是一件多么有趣又可怕的事情!”這個用戶說“我很懷疑這些應用是不是甚至竊取了我們的聊天內容。”
另一個剛從再應用里看到夏威夷航空廣告的用戶,半認真半開玩笑地說:“或者算法也知道我需要一個假期?!?/p>
另一個懷孕的媽媽也表示:“自從我懷孕之后,我看到的廣告都是關于懷孕,嬰兒用品或者是人壽保險相關的。”
從上面的例子我們可以看出,當機器學習算法對于用戶“潛在輸入行為”沒有明確公開的定義時,用戶會產生相當多的疑惑——他們會假設自己的所有行為(包括應用內的操作和現實世界中的行為)都會被機器學習算法所記錄并作為參考,最終他們會認為這些 APP 或操作系統非?!翱膳隆辈址溉粘I畹碾[私。用戶對自己隱私被侵犯的感知越來越明顯,尤其是被Goolge、Facebook等公司掌握了大量的用戶數據的情況下。
Google 新聞的用戶通常會為其高度定制化的信息流而感到愉悅,但他們仍然不清楚這個高度定制化的信息流來源于他們日常的哪些操作行為。一個參與實驗的用戶表示:“Google News 似乎在迎合我的興趣——在信息流中我能看到三篇與汽車相關的文章,而汽車正是我感興趣的主題。我對“為你推薦”這個頁面上的內容是如何產生的非常感興趣。它會為我推薦本地的消息,因此很明顯它能獲取到我的地理位置信息,地理位置信息對于內容的篩選非常有用?!?/p>
雖然 Uber 本身不需要對信息進行推薦,但據說它同樣使用了機器學習去預測用戶的需求,并以高峰溢價、推廣活動、游戲化的任務系統* 等手段去激勵司機。
(譯者注:Uber開發了一套硅谷稱之為“Gamification”游戲化的策略。最主要的體現就是搭建“任務系統”。比如在某高峰時段完成5單,可以額外獲得100美金,每周完成100單可以額外再獲得1000美金等等,就和打游戲做任務一樣。補充閱讀Uber 相關閱讀?游戲化任務系統相關解釋)
Uber 的算法并不是基于司機的行為,相反,Uber 算法中的“輸入”更多的是來源于外部的數據,例如歷史交通路況。即便是在這種情況下,對于哪些數據能被定義為“輸入”的清晰認知,依舊會影響司機是否會被 Uber 的促銷手段影響自己的判斷。舉個例子,一個司機被 Uber 告知,他需要去接一個位于 2.3 英里以外的乘客,這段路程行駛時長為 15 分鐘,并且這一單乘客有可能會溢價支付。
這位司機表示:“Uber 的這個新的預測功能有時候挺讓人惱怒的。以前我一般接到的單都是只需要 5 分鐘左右的車程就可以接到乘客,但現在 Uber 告訴我,這個接乘客需要 15 分鐘車程的單子很有可能會得到溢價獎勵。我曾經試過接到這樣的單子,但是乘客并沒有溢價支付。我認為這個只是 Uber 引誘司機免費地去接遠距離乘客的單子的一種手段。我并不喜歡這種不確定的溢價支付?!睂τ谒緳C來說,他們對為什么溢價支付會出現以及它出現的前提條件并不了解,這會令他們去質疑 Uber 的意圖。
對算法的產出結果缺乏控制
在我們所研究的系統中,產出結果往往不僅僅以用戶的交互行為為決定因素,還會根據一些外部事件去進行調整,這些外部事件包括:當前時刻應用內其他人的發帖內容,新聞事件,最新電影的上演,甚至有可能是交通情況等等。這些大批量、廣范圍的數據會令整個算法變得更復雜,更難以理解和控制。同時,將用戶自身的行為數據與這些第三方的數據分離開來也會變得更困難。
當應用內同系列的信息展示是取決于某個特定的自動預測算法時,這一系列的信息的展示順序甚至是這一系列信息最終是否會被完全展示都會取決于一個相關性衡量指標:高相關性的信息會被優先展示,接下來展示的會是相關性稍低的信息。當某條信息的相關性低于某一個臨界值時,它甚至有可能根本不會被展示出來。(Netflix 曾經公開展示過一個帶有明確匹配分值的相關性衡量指標,但這個指標對用戶來說并沒有直接的利益關系,本次調研中的參與者完全忽略了這個匹配分值。)
雖然有些人認為一個好的相關性衡量指標不會將重要信息安排在列表中較后的位置,然而事實是,這些系統只能收集到用戶很碎片化的信息。這些用戶是復雜的個體,他們的需求不僅僅是基于過去的使用習慣,更可能是基于當前的內容甚至是當下的心情。(舉個例子,其中一個參與調研的用戶表示:“我希望我可以隱藏我 Facebook 首頁上所有帶有悲傷情緒的帖子?!贝送?,一些帖子與用戶的興趣可能有著強相關性,但是出現的頻率非常低,因此系統無法收集到足夠多的信息去判斷這些信息與用戶興趣的關聯性。)所以,即使是一個好的相關性衡量系統也有可能無法準確地預測信息與用戶興趣的相關性,至少偶爾也會出現這種情況。
一個不完善的相關性衡量系統會引發以下的一些問題:
1. 用戶一些感興趣的信息會被遺漏(在信息檢索的層面上,這會被視作低召回率)
若信息流自動過濾掉一些與用戶高相關性的信息,用戶在閱讀信息時會花費很高的成本。在 Facebook 和 Instagram 之類的應用內,當用戶錯過了一條他最親密的好友的信息,這會對用戶造成很大的困擾并帶來較差的用戶體驗。
事實上,會給參與調研的用戶帶來很糟糕的體驗的主要原因是,這些應用內的信息流若只包含帖子中的部分內容而過濾掉其他內容。其中一位參與者表示:“為了看到我希望看到的某些用戶所發的帖子,我甚至需要和應用內的算法作斗爭?!?/p>
用戶試圖通過 自己對該系統的理解而建立起的心智模型去引導算法(雖然用戶對系統的理解往往可能是不正確的或是碎片化的。一些用戶會通過對信息流里他所有感興趣的內容進行點贊,試圖引導算法去了解自己的興趣并不再過濾掉相關的信息。在這種情況下,“點贊”的含義已經不僅僅是它字面所表達出來的社交層面的意思(“點贊”通常用于表達對某種內容或帖子的欣賞),而開始變成用戶試圖控制算法的一種手段。
即使是一些自認為自己可以操縱算法的人也很經常會懷疑這種行為的有效性。他們會不斷地直接訪問自己所感興趣的用戶或組織的主頁信息流以確保自己不會錯過任何信息。
但過濾掉一些和用戶高相關性的信息亦不盡然會為用戶帶來高的閱讀成本。例如,在 Netflix 和 Spotify 之類的平臺,用戶可能感興趣的新聞信息/歌曲成千上萬,過濾掉這其中的一些信息并不一定會引發用戶的抱怨。(譯者注:因為用戶無法感知到自己感興趣的信息被過濾掉了)
2. 信息流展示的內容順序是不可預知的/難以理解的
信息流過濾掉一些用戶感興趣的消息不僅僅是因為 算法并沒將其息包含在內容列表內,也有可能是因為這些信息的權重并不高,因此沒有出現在信息流的頭部位置。歸根結底,這種考慮與“注意力經濟*”有關(譯者注:注意力經濟是指企業最大限度地吸引用戶或消費者的注意力,通過培養潛在的消費群體,以期獲得最大未來商業利益的一種特殊的經濟模式。) :如果用戶對新聞或社交媒體的注意力有限,那么用戶可能會遺漏掉一些對他們很重要的信息內容,因為這些內容在信息流的列表里處于較尾部的位置。(譯者注:信息量太大,而用戶對信息閱讀的精力有限,往往只會閱讀到頭部的內容。)
對于一些我們所看到的信息推薦系統,推薦列表的順序對于用戶來說是毫無意義的:用戶無法理解為什么在 Facebook 的信息流里,某一條內容會排列在另一條內容的前面。也并不知道為什么在 Netflix 的輪播模塊里,某一部電影會展示在另一部電影之前。Facebook,Instagram 和 Google News 經常受到的用戶投訴的其中一項內容就是:用戶抱怨信息流展示的內容不是按時間順序排列的(譯者注:新版的微博信息流同樣不是以時間線順序展示的)。因此,用戶無法確保他們已經完全地閱讀完某個用戶的所有信息并且沒有無遺漏掉其它內容。同樣地,對于新聞內容,這次調研中的參與者會擔心,一些他們感興趣的但是并不太重要的信息內容(例如汽車相關的文章)會位于信息流中的頭部位置,因此他們會遺漏掉一些最近一般感興趣但可能重要的內容。
在 Netflix 的情況里,根據特定的分類方法(如:因為你曾經看過某些電影內容)而構成的推薦列表會模糊了用戶對之前已經形成的自然分類的方法的認知(如:按時間排序)。例如,對于視頻內容,用戶普遍關注的維度是時間(如:用戶知道自己只有一小時的時間去觀看視頻)或者是視頻內容的種類。然而,在 Netflix 創建的類別中,電視節目與完整長度的電影被混雜在一起,且被以無明確標識的順序呈現在用戶面前,用戶的篩選過程會非常困難。
3. 一些用戶并不太感興趣的內容會被推薦給用戶(在信息檢索的范疇內,這被定義為信息匹配精度低)
糟糕的推薦體系會對花費用戶巨大的注意力成本——用戶必須仔細檢查信息,判斷他們為不相關內容,再跳過他們。然而,糟糕的推薦算法在不同的系統下并不一定會對用戶造成相同的影響。在 Netflix 這種平鋪輪播的列表布局下,不敢興趣的推薦內容相對會更容易被跳過,因為這些不敢興趣的內容并不會占用頁面內太多的位置,用戶可以輕易地略過它。
但是,在諸如 Spotify 或者 StichFix(服裝運輸服務平臺)等平臺上,用戶略過一個不敢興趣的推薦成本會變得很高。用戶不愿意花費時間去嘗試聽一首他們所不喜歡的歌曲,或者穿一條不是自己風格的褲子。Facebook 的情況介乎于上述的兩者之間:一個與用戶不相關的帖子或者是廣告會在首頁信息流占用一定的空間,用戶必須手動滑動才能跳過。
跳過頁面上不感興趣的內容所花費的成本,將決定了用戶直接對帖子/廣告內容提供反饋的可能性。例如,在 Spotify 的平臺上,用戶會參與推薦內容的篩選并標記他們不感興趣的內容。這樣做不僅是為了幫助調整推薦系統的算法,更是為了盡量避免自己花費時間去收聽一些不感興趣的曲目。
在 Facebook,我們的確注意到用戶偶爾會使用到“隱藏該廣告”的按鈕。但由于這個按鈕的入口比較深,有些用戶并不愿意花費這個操作成本去隱藏廣告。相對于隱藏不感興趣的推薦內容,用戶更愿意去“點贊”一些自己感興趣的內容。
4. 推薦列表內的內容所占用的頁面范圍越多(或者是用戶跳過的成本越高),內容的反饋按鈕就應該越明顯。
如果推薦列表的內容能被用戶很容易地跳過,內容反饋入口的外露優先級可以降低。
5. 內容的個性化定制不應該增加用戶的使用成本
我們在上面看到,在用戶體驗中,最成功的推薦算法應該能 成功地向用戶傳達合理的、關于“輸入行為”的心智模型。尤其是,本次調研的用戶非常喜歡 Netflix 的推薦列表上的內容,因為這些內容清晰地展示了用戶“輸入行為”與呈現內同的關系(如 你曾看過的/你曾添加到播放列表的等等)。
然而,這種方法可能會導致一個問題:同一個內容會被多次推薦。例如:在 Netflix 中,一部影片可能會出現在“曾經看過”模塊,它同樣有可能會出現在“我的列表”或者“熱門推薦”模塊中。用戶在瀏覽頁面的過程中,會為這些重復出現的內容花費更多的注意力。至少,用戶需要辨別出哪些內容他們曾經看到過并跳過他們。其中一位參與調研的用戶表示:“為什么首頁中會有這么多的列表模塊?并且模塊中的內容在不斷重復?我非常討厭這些重復內容的列表。每一次查看列表我都會看到相同的東西,這讓我非常困擾。這對我來說簡直就是浪費時間?!?/p>
但是,在用戶交互過程中,重復消耗的注意力成本不僅限于內容的重復出現。Netflix 承認,他們嘗試去做超越內容個性化層面的更高的個人定制化頁面,這包括用戶個性化的頁面布局(甚至是基于特定場景下的頁面布局),為視頻封面做個性化定制。但這一系列的個性化定制都有可能會增加用戶的交互成本:
1. 模塊限定的視頻封面縮略圖,內容描述與大標題
對某一項內容針對特定的用戶進行個性化定制,這在很大程度長可以吸引用戶的注意力。在研究過程中,我們的參與者用戶被提供大量的內容。他們快速地瀏覽頁面,縮略圖,粗略地閱讀頁面上的文字內容。一位 Facebook 用戶表示:“我通常并不會仔細閱讀別人寫了什么東西,我只是粗略地掃一眼?!倍硪晃?Netflix 的用戶則表示:“在列表中,我通常會找一些和其他內容不同的,更有趣的內容,通常一個特別的封面圖片能吸引到我的注意力?!?/p>
在 Netflix,同一部影片,不同的用戶可能會看到兩個不同的封面。更甚的情況是,同一部影片,同一個用戶會在兩個不同的模塊中看到這部電影不同的封面。
理論上,這種做法可能會提高用戶“點贊”和觀看該影片的機會——因為應用內不同的推薦模塊能強調這部影片的不同的亮點,任何一個亮點都有可能會引起用戶的注意。遺憾的是,這種做法可能會令這部影片喪失記憶點,因此會浪費用戶的時間:用戶有可能會在這個過程中多次點入同一影片的詳情頁去瀏覽影片的內容介紹,最終卻發現自己對這部影片仍然是不感興趣的或者是其實已經曾將這部影片添加到播放列表了。
2. 不同模塊的不同布局
Netflix 同樣會針對不同的用戶,不同的場景,甚至是不同的設備去定制化頁面布局。因此,“繼續瀏覽”可能在某些模塊中會在列表的靠前位置,而在下一個模塊中會處于靠后的位置。這種做法是頁面自適應的一個例子,并減少了用戶對適應頁面布局的學習成本。因此,那些喜歡在開始瀏覽頁面的時候就查看最新內容的用戶,會優先主動訪問“最近新增內容”列表。
這種情況下,當該用戶打開應用時,如果頁面定位在上次瀏覽的地方,頁面上的信息對于該用戶來說基本沒有意義。因為 Netflix 對于用戶來說是一個更側重于瀏覽性質的頁面,改變不同模塊中的推薦列表的順序并不會對整體用戶造成較大的影響,然而,這種方法其實已被證明會明顯地降低用戶體驗。
一些總結
日常中,我們所使用到的極大依賴于機器學習算法進行內容推薦的應用/系統寥寥無幾。以下是幾點小建議:
1. 努力地去創建一個準確的基于算法的心智模型。想做到這一點,需要讓用戶清楚地知道他們的何種交互行為,會對算法產出的推薦內容有直接影響。
2. 讓用戶能夠簡易地控制機器學習算法所產生的結果。允許用戶通過已知的,熟悉的,易于明白的邏輯(例如:時間線邏輯)去對這些結果進行分類整理。若用戶對關閉一個不合適的推薦的成本越高,app 越應該提供一個越便捷的反饋入口給用戶。
3. 如果推薦的內容均適合在不同的模塊被推薦(譯者注:既是“今日熱門”也是“曾經看過”),盡量不要重復推薦此內容。
4. 對用戶進行個性化定制的同時,在改變同一頁面上不同模塊的布局時需要多加注意,避免用戶在瀏覽時出現較大的視覺跳躍。
5. 內容元素應該盡量包括與用戶強相關的信息內容(譯者注:如網易云x—音樂給用戶推薦歌單的時候會標注推薦原因——”因為你曾收藏過某些歌曲”),這些信息在用戶篩選大量內容的時候將會非常有用。
6. 提前預加載內容描述或標題,以便于用戶在快速瀏覽時更便捷地篩選判斷。
遵循以上 6 條用戶體驗原則,將能提人工智能算法的效益,讓人工智能不僅僅再是”花哨的技術”,為用戶的使用過程提供更好的幫助,提升用戶體驗。
作者: Raluca Budiu
翻譯:隕石旁
原文地址:https://www.nngroup.com/articles/machine-learning-ux/
本文由 @隕石旁 翻譯發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
- 目前還沒評論,等你發揮!