6000字長文丨微信讀書中4個結合AI能力提升體驗的案例分析

0 評論 3457 瀏覽 41 收藏 25 分鐘

前幾天微信讀書APP更新了,上線了AI問書的相關功能。本文作者從四個方面,和大家分享微信讀書與AI能力融合之后,在閱讀這個細分場景下是如何提升用戶體驗的。

AI很火,大模型很火,但是國內沒有任何一家AI公司賺錢,文心一言從上線到現在據說營收不超過50萬美元。

各家都在想著怎么使用AI能力造出新產品,但是在移動互聯網時代用戶的需求已經被挖掘的差不多了,現在鮮少能有令用戶wow一聲的產品出現。

作者覺得現在更應該做的是:使用AI這種新能力。以體驗更好的方式解決用戶的舊需求。

那么在不同的細分場景中,AI能力是如何對用戶的舊需求進行體驗重造的呢?下文就以微信讀書為例,來進行詳細的分析。

微信讀書APP前幾天上線了AI問書相關的功能,作者使用下來感覺很不錯。其實微信讀書之前已經上線了不少AI相關的能力,有AI大綱、AI聽書、還有AI翻譯。

下面我們就一起從這四個具體的功能來看一下,微信讀書與AI能力融合之后,在閱讀這個細分場景下是如何提升用戶體驗的?

一、AI問書

首先來看最新上線的【AI問書】

AI問書其實就是一個搜索功能。用戶在閱讀的過程中,如果遇到了不懂的概念,就可以將對應的文字選中,然后點擊AI搜索,就可以出現對這個詞的搜索結果。如下圖:

在我讀ChatGPT技術原理的一本書時,遇到不懂的鏈式法則概念就用到了AI搜索功能,可以看到在第二頁給出了菲茨詳細的解釋,而且生成速度在10秒之內。

除此之外,還會根據用戶的問題判斷用戶可能想問的其他問題,幫用戶列出來,這一點也十分重要,因為當面對一個新領域的知識時,用戶非常有可能處于不知道自己需要學習什么的狀態。

如果只是這樣的話,那這也只是一個搜索功能,微信讀書的體驗優秀之處還可以分為兩個方面來講:

第一方面是:搜索的起點和終點都發生在同一款產品的同一個頁面之中。

閱讀本身就是一種非常需要沉浸的行為,如果像以前那樣,我們遇到了一個不懂的新概念,然后跑到手機瀏覽器上去搜索,那會產生兩個問題,第一個問題是發生了不同手機應用之間的切換,這會導致用戶沉浸式閱讀的行為被中斷。

另一個問題是在瀏覽器中進行搜索時非常有可能在不同網站之間進行切換來對比這個概念的含義,才能夠比較準確的判斷出在自己的閱讀場景中什么樣的解釋是符合語境的。

前者對于用戶使用時長顯然存在不利的影響,后者也提升了用戶離開微信讀書這款產品的時長,并且并且整個過程體驗也很差。

而在微信讀書上線了AI搜索的能力之后,我們可以直接在某本書某段文字上進行選擇,然后結果就會直接在當前頁面用一個浮窗的形式顯示,并可以結合上下文來判斷用戶此時選擇的這個詞語的最佳用含義是什么。這樣就可以給出用戶一個最需要的,最合適的結果。

有些詞語可能沒有正確之分,但是一定有合不合適語境的區別。舉個例子,如果我在搜索引擎中搜索的是一個【蘋果】的詞語,那么結果到底應該顯示出來紅富士蘋果還是蘋果手機?

這就是沒有結合上下文進行搜索時,搜索引擎無法做出最正確判斷的例子。作者本人就遇到過多次想在拼多多買點水果,結果搜索結果頁列出來了一堆手機的情況。

第二方面是搜索結果的準確度、易理解程度的問題。

我們都知道,在通用大模型產品剛剛上線不久的時候,我們與ChatGPT這類產品對話時,經常會遇到胡說八道的情況。

雖然現在已經好很多了,但是很多用戶包括作者自己,有時候依然會懷疑AI給出的答案是否是可信的,所以現在很多AI搜索產品在給出答案的時候都會將答案的來源列出來來增加回答的可信度(另一方面意義是為了方便用戶去原文鏈接中查找更多信息)

剛剛作者說了準確度,易理解程度這兩個維度的體驗。首先來說準確度。由于微信讀書的搜索結果基本是從整個產品中不可計數的書籍中進行查找的,所以對于概念的準確的基本是有保障的。

雖然作者也是做自媒體,但是不得不承認,很多情況下已經出版的書籍中對一些概念名詞的解釋是更為準確、校對更加嚴格的。

再來說豐富度(或者叫結構化),從上面的截圖中,大家也可以看到,當我搜索鏈式法則這個詞語的時候,整個搜索結果給我列出了它的定義、應用、理解等三個部分的內容。正是由于從多方面,多角度給出的信息,幫助了用戶更輕松的去理解搜索詞的含義,有的時候他甚至還會給你舉個例子來幫助用戶理解。

除了在書籍內容頁面可以進行AI搜索之外,在書籍商城的搜索框中同樣可以進行AI搜索。我們假設一個場景:我想看余華最新出版的作品,但是我又忘了這本書叫什么名字,于是我在搜索框中輸入了文字【余華最新出版的書籍】。

搜索結果雖然給出了我很準確的回答,,但是卻并沒有直接給我打開這本書的入口,而我們直接搜索第七天這個書名時,其實能夠發現這本書已經在微信讀書app中上架了。

所以我們能夠推測,在這里進行搜索時,其實還是根據書籍內容進行的,

在前面的分析中,我們提到了微信讀書結合具體的產品使用場景,為AI能力做了很細致的融合。

但是這里就沒有考慮使用場景,或者說沒有對用戶的意圖做出進一步的判斷。(意圖識別將是很多AI產品的核心能力,這方面的分析將會在下一篇長文中進行詳細解釋)

作者覺得在一個閱讀產品中輸入某某的作品,那這個時候用戶的意圖應該是非常明確的,就是想找到這本書去閱讀。這里沒有做出更便捷的設計確實有些遺憾。

不過也可以理解,畢竟這個功能叫做AI問書,而不是AI搜索。

當然從整體上來說,AI問書功能還是一個具體場景與AI能力結合之后,對用戶體驗提升非常大的案例。

接下來我們繼續來聊聊AI大綱、AI聽書、AI翻譯。

二、AI聽書

聽書功能其實是一個出現了非常多年的功能,那么為什么微信讀書這里一定要把這個功能叫做AI聽書呢?

大家還記不記得剛開始出現文字轉語音功能的時候,那些文字的發音都是什么樣的?簡單來說就是一個字是一個字的發音,沒有詞語的發音,語氣詞和兒化音的發音也都特別生硬。

可以想象一下開心麻花的小品中,這位飾演機器人的妹子的發音。

后來隨著技術的進步,文字轉成的語音慢慢變得更加流暢,更加有感情了,在這個過程中其實就是AI能力的體現,在不同的詞語中,哪些詞哪些字應該重讀,哪個字應該快讀,哪個字應該慢讀,以及、音色、音量等等,更加復雜的算法變得更加接近于人的聲音了。甚至停頓、笑聲也都有被比較準確的模擬出來。

如果大家曾經用過起點讀書這款產品的話,也能發現在聽書時選擇【說書先生】選項相對于其他選項明顯更加接近于人朗讀文字的感覺。

語音轉文字能力是AI能力非常重要的一部分,在多模態交互中,不同模態信息之間的轉換是工程師們的重要研究課題。

如果大家感興趣,可以隨便找一款比較山寨的閱讀產品,試一試里面的聽書功能的感覺和微信讀書這個AI聽書的感覺有多大的差距。

AI能力為產品帶來的可能不是一個全新的用戶沒有見過的能力,而更多的會發生在對已有功能的體驗升級上??赡苁歉孢m,可能是更高效。所以作者覺得AI與用戶體驗之間的融合這方面的研究是非常有潛力的。

還是那句話:用新能力,為舊需求,帶來新體驗,賣更多錢

如果我們從技術角度來解讀一下AI聽書相關能力的話,其實也有很多值得講的點。這個功能主要集成了自然語言處理(NLP)、語音合成(TTS,Text-to-Speech)等人工智能技術的創新應用。以下是該功能的一些關鍵技術分析:

  1. 在聽書功能啟動時,系統首先需要解析電子書的文本內容。這一過程包括識別文檔結構、章節劃分、以及文字內容的準確提取。這一步驟對于確保流暢和準確的聽書體驗至關重要。
  2. 文本被解析后,通過語音合成技術將文本轉換成自然人聲。TTS技術涉及到文本分析、韻律建模、語音合成引擎等多個子領域。高質量的TTS能夠生成接近真人的聲音,包括語調、停頓、重音等,以增強聽書的沉浸感和理解度。微信讀書可能采用了先進的深度學習模型,如WaveNet或Tacotron系列,這些模型能夠生成更加自然流暢的語音。
  3. 用戶可以根據自己的偏好調整朗讀的語速、音色(如果應用提供多種聲音選項的話)等參數。這背后的技術支持可能包括對預訓練的TTS模型進行微調,或者利用算法動態調整音頻輸出參數,以滿足用戶的個性化需求。
  4. 雖然主要功能是聽書,但結合“AI問書”功能,微信讀書還可能具備一定的問答能力,能夠在用戶有疑問時提供即時解釋。這要求系統具備一定的自然語言理解和知識圖譜技術,能精準定位到用戶提出問題的相關文本,并給出合理解答。
  5. 聽書過程中,微信讀書還會同步用戶的閱讀進度,支持書簽功能,使得用戶在不同設備間切換時能無縫繼續聽書。這需要高效的云服務支持,以及良好的數據同步機制。

可以看到,在用戶視角下,一個比較簡單的功能,但是其中的技術過程還是非常復雜的。所以,當AI能力與各種應用傳統的核心使用場景相結合時,如果想提升用戶體驗還還是需要更加系統性的思考。

三、AI大綱

AI大綱最重要的意義是增強了用戶在索引、記憶和閱讀靈活性等方面的能力。

使用AI技術對書籍內容進行分析和提煉,形成結構化的大綱,讀者就能在短時間內掌握全書的主旨和框架。

這不僅可以節省讀者的時間,還建議更好地理解和記憶內容。用戶還可以通過AI大綱定位到自己感興趣的部分,進行深入閱讀,或是選擇閱讀,以此來優化個人的學習或休閑閱讀策略。

尤其在現在這種碎片化信息充斥著視野的環境下,用戶們閱讀長文章的耐心(能力)其實已經比較低了。而書籍恰恰是更長的文章,如果沒有信息檢索能力幫助用戶找到需要閱讀的重點,那閱讀體驗將會很差。甚至沒閱讀完就放棄了。

在閱讀內容詳實、信息量大的書籍時,用戶往往面臨信息過載的問題,難以快速把握全書要點。

AI大綱可以幫助用戶在短時間內掌握書籍核心框架和各章節重點,提高了閱讀效率和信息篩選能力。

對于知識型書籍,讀者通常需要深入理解并記住關鍵概念。AI大綱通過突出顯示每個部分的主要論點和結論,輔助讀者構建知識體系,加深理解和記憶,避免因遺漏重要信息而影響對整體內容的理解。

用戶在完成閱讀后,想要復習或回顧特定章節時,AI大綱也提供了一個方便快捷的途徑。用戶可以直接通過大綱找到感興趣或需要復習的部分,無需再次瀏覽全文,節省了時間。

對于時間有限或偏好跳躍式閱讀的用戶,AI大綱允許他們根據個人興趣或需求選擇閱讀順序。用戶可以直接跳轉到自己最關心的章節進行深度閱讀,增加了閱讀的靈活性和個性化。

以上是AI大綱在閱讀前、閱讀中和閱讀后的一些意義,而對于一些特殊角色例如學生、研究人員等需要大量閱讀和整理資料的群體,AI大綱功能相當于一個自動化的總結和筆記工具,幫助他們快速歸納書籍內容,為撰寫論文、報告或做研究提供了便利。

AI大綱的技術原理流程圖大致如下:

四、AI翻譯

由于這個功能的意義相對簡單,所以放到最后,AI翻譯在跨語言閱讀難題、即時理解、專業術語理解等方面都能為用戶解決極大痛點。

在閱讀外文書籍或遇到不懂的外語詞匯時,AI翻譯功能可以直接提供翻譯,幫助用戶克服語言障礙,從更多來源獲取信息。也無需切換應用或查閱紙質詞典,AI翻譯的即時性讓用戶在閱讀時能迅速理解難點,保持閱讀思路的連貫性沉浸性。

同時對于專業術語理解:針對專業書籍或領域特定詞匯,AI翻譯的優勢也比較大,要知道很多外文包括英文并非想漢語一樣,是有很多單字來組詞滿足一些專業術語和新詞語的需求,而是出現一個新的概念就需要一個新的單詞來進行表示。

例如,“計算機”(computer)這個詞是由“計算”(to calculate)和“機”(machine)組合而成。這樣的方法使得漢語能夠快速生成新詞,而不需要完全創造新的字符。

以英文為例,一個人的博學程度幾乎可以用他掌握的單詞數量來計算,以前作者看到一篇新聞就是以埃隆·馬斯克掌握大量工程學、航天技術、人工智能和商業等領域的專業術語而體現其能力。

對于整個產品而言,便捷的語言轉換服務,還可以極大地拓寬了不同母語用戶的用戶群體,這也是很重要的一點。

作者認為AI技術將繼續以多種方式深刻改變用戶體驗,從個性化、交互性、效率、可達性、情境感知、到創造性和便捷性等多個維度全面提升。以下是一些具體的改變方式:

  1. 個性化體驗:AI通過分析用戶行為、偏好和歷史數據,提供個性化推薦,如個性化內容、產品、服務或廣告,使用戶體驗更加貼合個人需求,增加用戶粘性。例如,電商平臺的個性化商品推薦,音樂和視頻流媒體的定制化播放列表。
  2. 智能交互:自然語言處理和語音識別技術讓AI能理解并響應用戶的口頭指令,提供語音交互,如虛擬助手、AI客服,減少用戶操作步驟,提升便捷性和友好性。同時,AI還能通過表情識別和情緒分析,提升交互的情感智能。
  3. 自動化與效率:AI自動化處理重復任務,如信息摘要、文檔整理、數據分析,釋放用戶時間,使他們專注于更有價值的活動。AI還加速響應時間,如即時翻譯、搜索結果,提升效率。
  4. 情境感知:AI能根據用戶所處的情境(位置、時間、設備、歷史行為)智能調整服務,如智能家居根據作息自動調節燈光和溫度,旅行應用根據天氣和交通狀況推薦行程。
  5. 創造性輔助:AI生成式技術,如文本、圖像、音樂生成,為創作者提供靈感和輔助,加快創作過程,同時個性化內容創作,提升用戶參與度和娛樂體驗。
  6. 無障礙提升:AI助力實現無障礙設計,如自動字幕、語音轉文本,幫助視障、聽障人士,使技術惠及更廣泛人群,推動包容性設計。
  7. 教育與知識獲?。篈I個性化學習平臺,通過智能適應性學習路徑和反饋,提供定制化教育資源,使學習更有效,同時AI輔助答疑,如“AI問書”,即時解答疑惑。
  8. 健康:AI在健康管理、心理健康支持、疾病預防和遠程醫療方面發揮作用,通過監測、預警、分析數據,提供個性化建議,改善健康維護體驗。
  9. 金融與服務:AI在金融領域的應用,如風險管理、欺詐檢測、智能投顧,提升安全性同時個性化金融服務,簡化流程,為用戶提供更快捷、安全的金融服務體驗。

AI技術通過深度融入產品和服務的各個層面,不僅僅是提供定制化和即時的解決方案,還在創造新的交互方式,目前比較確定的就是未來的智能硬件產品將會以多模態交互的形式與用戶進行交流,而不是今天的以觸屏為主。

以最新發布的ChatGPT-4o為例來講講多模態交互的意義大概如下:

如果僅僅把多模態交互能力理解成了我們可以不僅僅使用文字和GPT交流了,這么理解實在太小看多模態交互能力了。

要知道,人類通過文字表達和聲音表達,即使是完全同樣的文本。所包含的信息也有很大的差別。文字只是靜態的信息,而聲音包含更多維度的信息。例如語音、語調、音量、語速、停頓、重音等等。

同樣是【你好】,文字只能表達1種含義,而聲音可能能表達4-6種。對于程序來說,多模態交互意味著從更多來源獲得信息(指視、聽、文、環境等來源)。也意味著獲得更多信息(例如剛剛所說的聲音維度的語音、語調、音量、語速、停頓、重音)。

這僅僅是從聲音一種模態中可以擴展出的新信息,而多模態包括視覺、語音、圖像、文本、觸覺等等很多方面的信息通道。

從多來源獲得信息并獲得更多信息,GPT就可以縮短推理、判斷等過程,更快速的給與用戶回復。這就像是用戶自動的把提問描述的更詳細了,把自己的要求說的更清楚了,如此一來GPT給與反饋的速度和質量自然會有對應的提升。(當然同樣也有模型方面帶來的提升)

除了聲音之外,GPT-4o的多模態交互能力還包括視覺理解能力,例如能識別圖像中的人臉,分析性別、年齡、表情等信息。這同樣是我們剛剛所說的從更多來源獲得信息以及獲得更多信息。

以上是多模態交互能力中,人向GPT輸入過程中的意義,那么對于人機交互的另一部分:GPT向人輸出的階段,同樣意義非凡。

GPT-4o可以根據需要以最合適的模態進行回應,在之前GPT只能以文字進行回復,但之后則可以是文字、聲音、圖像。聲音模態的意義是支持更多交流場景以及對無障礙交互的包容。圖像的意義就不用多說了,無論是取代了命令行的圖形化界面,還是晉升答辯時準備的PPT,都能體現圖像相對于文字的優勢。

這里稍微展開了一點兒多模態交互的內容。如果想要完全說明多模態交互的整個體系可能需要幾萬字,后面有時間再慢慢更新吧。

專欄作家

杜昭,微信公眾號:AI與用戶體驗,人人都是產品經理專欄作者,實戰派設計師,目前在某手機公司負責手機OS交互設計,所負責產品覆蓋用戶數億,主要研究AI與人機交互設計的融合及人因學對用戶體驗的影響。

本文原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!