把導游掛在耳朵上:人工智能在旅游場景中的應用

6 評論 7142 瀏覽 50 收藏 19 分鐘

旅游場景下應用人工智能有美好的前景,同時也有很多問題亟待解決。

語音交互被視為人工智能時代的重要入口,而家庭又是一個噪音較少、網絡穩定、需求明確而有限的場景,所以各大廠商都想搶占這一入口。今年以來各大智能音箱促銷大戰此起彼伏,促銷力度一浪接著一浪,從小愛mini的99元,到天貓精靈方糖的89元,到叮咚mini的79元。低價新奇的智能音箱銷量可觀,教育了大眾,更多的人也實實在在的接觸到了人工智能。

本文從旅游場景用戶需求出發,暢想一下人工智能在這一場景下的應用。

一、旅游場景

傳統的旅游人群去景區主要是看房子,看看樹,看看山,看看景。

自然景區無可厚非,游客就是領略自然風光,看看名山大川;但是到了人文景區,比如故宮、天壇,絕大多數人都只有一個大概的認識,知道這是古代皇帝住的地方,這是古代皇帝祭祀的地方。轉了一會,發現房子到處都一樣,逐漸的失去了新鮮感,失去了興趣。旅游不過也就是我去過那里了,打過卡了。

人們去人文景區的意義在哪?

大家都會說感受傳統文化,感受革命精神,感受歷史的氣息。那這種感受到底是什么?如何感受?

這里的核心是意義感。

如果游客知道他站的那個地方在幾百年前發生了什么事,這些事為什么會發生,甚至這件事或者事里的人他還知道,那這種感覺就更強烈了。游客可以想象在這個地方發生這件事的景象,而自己在旁觀,這時,游客就感受到了強烈的歷史感,可能還多了些夢幻。

所以,讓游客在旅游過程中有意義感,真正感受到歷史,可能唯一的方式,就是及時了解相關故事,而且故事細節越多越好,展示方式越形象越好。其實景區一直都知道這個問題的存在,也一直在著手解決這個問題。

告訴你康熙在武英殿智擒鰲拜這個故事讓你產生聯想(上圖),比僅僅讓你看武英殿這個建筑(下圖)要有意義得多

景區的方案

為論述方便,先定義下本文中的景區和景點,下文會經常出現:

  • 景區:具備相應的旅游設施并提供相應的旅游服務的獨立管理區。比如故宮,頤和園,天壇都是景區。
  • 景點:景區內的一處景觀。比如故宮中的太和殿,武英殿、坤寧宮、御花園都是一個個景點。一個景區內包含多個景點。

一般景區,在入口處會有介紹整個景區的石板,里面的每個景點旁,有介紹每個景點的石板。上面有名稱以及簡介,告訴你歷史由來、相關的人和事,可你要多加了解就要站在那耐著性子讀完。真實的場景是,游客已經走得很累了,曬得或凍得不行了,你還要讓他在一個看不清字的石板上看故事,用戶體驗可想而知。

更先進的方案是自動導覽工具,近年來才開始在景區普及。大多為手機APP,可以根據地理位置判斷你走到了哪個景點,一旦檢測到你進了某個景點的觸發范圍,就可以自動觸發語音講解。這種方式能讓游客將了解文化/故事這一需求通過聽的方式滿足,眼睛就集中在觀賞上,兩個感官得到的信息互相對照,比在石板上看故事好了很多。

但是,問題依然明顯:

  • 所觸發的講解基本上就是直接讀出石板上的字。
  • 你不能對這種方式觸發的講解明確加以控制。你得明確的到某個景點的觸發范圍,但你又不知道具體的觸發范圍在哪,你又不知道一個景點會不會有語音導覽(除非你掏出手機或講解器看一下)。
  • 定位準確度還有待提升。
  • 它每次觸發就是從頭到尾念一遍,根本不管你是不是正在和別人說話,如果哪里沒聽明白或是想重聽,那就還要掏出手機,重新播放,或者去百度。在旅游中碰到不懂的地方再去動手查資料,想想就很煩。
  • 手機開著自動導覽,超級費電(主要是因為定位)!

上圖是一個典型的自動導覽APP界面

除了更了解景點本身,另一個在景區里的高頻需求是找衛生間和買水的地方。傳統方式就是放眼四處看、問工作人員、找牌子。當然,現在導覽APP中都有相關的標注,甚至有些APP還提供導航功能,方便了不少。

總結一下,游客在景區內的主要需求:

  1. 了解某個景點的具體故事
  2. 知道該如何游覽景區(路線規劃)
  3. 找服務設施(衛生間、賣水和食物的地方、休息處等)
  4. 娛樂(聊天、小游戲等)

這些問題,如果可以在一個移動智能設備上解決,這個設備,目前看來,可能是智能耳機。

智能耳機

智能耳機就是把耳機加入人工智能,通過這個設備,你能用語言和外界自由的交換信息。

為什么是語音交互?

Mary Meeker在2016年互聯網趨勢報告中分析指出(如下圖),語音交互有下面幾個核心價值:

  • 解放雙手
  • 更快得到結果
  • 有趣/酷
  • 避免某些設備輸入困難和讓人眼花繚亂的菜單

預計應用場景為:

  • 隨身場景(19%),相關載體為手機、手表、手環、耳機等
  • 汽車場景(36%),相關載體為整車系統、后視鏡、行車記錄儀等
  • 家庭場景(43%),相關載體為電視、音箱、空調、臺燈等
  • 辦公場景(2%),不知道會不會是錘子TNT……


海銀資本王煜泉認為:

語言是人類擁有的一項偉大的進化產物,使得我們協作的效率和復雜程度大大提升。在機器不能達到人類智力水平的時候,我們只好遷就機器,用機器能懂的方式和它交流。但是當機器逐漸具備了理解人類的能力時,我們就應該回歸到對自己來說最有效,也最自然的溝通方式,就是語音。

總之,語音交互更自然、效率更高,在旅游場景下的應用就是隨身場景的一種,在這一場景下,最好的載體就是耳機。

戴著智能耳機去旅行

1.展開想象的翅膀

基于上面的種種需求(加粗部分),我們如果不考慮技術實現,只是想象的話,那電影《她》(Her,導演:Spike Jonze)里面的機器人一定是最佳選項了。

她是一個同時具有人類情感,并且能瞬間獲取信息并給出反饋的AI,如果你在旅游的時候帶著她(其實就是戴著耳機),她可以給你講解,給你指路,對你噓寒問暖,同時你們也可以閑聊,把你的看法和感受告訴她,反正她一定是你喜歡的樣子。

《她》劇照(右耳智能耳機)

甚至造出來生活中你最樂意相處的人(見《黑鏡》第二季第一集),讓一個完全真實的“人”來陪你,可這樣要不要多買門票呢?

2.現實一點

拋開科幻不談,在可預見的未來,結合上面加粗部分需求我們或許能得到這些體驗:

(1)用戶靈活提問,讓智能耳機充當導游(了解某個景點的具體故事)

這是在景區內最核心的需求,讓用戶通過介紹和故事得到意義感。比如在故宮,用戶走到太和殿前,直接就可以和智能耳機說:

用戶:介紹一下太和殿
耳機:……明清兩朝,太和殿均是用來舉行各種典禮的場所,如皇帝登基、冊立皇后、命將出征出征等。清初,太和殿還是舉行殿試的場所,乾隆四十五年后改在保和殿……
用戶:皇帝怎么登基???
耳機:……先要由禮部的官員分別到天壇、先農壇、太廟告知祖先。“至時,鳴鐘鼓,皇帝袞服御奉天門?!泵鞒幕实壑挥性谔貏e盛大的儀式中才穿黃色的袞服,他們日常所穿的是黑色繡龍形的常服……

還可以基于用戶定位,比如用戶站在太和殿前:

用戶:牌匾上寫的是什么字???
耳機:牌匾上是建極綏猷四個字,寓意為:天子承擔上對皇天、下對庶民的雙重神圣使命,既須承天而建立法則,又要撫民而順應大道。
用戶:那對聯呢?
……

用戶可以開放性的問自己想知道的問題,在耳機回答的過程中,用戶還可以根據自己感興趣的點,繼續追問下去。

難點:開放性問題,AI要在場景中以非??斓乃俣日业阶銐蚝线m的答案,這在目前看來還是很難的。

因為同一個問題在不同的場景下用戶想要的答案會很不同,比如上面那個“皇帝怎么登基???”,如果是一個學歷史的學生問這個問題,那他是想得到一個詳細的答案,可能包括詳細的流程,細化到穿什么衣服,什么人要做什么事,為什么要做這些事,等等(當然要耳機提供這種答案是很扯的了,還是對一臺TNT說靠譜)。

有的人,可能就是想知道每一步做什么,三言兩語就說清楚了。在旅游的這個場景下,可能用戶想要的是一個一兩分鐘的簡短介紹。這種一兩分鐘的介紹怎么找,如果沒有現成的要怎么辦?

我們是不斷提高人工智能快速檢索信息,然后再造出適合當下場景回復的能力?或者,有一個公司把每個部分(包括歷史典故、構建經歷、文化等)都編成適合旅游這個場景下的高質量講解,這些講解組成了一個信息源,人工智能只要檢索相關數據庫就可以了。這,可能會成為旅游場景下的得到。

(2)幫助規劃線路

通過對用戶本人的了解,通過簡單的詢問和交流,可以規劃出合適的旅游路線。同時,在游玩途中,可以記住用戶行走的路線,并根據關門時間、旅游計劃、景區內人流分布等,規劃后續的最佳路線。

(3)幫用戶找服務設施

比如用戶想找衛生間:

用戶:這周圍哪里有衛生間?
耳機:最近的衛生間距您500米,您要現在出發嗎?
用戶:現在就去
耳機:好的,您右拐一直走……左拐……

難點:是否可以在耳機中放置傳感器,讓智能耳機知道用戶面向哪個方位。

(4)娛樂

在景區內,可以有語音版的貼吧、留言墻、彈幕墻,游客們可以抒發感想、說出游覽趣事、吐槽,這些內容可以基于關鍵詞或位置,其他人通過說出關鍵詞,或走到相關位置,收聽相關內容、語音點贊。

其他比如歌曲、相聲、有聲書等內容,現在就可以滿足。

(5)其它體驗

  1. 出門時,查到用戶計劃去的景區是否賣水和食物,甚至提前警告景區內的相關商品價格,讓用戶提前做好準備。
  2. 旅行中不可避免的翻譯問題。

3.再現實一點

開放域問題的解答對AI來說很難,短期內,我們可以做一個個skill,相當于手機上的APP,來滿足旅游場景下的主要需求。這個skill可以專門針對旅游這一場景,把功能限制在四個主要的需求上,這樣就可以把語言理解限制在有限的幾個意圖中,同樣,每個意圖下的關鍵詞和話術的組合是有限的。

通過窮盡這些組合,我們可以得到旅游場景下的有限域問答系統,這樣,就可以較出色完成任務。

這個領域短期內可能會呈現如下幾種模式:

  1. 一個skill內有所有的景區內容,智能耳機收到相關問題,并判斷用戶是在旅游場景下(可以根據地理位置和問題關鍵詞判斷),就會調用這個skill,去查找相關的回答。相當于你對小愛音箱說“紅豆”,它會自動認為你想聽這首歌,然后打開QQ音樂,為你播放這首歌。這種模式下,公司可以自己做內容,也可以做成平臺,讓用戶或者第三方產生內容,問題是,怎么讓平臺上的內容生產者有動力持續輸出優質內容。
  2. 或者,每個景區只專注于做自己的skill,只滿足自己景區的需求。游客每去一個景點,都可以在門前的牌子上看到喚醒這個景區skill的喚醒詞,說了這個喚醒詞,在這個景區旅游的過程中都可以調用相關能力。

4.基礎性問題

(1)續航問題:

如果把計算和數據傳輸都放到耳機上,續航可想而知。

  • 一種較好的方案是耳機只負責數據傳輸,將語音識別、處理、生成回答、合成語音等都放到其他設備上,比如手機。《她》中的解決方案類似這種。
  • 也可以將智能耳機的電池倉放入芯片,作為智能中樞,這樣可以每次使用一個耳機,另一個耳機在充電,同時可以有不間斷的智能體驗。

Apple AirPods

(2)反饋時間:

反饋時間會對語音交互體驗造成很大影響。你問人工智能一句話,等了半天沒有反應,過了好長時間突然說了句話,很是嚇人。反饋時間受數據傳輸速度和計算速度影響。

  • 數據傳輸速度:即將到來的5G會讓數據傳輸速度上一個新臺階。
  • 計算速度:是更嚴重的問題,要在較短時間內將語音識別、處理、生成回答、合成語音都搞定。就使用小愛同學的體驗來看,在多次語音交互后,有明顯的發熱,說明這些處理過程還是很耗內存的。如果說了幾句話,耳機或者手機變得特別燙,那還怎么用。

(3)區分說話對象:

用戶獨自旅游的時候智能耳機最好一直處在這個skill中,這樣能快速而準確的應答用戶需求,而不是用戶每問一個問題就要說一句喚醒詞。

但如果幾個人結伴同行,互相聊天時智能耳機總是在搭茬,而且還都是它聽不懂你在說啥,這時,每次單獨喚醒會有更好的體驗。那是否這個skill要有兩種模式呢?

總結

旅游場景下應用人工智能有美好的前景,同時也有很多問題亟待解決。目前情況下,下個APP還是較好的解決方案。

喜歡旅游的朋友可以去App Store或者應用寶下個大雁導游體驗下,就醬~~~<

 

本文由 @吹個大氣球 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自 unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 騰訊搜狗和新東方投資的三毛游APP,在這塊智能體驗上已經做得非常不錯了

    回復
  2. 看到我畫的圖了 ??

    來自浙江 回復
    1. 您說的是語音核心價值那個嗎?那個圖流傳好廣范

      來自北京 回復
  3. 好吧,看到了

    來自上海 回復
  4. 感覺這是個好點子,市面上已經有這類app嘛

    來自上海 回復