ChatGPT可以讓AI語音助手,變得更聰明嗎?
可能使用過AI語音助手的用戶都有過類似的感受,即這類語音助手似乎并不是特別智能。那么,近期引發互聯網圈、科技圈熱烈討論的ChatGPT,是否可以為AI語音助手這一形式帶來新的可能,讓它們變得更加“聰明”?一起來看看作者的分析和解讀。
AI 語音助手的「蠢」,好像全世界都知道。
不管是 Siri 還是小愛同學,大部分使用過所謂「AI 語音助手」的用戶大概都同意,它們肯定不算聰明。尤其是在 ChatGPT 出來之后,這種對比尤為明顯,甚至包括微軟的最高話事人也在批評自家的語音助手。
微軟 CEO 薩蒂亞·納德拉最近在接受英國《金融時報》采訪時表示,蘋果的 Siri、亞馬遜的 Alexa,微軟自家的 Cortana(中文名:小娜)以及公認拔尖的 Google Assistant,這些語音助手有一個算一個:
都笨得跟石頭一樣。
2014 年 4 月,納德拉剛剛上任微軟 CEO 兩個月后的微軟 Build 開發者大會上,微軟全球副總裁喬北峰正式推出了 Cortana。在最初的幾年,Cortana 表現了不俗的智能,也受到包括納德拉在內微軟高層的集體認可,納德拉在 2016 年還稱贊 Cortana 的智能,并說「機器人是新應用」。
但 Cortana 的智能(橫向比較)和市場份額越來越糟糕,到 2021 年微軟就正式宣布停止支持 iOS 和 Android 上的 Cortana 應用,僅保留對 Windows 平臺的支持。
更重要的是,OpenAI 帶著 ChatGPT 來了,微軟直接拿到了 AI 時代目前為止最好的一張船票。與此同時,語音助手在過去幾年基本陷入了停滯,Siri 的聯合創始人 Adam Cheyer 也承認,ChatGPT 理解復雜信息的能力讓現有的語音助手看起來很蠢。
但換句話說,如果能在語音助手上實現類似 ChatGPT 理解復雜信息的能力,Siri 和小愛同學是不是就能重獲新生?
至少很多人已經開始嘗試了。
一、個人開發者的嘗試
ChatGPT 出現后不久,互聯網上其實就有了一大堆的新想法,聲量最大的一個是改變「搜索」,如今已經成為了搜索引擎巨頭的共識,微軟必應已經在測試,谷歌和百度也提前進行了預告。而另一方面,也有不少人在驚嘆于 ChatGPT 的自然語言溝通能力之余,期望會推出語音助手版本的 ChatGPT,替代掉目前不堪一「談」的語音助手。
在今年又一輪爆發之后,盡管我們還是沒看到 OpenAI 或者微軟推出對應的語音助手版,但已經有開發者進行了大量的嘗試。
xiaogpt,圖/GitHub
在全球最大的代碼托管平臺 Github 上,就有開發者嘗試將 ChatGPT 接入小愛同學,Star 數已經達到了 1.3k。據項目介紹,只要有 ChatGPT 的賬號、小愛音箱、正常連接 ChatGPT 的網絡以及 python 3.8+,人人都可以在小愛音箱上使用「ChatGPT 版小愛同學」。
原理上很簡單,喚起小愛同學后,以「幫我」開頭詢問的問題會自動以文本形式發送一份給 ChatGPT,同時會屏蔽小愛同學原本的回答,替換成「正在問 GPT,請耐心等待」,而 ChatGPT 生成的文本則會被小愛同學通過 TTS(語音合成技術)進行語音回答。
從開發者的演示顯示,整個過程足夠流暢,實際回答也遠超小愛同學原本的「智力」。(具備條件可搜索 GitHub 項目「xiaogpt」)
不僅是小愛同學,另一位更為大眾調侃的「智障」語音助手——Siri,實際上更早就被開發者嘗試接入 ChatGPT。
圍繞 Siri 其實有不少嘗試,其中國內開發者@Yue-Yang 最近就以「快捷指令」形式連接了 Siri 和 ChatGPT,讓 Siri 變成真正的 AI 聊天機器人。在 GitHub 或者「小眾軟件」上你都能找到對應的快捷指令——智能聊天,不過使用條件是需要申請 OpenAI 的付費 API。
「ChatGPT Siri」在原理上與「xiaogpt」類似,利用 OpenAI 的 API(應用程序接口)和 iOS 的特性,先將語音指令轉換為文本再傳遞給 ChatGPT,收到回答后再讓 Siri「讀」出來。在 B 站上,通過搜索「ChatGPT Siri」可以查看對應的演示。
ChatGPT Siri,圖/GitHub
當然,以上兩個項目都是個人開發者的嘗試,也包括其他類似的項目,不管是使用體驗還是上手門檻,都并不適合普通用戶。考慮到語音助手的技術、產品和生態,大公司的入場很可能降低門檻、提高整體的使用體驗。
問題在于意愿和能力,很多公司其實也看到了站在 ChatGPT 的「肩膀」上重新打造語音助手的可能性,但在全球范圍內,真正同時手握 AI 能力和語音助手背后生態的公司總共也就那幾家。
二、巨頭的入場,不遠了
與搜索一樣,ChatGPT 不可能直接取代現有的語音助手。一方面語音交互的優勢在于直接、易上手,很多任務通過觸控、文字輸入等方式不僅繁瑣、更耗時間,同時對于老人、小孩等用戶也偏于復雜,自然的語音交互則能比較輕松地實現。另一方面,ChatGPT 并不能對現實層面進行直接干預,比如我們用 Siri 或者小愛同學操控空調、掃地機器人等。
ChatGPT,或者說生成式 AI 更大的價值在于通過強大的自然語言理解和溝通能力,來改善語音助手的使用體驗。
過去我們總抱怨 AI 太笨,要么答非所問,要么干脆就是「我沒有明白」,基本幾輪對話就會感到心累,轉向對功能性的需求,比如天氣、問題查詢、智能家居操作等。相反,ChatGPT 的對話能力則基本不用擔心,盡管可能會有錯誤信息,但至少不會像 Siri 和小愛同學那樣溝通成本太高。這也是多年的發展停滯之后,語音助手的關鍵機會所在。
2 月底,微軟在推出支持 AI 對話的新必應之后,又支持了 Android 和 iOS 版本,并且在 AI 對話中第一次增加了語音對話功能,用戶如果使用語音開啟對話,新必應也會使用語音回應。不過就現在而言,新必應的語音對話功能還僅限于對話,并不能用來進行一系列操作,比如在手機上喚起某個系統或應用的功能,也不支持設置為默認的語音助手。
語音功能加入,圖/微軟
此外,微軟自家的 Windows 平臺也還未支持,目前為止尚未流出 Cortana 或其他新語音助手加入類 ChatGPT 能力的消息。
而更早些時候,小度官方在 2 月初宣布,AI 語音助手小度將在未來融合百度文心一言的全面能力,同時在此基礎上還將打造針對智能設備場景的人工智能模型「小度靈機」并應用到小度全系產品。而據小度官方數據,搭載小度的智能設備已經進入了 4000 萬戶家庭。
當然,按照百度此前的規劃,文心一言要在本月才上線測試,距離小度全面接入文心一言的顯然還需要一段時間。
另一方面,谷歌也早早看到了這一點。2021 年的 I/O 大會上,谷歌就首次宣布將 LaMDA 大語言模型的對話能力整合入 Goolgle Assistant、搜索和 Workspace。今年 2 月,谷歌推出了類 ChatGPT 的聊天機器人 Bard 之后,接入 Google Assistant 似乎也是題中應有之義,包括 9TO5Google、《連線》雜志也認為谷歌應該這么做。
就像人人都知道語音助手的「蠢」,所有人也看到了 ChatGPT 讓語音助手們至少在理解人類語言和對話上「變聰明」的很大可能。
過去我們都暢想過,有一個數字語音助手可以在日常生活中幫我們解決各種需求,就像《鋼鐵俠》里的賈維斯,現實是 Siri 和小愛同學們距離聽懂人類的話還差很遠,充斥著各種「不明白」「聽不懂」。
的確,現實世界的技術還趕不上科幻世界的想象很正常,但 ChatGPT 背后強大的對話語言能力,無疑可以讓語音助手們能夠更流暢地與我們對話,讓我們更感覺在對話的是一個「智商在線」的 AI 助手,而非對牛彈琴。而對于智能音箱和智能家居廠商,這也意味著更高的用戶粘性和使用率。
更或許,當 AI 越來越聰明并理解人類,智能家居乃至物聯網的未來也會隨之發生巨變。
作者:雷科技互聯網組;編輯:冬日果醬
原文標題:用ChatGPT讓Siri和小愛同學不再智障?我看行
來源公眾號:雷科技(ID:leitech),聚焦科技與生活。
本文由人人都是產品經理合作媒體 @雷科技 授權發布。未經許可,禁止轉載。
題圖來自 Unsplash ,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
哈哈它和其他AI對比確實是最大的感覺是它能聽懂話,雖然也是在說模糊話(它的訓練機制還是很好的,但是至少不會讓人生氣
贊??
寫的不錯,學習了
我也覺得寫的不錯