超強Siri即將到來!蘋果10篇重磅AI研究全總結,iOS 18關鍵一瞥
一直以來,蘋果在大模型、語音助手上的研究不斷推陳出新,或許我們能夠從中獲得iOS 18所具備AI能力的關鍵一瞥。
「Siri太笨,根本無法與ChatGPT競爭」,前蘋果工程師John Burkey曾對Siri的評價如此不堪。
不過,誕生于11年的Siri,終于要迎來翻身的機會。
ChatGPT橫空出世之后,微軟、谷歌等科技巨頭,甚至OpenAI、Anthorpic AI等初創,都在你追我趕激烈地角逐。
在AI競賽上,蘋果卻一直姍姍來遲。
其實,早有傳言和報道稱,在過去幾個月中,蘋果實際上一直再等待一個時機,做出反擊。
先是與谷歌談判被爆出,后是與OpenAI開展合作,預計將AI模型能力整合進下一代iOS 18系統中。
除此以外,蘋果研究團隊也在一直開發自己的模型——Ajax。
而且,最近幾個月,蘋果在大模型等研究上的成果頻出,意味著這些AI能力可能會成為現實。
距6月開發者大會WWDC,也就不過一個月左右的時間,或許我們可以從這些研究中,一瞥蘋果的AI能力。
一、更小、更高效LLM裝進iPhone
相信所有人的期望都是一樣的——想要一個更好的Siri。
而現在看起來,換新的Siri即將到來,完成超強進化!
ChatGPT之后,大模型誕生的數量也是數不勝數,然而許多科技公司都希望LLM能夠賦能虛擬助手,讓其變得更優秀,更智能。
對于蘋果來說,想要讓Siri不再被人,說笨就需要盡快構建這些模型,讓其能裝進手機。
彭博最近報道,在iOS 18中,蘋果計劃讓所有AI功能,都運行在設備上,而且可以完全離線使用。
而現在的困難是,即便你有一個數據中心和數千個GPU組成的網絡,要建立一個良好的多用途的模型,并裝進手機,是非常困難的。
因此,蘋果不得不發揮創意。
在一篇名為LLM in a flash: Efficient Large Language Model Inference with Limited Memory的論文中,研究人員設計了一個系統,可以將通常存儲在設備RAM中的模型數據,存儲到固態硬盤(SSD)上。
論文地址:https://arxiv.org/pdf/2312.11514
具體來說,研究證明了,在SSD上運行的LLM的大小,可以達到可用DRAM的2倍。
與傳統的CPU加載方法相比,推理速度提高了4-5倍,而GPU提高了20-25倍。
他們發現 ,通過利用設備上最廉價的可用存儲模型,模型可以運行得更快、更高效。
此外,蘋果的研究人員還創建了,一個名為EELBERT的系統,可以將大模型壓縮到更小的規模,同時不影響其性能。
通過對谷歌Bert模型進行壓縮后,體積縮小了15倍,只有1.2兆字節,質量只降低了4%。
不過,這也帶來了一些延遲問題。
論文地址:https://arxiv.org/pdf/2310.20144
總而言之,蘋果正努力解決模型領域的一個核心矛盾:模型越大越好用,但在終端上耗電快運行慢。
與其他科技公司一樣,蘋果正在這一點上找到平衡。
二、Siri完成超進化!
蘋果研究AI終歸解決一個至關重要的問題,如何讓Siri變得更加出色。
在內部,蘋果團隊設想開發一種,無需喚醒詞Hey Siri或Siri,就能使用AI助手的方法。
沒有聲音提示,那該如何讓設備通過「直覺」判斷一個人在講話?
這一難題,比語音觸發檢測更具挑戰性。
蘋果研究團隊不得不承認,這是因為可能沒有一個主要的觸發語,來標志語音命令的開始。
論文地址:https://arxiv.org/pdf/2403.14438
這也許就是,為什么另一組研究人員,開發出了一個系統可以更準確地檢測喚醒詞。
論文地址:https://arxiv.org/pdf/2309.16036
具體來說,作者提出了語音觸發(VT)的多通道聲學模型,將前端的多通道輸出直接輸入VT模型。
他們采用了TAC(Transform-Average-Conatenate)模塊,并通過合并來自傳統通道選擇的通道,對TAC模塊進行了修改,讓模型能夠在存在多個說話人的情況下關注目標說話人。
與基線通道選擇方法相比,該方法的誤拒率降低了30%。
而在另一篇論文中,研究人員訓練了一個模型,以更好地理解不太容易被AI助手理解的罕見詞。
論文地址:https://arxiv.org/pdf/2310.07062
在這兩種情況中,LLM的魅力在于,理論上它可以更快地處理更多信息。
例如,在關于喚醒詞的研究中,研究人員發現,如果不試圖摒棄所有不必要的聲音,而是把所有聲音都輸入模型,讓它來處理哪些是重要的,哪些是不重要的,那么喚醒詞的效果就會可靠得多。
一旦Siri聽到你的聲音,蘋果就會做很多工作,以確保它能更好地理解和溝通。
在另一篇論文中,蘋果還開發了一個名為STEER系統,旨在改善用戶與助手之間的交流。
論文地址:https://arxiv.org/pdf/2310.16990
在另一個例子中,它使用LLM來更好地理解「模棱兩可的問題」,無論你怎么說,它都能弄清楚你的意思。
在不確定的情況下,智能對話智能體可能需要主動提出好的問題,從而更有效地解決問題,從而減少不確定性。
在另一篇論文也旨在幫助解決這個問題,研究人員利用大模型使助手在生成答案時不再冗長,更容易理解。
三、蘋果每個應用,將被AI重構
除了關注原始的技術發展,蘋果也非常關注人工智能的日常應用。
對于蘋果來說,一個重點領域就是健康:
LLM可以幫助分析處理各種設備收集到的大量生物識別數據,并幫助理解這些數據。
蘋果可以通過研究收集和整理你的所有運動數據,利用步態識別和耳機來識別你的身份,以及如何跟蹤和理解你的心率數據,來監測你的身體狀況,為你提供合適的安全建議
蘋果還把人工智能想象成一種創造性工具。
在2月發表的一篇論文中,蘋果團隊采訪了一批動畫師、設計師和工程師,并構建了一個KeyFramer系統。
這一系統,可以讓用戶迭代地構建和改進生成的設計。
用戶只需要先輸入一個提示,然后得到一個工具包,可以根據自己的喜好調整和完善圖片的某些部分。
論文地址:https://arxiv.org/pdf/2402.06071
此外,蘋果還有開發了一款名為MGIE的工具,可以讓你通過描述內容來編輯圖片(比如「讓天空更藍」、「讓我的臉不那么怪異」、「添加一些石頭」等等)。
論文地址:https://arxiv.org/pdf/2309.17102
論文中,研究人員表示,MGIE不需要簡短但含糊的提示,便可以明確地推導出視覺感知的意圖,從而實現合理的圖像編輯。
「最初的實驗并不完美,但令人印象深刻」。
未來,蘋果還有可能將AI用在音樂中。
在一篇名為Resource-constrained Stereo Singing Voice Cancellation的論文中,研究人員探索了將歌曲中的聲音與樂器分離的方法。
論文地址:https://arxiv.org/pdf/2401.12068
比如,像在TikTok或Instagram上那樣混音歌曲,這個AI可能會派上用場。
隨著時間的推移,蘋果會在iOS 上,在自身的生態系統中內置一些功能,也會以API的形式提供給第三方開發者。
之前蘋果一直在大肆宣傳自己的硬件能力,尤其是與普通的安卓設備相比。
將所有這些功率與設備上注重隱私的人工智能相結合,可能會成為蘋果一個很大的差異化優勢。
這次iOS 18強勢來襲,網友一如既往地對蘋果期待感滿滿。
值得一提的是,蘋果在多模態大模型方面研究,也引來眾多的關注。
Ferret堪稱蘋果最大型、最雄心勃勃的人工智能項目。輸入提示之后,它可以關注你選擇的特定事物,并理解周圍的世界。
論文地址:https://arxiv.org/pdf/2404.05719
甚至,Ferret還可以幫助你導航應用程序、回答有關App Store評級的問題、描述你正在看的內容等等。
一旦這種技術得以應用,可能徹底改變每個人使用手機的方式,以及Vision Pro和智能眼鏡的使用方。
雖然目前這些都只是研究成果,但是如果能在今年春天開始順利運行,那將是一項聞所未聞的技術成就。
WWDC大會即將發布的大型人工智能模型,必然會把技術狂歡推向新一輪的高潮。
蘋果或會全面改版iPhone產品,也就意味著你的下一臺iPhone不必是iPhone。
這一切都在庫克的預料之中,接下來就等著瞧好吧。
參考資料:
https://www.theverge.com/2024/5/5/24147995/apple-siri-ai-research-chatbot-creativity
本文由人人都是產品經理作者【新智元】,微信公眾號:【新智元】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!