當做應用成為共識,大模型公司拿出了更多彈藥
“大模型應用時代,新品競爭開啟?!?在人工智能發展的浪潮中,大模型公司紛紛推出新成果。這些新品將如何改變 AI 應用的格局?又會給我們的生活和工作帶來哪些影響?
過去的一周,就像是對明年AI應用領域的激烈競爭進行了一波預演。
OpenAI連續12個工作日的直播繼續進行,完全版的o1,跳票很久的Sora和GPT-4o的高級語音模式,最新的ChatGPT ?Projects功能紛紛上線,其中還夾雜著一些關于AGI的符號性植入,仿佛在暗示這場馬拉松式新品發布的壓軸大戲會與AGI密切相關。
Google也選擇在這周發布了自己的最新大模型Gemini 2.0,不但可以進行多模態的內容輸入和輸出,還支持對Google搜索、代碼執行等工具的使用。同時發布的智能體Project Mariner,實現了此前Google嘗試研發的代替用戶在瀏覽器內執行任務的功能。
此外,階躍星辰發布了Step-1o 千億參數端到端語音大模型,支持語音、文本等混合形式的輸入和輸出,可以實現語音理解和生成的一體化。Midjourney推出了Patchwork,幫助用戶構建更加清晰的故事,并支持與他人進行協作。人們也可以每月支付500美元,雇傭Devin完成從網站到應用程序的構建與部署。
與去年這時候各家大模型廠商重點比拼參數和基礎性能相比,今年的廠商們迫切地想要讓用戶把大模型用起來。
iPhone上的ChatGPT
多模態能力、操作界面和代理執行是這一輪發布的三個重點方向。OpenAI和Google都在這三個方向上推銷著自己的技術能力,同時,國內的豆包、智譜、Kimi、通義等大模型也在朝著這些方向努力。
大模型轉向應用背后,技術路線也在發生調整。前OpenAI聯合創始人Ilya Sutskever本周在神經信息處理系統會議(NeurIPS)上發言指出,盡管存量數據仍能進一步推動人工智能的發展,但互聯網上的數據和石油一樣是有限的,行業正在放棄使用新數據進行大模型的預訓練,這將迫使人們改變今天訓練大模型的方式。
Google在Gemini 2.0發布會上透露的信息顯示,其在大模型技術發展上正在嘗試兩條腿走路:一方面,繼續擴大模型規模,提升基礎性能;另一方面,加強后期訓練優化和推理技術的改進,尤其關注多模態能力的提升,希望讓AI能更好地理解和處理各類信息。
當知識性或事實性數據一時間難以大規模產生,實現「推理—應用」的閉環,能為大模型的能力進化提供一個基于應用數據的穩定訓練環境,繼續能力提升的嘗試。當然,這需要大模型的能力滲透進更多應用場景中,被更大規模的用戶更頻繁地使用。
OpenAI們正在為AI應用的普及提供更多彈藥。
一、多模態帶來更擬人的硬件
OpenAI和Google的發布內容中,多模態都是一個重要的組成部分。即便不從AGI的角度去理解,一個具備看、聽、說等多種感知能力的大模型,也能被看作具備了更接近人的自然交互習慣的能力,就像人形機器人被認為是能夠最大程度適應人類社會的工作環境一樣。
O1大模型引入多模態處理能力的同時,OpenAI終于發布了GPT-4o的高級語音模式。在這個模式下,一場更順暢自然的人機互動成為了現實。在高級語音模式下,四位OpenAI的工作人員流暢地與AI交談,AI能夠通過攝像頭分辨出他們中誰戴著圣誕帽,并一邊「看」,一邊指導其中一位員工做手沖咖啡。
ChatGPT指導制作手沖咖啡
Google發布的Gemini 2.0也增強了其智能體Project Astra的多模態交互能力。Google在今年5月舉辦的I/O大會上推出了Project Astra,能夠借助手機攝像頭觀察理解現實環境,解答用戶的相關問題。這次升級之后,Project Astra可以在多種語言之間進行自然對話,并擁有圖形記憶能力和對話記憶能力。
其中,圖形記憶能力可以讓其記住最近10分鐘內看到的圖像,對話記憶能力則可以儲存和調用60段歷史對話。在一個演示中,一名Google員工讓Project Astra看到一輛駛過的公交車,并向它詢問這輛公交車能否帶自己去往唐人街附近。當然也有展示Project Astra對不同口音和生僻詞匯的理解能力。
當我們看到這些能力演示的時候,一定能夠想到如果智能眼鏡上有了這種能力,是否會帶來更棒的使用體驗?
如果說多模態大模型最終指向的是一個類人的、無處不在的精明助理,那AI硬件一定會是它的核心載體。大模型多模態能力的提升,有可能會讓擁有看、聽、說能力的智能眼鏡站上更大的風口。
作為AI硬件的主要品類,我們在國內已經看到了眾多智能眼鏡產品的誕生,包括百度推出了小度AI眼鏡,Rokid與BOLON推出了Rokid glasses,李未可的Meta Lens Chat,蜂巢科技的界環AI音頻眼鏡,以及被認為會做智能眼鏡的字節、小米、華為等大廠。
雖然不清楚OpenAI的想法,但從Ray-Ban Meta已經搭載AI能力,和Google的一些表態上,可以看到大模型與AI硬件更深度融合的時間點正在到來。Google的工作人員表示,「一小部分人將通過原型眼鏡測試 Project Astra,我們認為這是體驗此類 AI 最強大、最直觀的方式之一?!?/p>
在國內,大模型與硬件的結合也已經成為一門顯學。致力于端側AI發展的面壁智能在上周完成了新一輪數億元融資,其CEO李大海在內部信中表示:「因為端側智能發展的深刻影響,主流消費電子和新興硬件正演變成一個個在不同場景、執行特定任務的超級智能體,成為新一輪科技創業大風口?!?/p>
二、執行能力提升催化智能體
執行能力的提升則是這一波大模型產品能力提升的另一個方向。大模型向應用方向進行拓展,必然需要具備打通不同場景、終端和應用的執行能力。而智能體則是目前公認的能夠實現這種打通的理想載體。
在這周的大模型產品發布中,我們明顯能夠感覺到,OpenAI和Google正在給智能體生態打造更多建設工具。
OpenAI在GPT-4o的高級語音模式中展示了一項屏幕共享能力。在開啟屏幕共享之后,ChatGPT能夠瀏覽用戶的短信,并給出回復建議。這很難不讓人聯想到智譜和Anthropic推出的AutoGLM和computer use能力。觀看和理解屏幕上顯示的內容,是讓大模型學會操作App的基礎。
ChatGPT瀏覽短信
也是在上周,ChatGPT正式接入到蘋果的系統中。特定英語地區的蘋果用戶已經可以在iPhone、iPad和MAC上直接體驗ChatGPT的功能。這是一種混合方案,當Siri覺得用戶提出的問題更適合讓ChatGPT來回答時,系統會請求用戶同意訪問OpenAI服務。未來,OpenAI未嘗不會與Apple Intelligence做更深度的融合。
Google則直接將Gemini 2.0定義成一個面向智能體時代的AI模型,其多模態能力和調用工具的能力都能夠支撐構建AI智能體。在Google展示的一些智能體中,有的可以根據屏幕上的畫面,實時分析游戲情況,并向用戶提出操作建議,還有的能進行深度研究和論文撰寫。
Project Mariner也是基于Gemini 2.0的能力實現的。這也是之前大家所傳的與AutoGLM和computer use類似的產品。在Google的介紹中,這個產品能理解網頁上的復雜信息,并調用Chrome瀏覽器的擴展程序,幫助用戶完成復雜任務。與AutoGLM和computer use一樣,該產品也能幫助用戶執行鍵入、單擊等動作。
OpenAI與Google之外,亞馬遜也在這周宣布建立了自己的Amazon AGI SF Lab。據介紹,這個實驗室由AI初創公司Adept聯合創始人David Luan領導,其核心目標直指打造能在數字和物理世界中「采取行動」的AI智能體,并能處理跨越計算機、網絡瀏覽器和代碼解釋器的復雜工作流程。
很明顯,對于大模型廠商來說,明年的大模型產品一定會在標配多模態能力的基礎上,讓自己擁有更多可影響物理世界的執行能力。而這些執行能力的推出,一方面會繼續帶動手機、PC、汽車等傳統硬件領域的AI化探索,另一方面,也有可能讓更多大廠和開發者找到新的思路,對原有產品的體驗進行自動化的局部改造和升級探索。
三、AI原生的操作界面正在誕生
本周大模型產品發布的第三個變化是AI原生的操作界面正在初露端倪。特別是在OpenAI已經進行的發布中,Sora和Canvas兩天的發布給人印象最深刻的都是對AI原生操作界面的探索。一定會有人從中得到啟發,去思考應該用一種什么樣的操作界面,來實現原有體驗的AI化。
這會是未來一段時間內的探索方向。就像智能手機出現之后,游戲廠商如何去探索一個更適合觸摸屏交互的操作界面一樣,在大模型越來越深度地介入應用場景之后,需要有一個圍繞自然語言搭建的操作界面。我們目前看到的在生成視頻時進行的參數選擇,并不是面向未來的操作界面。
對話窗口可能是一種形態,但不足以支撐多元的信息形態。這也是為什么,OpenAI會推出Canvas作為對話窗口的補充。Canvas事實上提供了一個人與AI交流的「桌面」,大家在聊天的同時,可以把自己手頭的文字、視頻、數據放在桌面上,一同觀看和處理。
Canvas界面
OpenAI在11月推出的ChatGPT桌面應用能夠在MAC上實現與第三方應用的協作,將第三方應用中的內容引入到用戶與ChatGPT的對話中。有科技博主利用這個功能,讓ChatGPT「看」到了Terminal中打開的字幕文件,并生成了能夠將其轉換為純文本文件的命令。
這種協作,形象點說,就是在將Terminal等軟件中的數據、信息擺放到桌面上,讓AI也能看到。然后AI能夠根據自己看到的200行信息,更精準地理解用戶在對話中表述的意圖。當然,Canvas的預覽功能,也是對這種桌面能力的補充,相當于把一個木制的桌面,變成了一個智能的顯示屏。
OpenAI在第七天發布的Projects功能,則是為桌面打造的文件柜,可以將同一個項目的聊天記錄、文件和自定義指令集中在一起,實現更精細化的資料管理。Projects讓用戶能夠更輕松在ChatGPT上打造自己的工作臺。甚至,這個Projects未來可能會集成更多人和智能體,成為一個協作空間。
Storyboard
同理,盡管大家對Sora的視頻生成能力褒貶不一,但對Sora展示出的AI視頻操作界面都給出了比較高的評價。Sora既提供了一些模版化的工具插件,比如可以替換視頻元素的Remix工具,可以拓展最佳幀的Re-cut工具,可以生成重復視頻的Loop工具;又推出了Storyboard,一個擁有時間軸的視頻編輯工具。
未來一年我們應該能看到更多類似的AI原生操作界面的嘗試。這是一種從AI生成能力向AI創作能力延伸的必然。從更大的視角來看,大模型也到了讓更多場景、更多行業、更多人感知到和使用起來的階段了。只有這樣,才能維持住大家對大模型的信心,讓大模型發揮應有的價值,抵消一部分質疑的聲音。
作者 | 李威
本文由人人都是產品經理作者【李威】,微信公眾號:【窄播】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!