大模型混戰這一年: 進化之賽、效率之爭、落地之戰
從技術迭代的迅猛速度到商業化應用的激烈競爭,這篇文章詳細探討了大模型如何在不斷進化中推動行業進步,并在效率和落地之間尋找平衡。
日行千里,烈火烹油的兩年過去,飛速發展的大模型行業怎么樣了?
與兩年前“百模大戰”為技術爭奪的景象不同,玩家們有兩個速度之爭:一是技術迭代和產品更新的速度,二是商業化賺錢和應用落地的速度。
技術和產品的迭代很直觀,直接推動大模型行業的百舸爭流。從語言大模型,到文生視頻大模型,再到3D生成大模型,幾乎每隔幾個月就會有讓人眼前一亮的大模型出現。
大家都在嘗試和摸索。每一次技術的擴大亮相,都會將具有前瞻性的大模型廠商推到聚光燈下,并引發新一輪的行業追隨。
有人領先,就有人追趕。這些尚未成熟的技術,給了探路者彎道超車的機會,也帶來了商業化的壓力。
尤其是進入今年下半年,整個行業的風向更加微妙。市場逐漸對大模型祛魅,資本也回歸理性,行業的兩股勢力也發生了站位的轉換。
一邊是阿里、字節等巨頭投入的動作明顯加快,收編大模型創業公司的核心人才,推出一系列AI產品;一邊是創業公司開始重新評估自身的路線,國內“AI六小虎”有兩家逐步放棄預訓練模型,業務重心轉向AI應用。
這背后,直指行業第二個速度之爭:商業化的效率。
毋庸置疑,當下的大模型賽道高度擁擠,隨著算力成本上漲、算力分配有限,對創業公司而言,大模型這場戰役時間線拉得越長,創業公司的壓力就越大。
“AI大模型(賽道),將只剩下10家企業扮演重要角色?!敝袊こ淘和饧菏繌垇喦谠硎?。這幾乎是行業的共識,最后的勝利屬于少數的玩家。
大模型最終會進化成什么樣,還不確定,但可以確定的是,大模型浪潮下,技術仍在迭代,場景仍在驚艷,商業化也始終在探索的路上。
過去兩年,大模型不缺驚艷時刻,行業也處于百家爭鳴的階段,無論是暫時領先的玩家,還是奮力追趕的玩家,都有機會在奔跑中,搶到更多的蛋糕。
01 3D世界、自主 Agent、思考大模型……大模型驚艷迭代
從ChatGPT的驚艷亮相開始,新一輪的AI浪潮整整奔涌了兩年。AI想象力被重啟,大模型站上C位,圍繞大模型的討論和嘗試也爆發式增長。
大模型的終局是什么樣的?這一問題的答案吸引眾多玩家前赴后繼地卷技術、卷應用。
根據lifearchitect.ai數據,截至目前,全球總共有467個大模型。新技術不斷涌現,行業競速賽愈演愈烈,大模型廠商都在不斷迭代升級,旨在離AGI更進一步。
進入到今年,除了應用上的百家爭鳴,一個明顯的變化在于,以ChatGPT為代表的大語言模型局限性日益顯現。比如,他們只能處理文本領域的任務,無法與物理和社會環境進行互動;雖然大模型語料庫已經十分豐富,但關于人類的價值觀的文本,他們并不具備理解能力……
技術被重構,大模型行業也在不斷改進和進化中,行業在尋找下一個更“類人”的模型或應用。
北京時間12月3日,“AI教母”李飛飛創立的World Labs推出最新成果:世界模型,一張單個圖像即可生成3D世界。
圖源World Labs官網
以往,我們熟知的大多數GenAI工具僅能制作圖像/視頻2D內容。World Labs則實現了在3D中生成,視頻的控制性、一致性能得到改善。World Labs稱,他們所生成場景的獨特之處在于它們具有交互性,而且是可修改的。
這是今年9月份創立World Labs以來,李飛飛團隊推出的首個成果,也是其邁向空間智能的第一步。早在成立之初,李飛飛團隊瞄準的就是空間智能,其初衷就是空間智能的AI,能夠對世界進行建模,同時根據3D時空中物體/地點/交互進行推理。
李飛飛的個人影響力,加之空間智能的想象力,World Labs成立三個月,有消息稱其估值達10億美元。
兩天后,北京時間12月5日,Google Deepmind緊隨其后發布了最新基礎世界模型Genie 2。作為今年初推出的Genie模型的升級版,Genie 2只需要一張圖就能生成可玩的AI系統。DeepMind透露,Genie 2具備從不同視角(如第一人稱視角與等距視角)生成連貫世界的能力,這些生成的世界可持續時間長達一分鐘,盡管多數情況下維持在10到20秒之間。
如果說世界模型展現的是模型理解虛擬世界運作規律,并準確做出預測的能力,那OpenAI今年9月推出的o1系列模型則在于會思考。
彼時,OpenAI CEO奧特曼對o1信心滿滿,“我認為這次 o1 模型發布最重要的信息是,AI 發展不僅沒有放緩,而且我們對未來幾年已經勝券在握?!?/p>
與GPT系列模型不同,o1系列模型有更強大的“思路鏈”,模型會在思考后回答用戶問題,輸出高質量的內容,而非迅速回應無效回答。此外,o1系列更擅長推理,推理能力大幅提升,特別是在奧數、編程等領域展現出了優勢。
行業風向標的新動作,引發國內大模型廠商的追趕。11月16日,月之暗面公布了k0 math;11月20日,Deepseek上線DeepSeek-R1-Lite大模型;11月27日,昆侖萬維推出“天工大模型 4.0” o1 版……無一不在強調大模型的邏輯思考能力。
無論是哪種路線的大模型進化,都讓人類離AGI更進一步。
其中,在應用層面,今年還有一個趨勢不能忽視,人類與機器的互動方式正在發生范式轉變,擁有對話功能的GPT逐漸進化能行動的AI Agent(智能體)。
市場研究機構 Research and Market在11月11日發布的報告中指出,未來五年AI智能體的市場規模將增加420億美元。麥肯錫也表示,AI智能體將是生成式AI的下一個前沿。
具體到玩家的動作上,“有手、有腦、有眼睛”的AI Agent成為玩家搶灘的對象。
10月份,作為最早探索Agent的初創企業智譜,推出自主智能體AutoGLM ;一個月后的Agent OpenDay上,智譜展示了AI Agent的最新成果,包括AutoGLM、AutoGLM-Web、GLM-PC三個版本,對應手機、瀏覽器、電腦的應用場景。
新升級的AutoGLM能夠理解超長指令,執行超長任務,在多步、循環任務中,AutoGLM的速度表現超過人手動操作??梢灶A見的是,當技術足夠成熟,一個Agent就能幫助人操控一切。
此前,微軟Ignite大會上,微軟宣布已建立全球規模最大的企業級AI Agent生態系統;前OpenAI高管創辦的初創公司Anthropic推出名為Claude的AI智能體;OpenAI被傳出將在2025年1月發布代號為Operator的智能體。
在國內,智能體也百花齊放。一邊是手機廠商開始拿出智能體、智能助力講故事;一邊是巨頭下場做智能體。比如字節跳動的扣子、騰訊云的騰訊元器、百度智能云千帆AgentBuilder、阿里云大模型平臺百煉、……
這一年,大模型不缺驚艷時刻。會思考的大模型、會想象的大模型、會預測的大模型,站在大模型技術的潮頭,走向AGI的路上,更驚艷的產品迭代一直在發生。
02 AI視頻,新的角逐中誰都不甘落后
時間回到今年2月,行業軍備競賽持續一年,OpenAI再次將大模型行業推至高潮。OpenAI以世界模擬器的名號發布了視頻生成模型 Sora,讓“一句話生成視頻”變成可能。
行業的加速器來自Sora。追趕Sora、超越Sora,幾乎成了海內外大模型玩家的共識。
在海外,今年5月,谷歌發布對標Sora的文生視頻模型Veo;6月,Luma推出Dream Machine視頻生成模型,AI視頻生成初創公司Runway推出Gen-3 Alpha模型。
將視角放到國內,玩家們為“中國版Sora”爭先恐后,催生兩輪爆發期。
先是今年5月開始,生數科技Vidu、快手可靈、字節即夢、智譜清影、商湯Vimi等都相繼發布文生視頻模型。
今年9月,國產視頻生成大模型又迎來了新一輪爆發。MiniMax正式發布視頻模型video-01、阿里云在云棲大會上發布通義萬相全新視頻生成模型、美圖宣布MiracleVision大模型完成視頻生成能力的升級。
今年11月,騰訊混元大模型正式上線視頻生成能力。目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。另一邊,月之暗面旗下Kimi被爆出正在內測AI視頻生成功能“Kimi創作空間”,可通過12種預設風格模板和自定義創作功能,為用戶制作個性化音樂視頻。
兩輪爆發期間,隨著初創企業和巨頭的入局,AI視頻賽道正變得擁擠。更關鍵的是,經過上半年密集發布新產品的階段,想要在競爭中突出重圍,行業的比拼從“有沒有”升級為“好不好用”。
為了變得好用,升級更新是玩家們的統一動作。在國內,動作最快的莫過于有視頻基因的快手和抖音。
截至今年9月,快手可靈經歷了十次迭代升級。目前,在可靈1.5模型的支持下,可靈AI可以直出1080p高清視頻,挑戰大屏清晰度與質感。在圖生視頻方面,可靈1.5模型可以響應更復雜的文本描述要求。此外,可靈AI還支持運動筆刷、對口型等功能。
可靈AI對口型功能,圖源可靈AI微信公眾號
快手科技2024年投資者日上,快手主站業務與社區科學線負責人蓋坤介紹,已有累計超260萬人使用過可靈AI,并累計生成超2700萬個視頻、5300萬張圖片。
同為視頻賽道的字節,與快手正面交鋒。今年一季度,字節AI研發團隊將視頻生成模型的優先級排在前列。3月底,即夢開啟視頻生成功能內測;9月,字節發布豆包模型家族的兩款視頻生成模型Seaweed和Pixeldance,并通過即夢AI、火山引擎小范圍邀測。
相比于之前的視頻生成模型大多只能完成簡單指令,字節的這兩款模型能讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、目標跟隨等多鏡頭語言能力,能更好地服務在視頻、電影領域的專業創作者。
11月,Seaweed面向平臺用戶正式開放。據字節方面介紹,本次開放使用的豆包視頻生成模型Seaweed是該款模型的標準版,僅需60秒即能生成時長5秒的高質量AI視頻,領先國內業界3至5分鐘的所需生成時間。
從底層技術看,AI視頻賽道玩家的路線基本一致,即采用Transformer架構的新型擴散模型DiT,進行相關擴散、生成的技術突破。也就是說,玩家更多是通過訓練數據豐富產品功能。
這也是字節、快手在AI視頻賽道跑得更快的原因。“Sora們”切入的60s視頻正是字節、快手的基本盤。在短視頻生態下,二者有豐厚的視頻土壤滋養,這種視頻數據的訓練,正是推動大模型“好用”的關鍵因素。
歷經近一年,國內文生視頻大模型賽道進入了Sora時刻。AI視頻大模型的生成能力邁入新階段的同時,我們也要看到行業的焦慮。
從實際落地層面上看,如果是B端商業生產,短劇、電影、廣告對畫面的連續性、一致性要求很高;如果是C端用戶娛樂,對AI生成的最大要求是真實性。
需求倒逼技術,想實現真正的好用,并不容易。
從技術上看,當下視頻模型在理解、創作物理世界方面的表現依舊有限,畫面的連貫穩定、主體的一致真實以及視頻的時長都亟需迭代進化。
從成本上看,當下的視頻技術很難下放到尋常百姓家,名噪一時的Sora至今仍處于研究階段,僅面向少數專業人士進行內測,很大一部分原因就在于高昂的成本。
再回到AI視頻是行業趨勢的這個問題上,廠商們之所以紛紛下注,一方面是因為行業需求催生了市場規模。
頭豹研究院數據顯示,2021年中國AI視頻生成行業的市場規模為800萬元,預計2026年,這一市場規模將達到92.79億元。
另一方面,大模型的商業落地進度越來越迫切,相比于ChatGPT這種聊天機器工具,AI視頻生成是大模型技術商業化落地更具潛力的賽道。
03 效率之爭、落地之戰
兩年,給行業帶來技術革命,也讓行業變得冷靜。
今年7月,2024世界人工智能大會上,百度創始人李彥宏在演講中提到,“2023年國內出現了百模大戰,其實造成了社會資源的巨大浪費,尤其是算力的浪費?!?/p>
李彥宏言辭激烈的背后,是整個行業更加理性。市場期待在模型之中長出能落地的應用,為大模型廠商賺到錢、為各行各業提供效率。
拋開技術問題,這注定是一場應用落地的效率之戰,這也就回到了商業化的問題上。
從去年“百模大戰”,到今年應用之戰,無論是哪個階段,商業化都是大模型行業反復提到的話題。大模型的特殊性在于“燒錢”,技術上的研發成本,應用上的運行成本,每一步都少不了真金白銀的支持,這也是大模型企業們的“緊箍咒”。
在國內,相比于兩年前焦灼地坐上牌桌,爭做“中國OpenAI”的執念,這群AI明星企業將重點放在了商業化落地應用的探索上。
據智能涌現報道,被稱為“AI六小虎”的6家中國大模型獨角獸(智譜、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰)中,已經有兩家逐步放棄預訓練模型,縮減了預訓練算法團隊人數,業務重心轉向AI應用。
這透露了市場兩個曲線,一個是部分初創企業正被困在商業化的焦慮里;二是行業商業化戰線拉長,巨頭的戰斗力更足。
比如去年只發布了語言大模型的字節,今年一口氣補全了視頻、3D、音樂等多領域的大模型。在應用層面,字節陸續推出了十幾個AI應用,覆蓋了娛樂、對話、Agent等多個產品方向。
在C端表現上,下半年巨頭商業化的影響力更為突出。據數據分析機構QuestMobile,字節豆包App今年9月的日活已達760萬,成為中國日活最大的AI產品。
這一趨勢下,大廠和創業公司的角色站位也發生變化。尤其是步入今年下半年,當資本冷靜,一些AI明星創業公司被巨頭收編,大模型創業公司高管加入大廠。
這驗證了大廠堅決投入AI的重要性。AI是個增量,不僅能為大廠原有業務帶來新的想象力,大廠原有的業務場景也可以為AI提供商業閉環。
不過,盡管是資源和場景更為豐富的大廠,面對市場對其巨額AI投入何時能換來回報的質疑時,也有些迷茫。
迷茫的背后,還有個更重要的問題:Scaling Law還成立嗎?
所謂Scaling Law,是大模型行業的一個重要技術原理。具體而言,OpenAI四年前曾經發布過一篇論文表示,模型的性能會隨模型參數量、數據量、計算資源增加而指數提升。
只要Scaling Law 還成立,那么大模型的能力就可以通過算力、參數、數據的訓練實現AGI。
行業仍是積極的。特別是OpenAI推出o1后,標志著大模型能力突破到了L2階段。大模型開始真正擁有了邏輯思維能力,在無人力干預的情況下進行規劃、驗證和反思。
某種程度上,o1打破了預訓練的 Scaling Law 瓶頸,商業上解鎖了新的可能。在OpenAI和智譜給出的“通往AGI五階段”的定義中,兩家公司均將多模態和語言能力歸在L1階段,也就是最為基礎的能力配備。
這個行業,從ChatGPT,到Sora,再到o1,OpenAI仍是具有時代性的公司。也許和過去一樣,哪個大模型廠商能最先追上o1,市場還會迎來一波新高潮。
追趕技術的路上,玩家們不能忽視的是如何把錢花到刀刃上,這是一場技術、應用、場景的效率之戰。
眼下,行業的淘汰賽已經開始,李彥宏曾預測,在未來AI浪潮里,市場中99%的偽創新都將被淘汰,只有1%的企業能夠脫穎而出。誰是這1%,誰能創造“新”世界,要等市場給出答案。
文/王慧瑩 編輯/子夜
本文由人人都是產品經理作者【連線Insight】,微信公眾號:【連線Insight】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!