2024 大模型年度五問:等不來GPT 5怎么過?
這一年,AI領域經歷了翻天覆地的變化,從大模型的分化發展到視頻生成技術的突破,再到AI編程和智能助手的興起,每一項進步都在推動著我們向更智能的未來邁進。在這篇文章中,我們將回顧2024年AI行業的五大核心問題,這些問題不僅定義了今年的技術趨勢,也為2025年的發展方向提供了線索。
2024這一年中,我們見證了AI行業諸多令人興奮,卻又有些坎坷的進步。
從跳票一年終亮相的Sora,到o3掀開推理側大發展的序幕,以及DeepSeek V3帶來的驚喜與爭議,這一切的繁榮,似乎讓人覺得AGI似乎就在不遠的前方。
然而,另一方面,大模型商業化、落地的困境,卻仍舊沒有得到解決,眾人期待中的SuperApp,也還是沒有出現。
與此同時,近乎耗盡的訓練數據,以及Scaling Law 即將“撞墻”的傳聞,也不由讓人對AI的遠大前景產生了一絲隱憂。
今天,在2024行將結束之際,就讓我們一一盤點今年AI行業的幾大主要進展及趨勢,并通過5個核心問題,探尋2025年大模型走向何方?
一、要不要做預訓練,Scaling Law是否還有效?
當有人質疑本次的AI革命,是否會重蹈前兩次革命失敗的覆轍時,Scaling Law總能讓人拾起信心。
因為它讓當前的AI,找到了一種基于“數據-規模-能力”的正向循環系統。這也是AI實現持續進化的根本所在。
然而,這個讓奇跡不斷涌現的“黃金定律”,今年似乎不再那么靈了。
今年11月,The Information的一份獨家爆料聲稱,GPT系列模型改進緩慢,下一代旗艦模型Orion并不像前代實現巨大的飛躍。
這篇文章直擊OpenAI痛點,提出Scaling Law逐漸放緩,原因之一是高質量文本數據越來越少。
此文一出,AI圈立刻炸了鍋,眾人對LLM能否通向AGI的質疑聲此起彼伏。
然而,沒過多久,OpenAI研究員Adam稱,Scaling剛剛找到了另一套「齒輪」!o1系列模型scaling的兩個重要維度——訓練時間和測試(推理)時間。
一時間,Scaling的定義似乎悄然發生了改變,在這個新的維度,模型性能不再僅僅受限于預訓練階段,現在可以通過增加推理計算資源來提升模型表現。
于是,以o1為代表的,一批試著以“深度推理”改變Scaling范式的大模型紛紛涌現了出來。
例如,DeepSeek (深度求索)推出了 R1-Lite ;Kimi(月之暗面)推出了主打數學能力的推理能力強化模型 k0-math;阿里先后推出 Marco-o1、QwQ 兩款推理模型;昆侖萬維推出了 Skywork o1 。
在具備深度推理能力后,大模型的自我反思、學習能力提升明顯。
在OpenAI和智譜給出的“通往AGI五階段”的定義中,二者均將多模態和大語言模型能力歸在L1階段,也就是最為基礎的能力配備。而o1的出現,則標志著大模型能力突破到了L2階段。
國產選手里,確實有不少深度推理類大模型,在推理鏈上做了不少功夫,例如R1-Lite這類大模型,在處理復雜問題時,思路展示得特別詳細清晰。
差距最明顯的地方,說白了就是”深度”和”連貫性”。
拿數學題來說,DeepSeek-R1-Lite、K0-math這類模型,面對長鏈路推理時,模型思維鏈有時會失敗,會承認超出能力范圍,但也會陷入死循環狀態。相較之下,o1卻能一口氣推導出8-10個步驟,而且每步都嚴絲合縫。
12天春晚發布的o3,進化幅度更是夸張。從 0% 到o1的 5%,整整花了五年的時間;從o1的 5% 到o3的 87.5%,只花了半年。
GPT 5遲遲不能出現的情況下,大模型在推理側瘋狂生長。
二、Sora不如預期,現實還能存在多久?
如果要為2024年的大模型,找一個最耀眼的類別,那這樣的桂冠,或許非視頻生成類大模型莫屬。
在2024年2月初,OpenAI推出的文生視頻模型Sora,以驚艷的表現震撼了全球科技圈。憑借通過文字生成高清、流暢視頻的能力,AI讓人們看到了“一鍵生成萬千世界”的可能。
當時業內甚至有人認為,其對現實物理規律的模擬能力,是打造“世界模型”,并讓人類最終通往AGI的途徑之一。
“Sora類”模型突破的背后,則是DiT(Diffusion Transformer)架構的創新。
DiT架構賦予Sora等視頻生成模型前所未有的時間—空間建模能力,通過將擴散模型的去噪機制與Transformer的動態特性結合,提升了視頻生成的連貫性和靈活性,使其能夠高效生成長時序、高分辨率且視覺一致的視頻內容。
從字節跳動的“即夢”到快手的“可靈”,再到智譜的“清影”,以及后來MinMax的海螺AI,都代表了國產文生視頻技術在這一年迅速發展。
在眾人對Sora望眼欲穿的日子里,可靈憑借2分鐘、1080P、每秒30幀的高規格視頻生成能力,滿足了人們對文生視頻AI最大的渴望。
然而,興奮之余,務實的人們卻發現,大模型商業化的困境,卻沒有隨著文生視頻類AI的“奇跡”迎刃而解。
雖然在2024年,《山海奇鏡》等AI短劇的出現,似乎為這一賽道增添了幾分光彩。
然而,這種由少數專業團隊支撐起來的“奇觀”,影響仍局限在業內的小范圍。
高昂的生成成本、不穩定的輸出質量,以及有限的應用場景,共同構成了阻礙文生視頻AI大規模商業化的重重屏障。
據業內調研顯示,目前5秒左右的高質量AI視頻生成成本約為1-3元,但由于AI生成的不穩定性,創作者往需要反復生成,才能得到滿意的結果。例如《白骨精前傳》的AI短劇作者Danny,就花了五六千塊。
這一成本,仍然令普通的C端用戶望而卻步。
同時,一種AI版的“恐怖谷”效應,也成了除了直接的技術外,阻礙AI視頻被大眾接受的“工藝”問題。
好在2024年,尚顯稚嫩的視頻AI,仍在蹣跚學步,但12月份Sora的正式發布,以及可靈1.6和Google Veo 2給這一片惆悵的灰色中,增加了一抹新的色彩。
在12月的“12 Days of OpenAI”活動期間,OpenAI終于宣布推出“鴿”了10個月之久的Sora模型,相比于早期版本,Sora Turbo的生成效率大幅提升。
Sora在模型端的表現并不令人驚喜,甚至比國產的沒有表現更好。但其對視頻的可編輯性,對Sora類工具走向實際應用的產品化,邁出了重要一步。這樣的收尾,總算是給不太圓滿的視頻AI,在年末畫上了一個振奮人心的句號。
三、AI coding興起,程序員會失業嗎?
回望2024年AI編程領域的變化,一個最矚目的問題是:AI真的會取代程序員嗎?
2024年,隨著 AI編程領域開始從Copilot向Agent轉型,對專業開發者而言,AI將逐步承擔代碼測試、審查和遷移等重復性工作,提高開發效率。
而在眾多涌現的AI編程工具中,Cursor則像一匹黑馬,憑借AI驅動的智能代碼助手和用戶友好的工具界面迅速躥紅,甚至引發了行業內對AI代理未來可能性的討論。
這個4名本科生打造的編程“神器”Cursor,年化收入已經達到了6500萬美元。
要說Cursor為什么這么火,其實答案很簡單:它抓住了開發者真正需要的東西,同時又做得特別聰明、特別到位。
和傳統的代碼編輯器比起來,它直接就把AI變成了開發過程的核心助手。你不用再花時間到處找插件、改配置,從代碼補全到自動生成邏輯,全都內置搞定。
同樣地,OpenAI的Canvas也是今年的重頭戲之一。Canvas基于GPT-4o,為用戶提供了一個專門的協作平臺。其最大的亮點是透明化了代碼修改的過程,程序員不僅能看到改動的細節,還能通過自然語言指令快速優化代碼結構。
而谷歌的Jules則瞄準了更深層次的編程應用。這款工具不僅結合了Google的Gemini 2.0模型和深度代碼分析能力,自動生成解決方案,甚至可以與GitHub等平臺無縫集成,完成從需求分析到代碼實現的全流程。
要說今年的AI編程,為何取得了如此大的進展,那恐怕要歸功于ReAct(Reasoning and Acting)框架的突破。
這是讓AI編程助手實現從”輔助”到”自主”轉變的關鍵技術。它通過將推理(Reasoning)和行動(Acting)緊密結合,建立了一套”思考-行動-反饋”的循環機制,讓AI首次具備了真正的問題解決能力,而不是簡單的模式匹配和代碼生成。
在這樣的突破下,有人調侃,有了AI,將來寫代碼就像聊天一樣簡單,用自然語言說出需求,AI就能給你一套解決方案。AI似乎正在把軟件開發這個高大上的領域,變得像做PPT一樣簡單。
這樣的進步,讓人產生了一種“將來程序員都要失業了”的錯覺,確實,AI現在幫我們搞定了很多從前費時費力的活兒,但在專業的業內大佬看來,AI Coding 雖然功能強大,但偶爾生成的邏輯會讓人覺得“AI還在學走路”。
就連谷歌CEO劈柴也承認:”所有AI代碼都必須經過工程師的“人工”審核和驗收”。盡管如此,今年的AI Coding,確實打開了想象的空間,讓軟件開放從“純人腦的作品”開始逐漸變成“人與機器協作的產物”。
四、真Siri來臨,能開啟智能硬件第二春?
2024年的語音AI發展,用一種革命性的方式,重新定義了人機交互范式。
回想《Her》里那個溫暖有感情的虛擬助手Samantha,不少人曾以為這是遙不可及的幻想。
但今年,OpenAI的GPT-4o、科大訊飛的星火模型、字節跳動的豆包,還有智譜清言等,都在用各自的技術證明,這種科幻的想象,現在真的照進了現實。
與傳統的TTS(文本到語音轉換)技術相比,像GPT-4o這樣的新一代端到端語音大模型的最大亮點,就在于它能“懂場合”、“通人性”。
簡單來說,傳統的TTS技術多半是以靜態規則為主,比如為特定句子設計語調模板,但GPT-4o這樣端到端語音模型,不僅能通話中實時做到感知上下文,且能靈活選擇聲音的節奏、語氣,甚至能被打斷和停頓。
有了這種更“人性”的特點后,各個AI企業各顯高招,從總體上看,實時語音AI的賽道,在2024年,大致呈現出了“多語言”、“個性化”的特點。
例如科大訊飛的星火大模型4.0 Turbo,不僅支持74種語言和方言,還引入了“超擬人”特性,通過個性化定制功能,讓用戶可以和AI助手形成更貼近現實的交流方式。
雖然在2024年,語音AI已經讓人覺得“科幻照進現實”,但這個“現實”還有點“昂貴”。
從行業角度看,這波實時語音AI的競爭,比拼的其實是”算力經濟學”。
為了應對實時語音的高昂成本,聰明的公司開始搞”算力分層”。簡單對話用輕量級模型,復雜問題才上重型火力。
這也是為什么,在視頻通話這種場景下,如果涉及到多模態交互,尤其是需要結合視覺線索或復雜上下文理解的時候(例如長文章或代碼),語音AI的表現也常常不如文本模式下的大語言模型——回復的深度和質量會明顯遜色。
總體來說,當前的語音AI,雖然給了行業驚鴻一瞥的驚喜,但要真正成為一個得力的智能助手,它需要的不只是更流利的語音,而是多項功能的整合。
五、AI Agent,噱頭還是即將落地?
2024年的AI Agent,不再僅僅是大模型的附屬品,而是開始以獨立角色,重新定義智能交互的邊界。
像智譜的AutoGLM、Anthropic的Claude Computer Use,榮耀的手機AI助手,以及谷歌剛剛在年末發布的瀏覽器Agent助手Project Mariner等,正在逐漸將科幻里的“萬能助手”變成現實。
從總體上看,今年的AI Agent,大致呈現出了兩個方面的特征:
一是跨APP的Agent能力更強
以前一直有句話叫App墻,不同APP直接難以逾越。
現在這種“執行層”的變革,讓AI擺脫了傳統APP間的界限,使未來一種統領“千百APP”的超級應用成為了可能;
以谷歌的Project Mariner為例,這款瀏覽器Agent可以理解和操作網頁上的所有元素,包括文本、代碼、圖片和表單。它不只是單純瀏覽,而是能夠完成從信息搜索到購買、表單填寫等一系列操作。
而Anthropic的Claude Computer Use,則專注于電腦端操作,能用鼠標和鍵盤模擬用戶行為,完成文件編輯和多程序協作。二者都展示了Agent在處理復雜的多模態任務時,進行多種工具調用的適配能力。
二就是CUI時代漸漸來臨
一句話點200杯咖啡,一句話發2萬的紅包。
像智譜的AutoGLM,以及榮耀的手機AI助手,可以通過簡單的語音指令完成手機端和跨APP的復雜任務,比如訂咖啡、對比航班價格甚至建群發紅包。
如今,正從GUI(圖形用戶界面)向CUI(對話式用戶界面)時代轉變。
蘋果在對GUI的巨大貢獻,引發了一場交互革命,如今AI公司正在引發新的交互顛覆性創新。
此外,2024年的AI Agent技術,帶來的另一個驚喜,是AI在游戲行業的突破。
尤其是網易伏羲在《永劫無間》手游和騰訊的《暗區突圍》的AI隊友,在結合了多模態技術后,已經不僅僅是傳統意義上的“NPC”,而是一個能聽懂語音指令、實時調整策略、甚至和玩家情感互動的“智能隊友”。
這些突破性的應用,讓AI不再只是游戲中的“工具”,而是玩家的真正伙伴。
從趨勢來看,AI Agent正在向多模態能力和更深層次的智能化發展。
結合視覺、語音、文本等多模態信息,它們能夠更全面地理解用戶需求,并從一個“對話工具”成長為“得力助手”,逐漸正帶領我們進入一個更加無縫和高效的智能時代。六、結語
在這個充滿變數與驚喜的2024年,AI就像一個正在成長的孩子——有時笨拙,有時驚艷,但始終充滿無限可能。
盡管道路上有數據枯竭的憂慮,有商業化的陣痛,有技術的不完美。大模型支撐著AI原生應用高速發展,2025年被譽為AI發展元年,未來會越來越精彩。
作者|林書 編輯丨楊曉鶴
本文由人人都是產品經理作者【AI鯨選社】,微信公眾號:【AI鯨選社】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!