Sora終于來了,但多模態AI呼喚實用主義
這篇文章深入探討了多模態AI技術的現狀與未來,特別是在OpenAI發布全新視頻生成模型Sora Turbo之后。作者分析了Sora在實際應用中的局限性,指出其在視頻時長、生成效果一致性以及指令遵循方面的不足
一、Sora的現實問題
隨著ChatGPT等大語言模型的問世,人工智能進入了一個全新的時代。在這股浪潮中,多模態AI技術成為業界競相追逐的目標,OpenAI的Sora更是將這股熱情推向高潮。
等待了299天之后,屢次跳票的Sora終于來了,OpenAI在北京時間12月10日凌晨正式發布了全新視頻生成模型Sora Turbo。
然而,從實測的效果來看,Sora的效果并沒有帶來太多驚喜,無論是在視頻時長、生成效果一致性、還是指令遵循方面,都沒有明顯強于市面上的已有視頻模型。
事實上,Sam Altman將Sora比作視頻版GPT-1的說法其實暴露了這個項目的尷尬處境。因為GPT-1更像是一種實驗性模型,不太適合作為直接可用的生產工具,它主要被用作科研領域的參考。
在投入大量資源和時間后,Sora如果呈現的只是一個概念驗證級別的產品,如果真如GPT-1一般需要經過多次迭代以及技術突破才能達到實用水平,那么考慮到視頻生成所需的巨大算力投入和數據需求,這種戰略選擇的成本效益比恐怕令人擔憂。
一邊用夸張的宣傳和神秘感制造期待,一邊交出的卻是一個并沒有多少突破性進展的產品。特別是在2024年末這個時間點,當國內外競爭對手已經通過快速迭代實現了類似水平的效果,這種“落差”的表現略顯尷尬。
不可否認,Sora的發布代表了多模態AI技術的重要里程碑。它展現了一個“會預測未來”的AI系統的雛形,讓人們對通用人工智能(AGI)的到來充滿期待。只不過,這次OpenAI已經不再將Sora稱為“世界模擬器”了。
關于Sora的技術局限性的爭論由來已久,例如,Sora在生成視頻時常出現邏輯錯誤,如物體運動不符合物理規律、因果關系混亂等問題,現在的Sora Turbo顯然也沒有解決這一問題。早在年初,Meta首席科學家楊立昆就直言,Sora的生成式技術路線“注定失敗”,因為其依賴于大規模數據訓練的概率模型,無法真正理解物理世界的因果關系。此外,Sora的生成過程更多是對已有數據的擬合,而非創造新知識,這使其在模擬真實世界方面仍有很長的路要走。
夢想總歸要回到現實,除了技術成熟度,Sora在產業化方面還存在諸多挑戰:
首先,Sora的訓練和應用成本極其高昂。據Factorial Funds估算,如果Sora要大規模應用,還需要約72萬片英偉達H100 GPU的支持,這意味著216億美元的硬件投入。如此天價的算力消耗,讓Sora很難在短期內實現商業閉環。
其次,Sora在落地場景方面尚不成熟。盡管Sora已經正式發布,但在效果上離真正的“世界模擬器”差距甚遠,現階段更像是一個玩具而無法成為一個真正實用的創意工具??梢哉f,Sora離真正的“iPhone時刻”還有相當長的路要走。
就像上世紀60年代的核聚變發電:展示出令人震撼的潛力,吸引了大量投資和頂尖人才,但隨著研究深入,技術難度和資源投入卻呈指數級增長。雖然每隔幾年就有突破性進展的報告,但要實現真正可控、穩定的商業應用,始終像隔著“永遠差30年”的距離。
所以,如今的Sora面臨這樣一個困境:在完美的演示視頻背后,是否存在不可逾越的技術瓶頸?這種追求完美視頻生成的路徑,會不會最終被證明是一個代價高昂的技術死胡同?要將實驗室的演示轉化為真正有價值的應用,可能比我們想象的要困難得多。
對此,百度創始人李彥宏在最近接受采訪時曾表示:“如果真的能夠做到任意場景下視頻生成,那可能要很長很長時間,而且成本很高?!庇纱丝梢?,百度并非不重視Sora所代表的技術方向。只是基于務實的判斷,選擇了另一條路線。
二、“應用驅動”成為第一性原理
與許多廠商專注于打造Sora這樣的通用文生視頻模型不同,百度智能云的著眼點在于幫助客戶實現多模態應用的落地。正如李彥宏所言,“我們更關心怎么幫用戶把應用跑起來”。事實上,在眾多行業客戶的實際場景里,他們真正需要的是在自己的應用中擁有可靠的多模態能力,而不僅僅是一個裸的通用模型。百度智能云深諳此道,通過多年來在多模態領域的深厚積累和大量工程化實踐,以更簡單快捷、低門檻的方式賦能客戶,讓多模態應用能夠開花。這也是百度暫不直接做Sora,而是聚焦應用落地的重要原因。
不做Sora,并不意味著百度在多模態AI領域缺席。恰恰相反,百度一直在多模態領域有著長期而深厚的積累,只是選擇了一條應用驅動的路線。
隨著當前大模型性能增長遇到瓶頸,AI正在進入“冷靜期”。海外AI巨頭從追求AGI轉向務實路線,OpenAI嘗試轉向盈利性商業化運營,谷歌、微軟等紛紛聚焦商業變現和產業應用,重點發展To C業務、企業服務和開發者生態。
正如歷史上的典型的技術周期:高期望→泡沫→冷靜期→務實應用。行業需要從“技術優先”的邏輯切換到“應用優先”的軌道,通過實踐中反饋的需求和問題為技術發展指明方向。
那么,什么是“應用驅動”?簡而言之,就是從真實應用場景出發,梳理AI落地的關鍵問題,并聚焦資源予以解決,最終讓技術產生實際價值。這有別于動輒“顛覆性創新”、追求酷炫Demo的做法。在李彥宏看來,“我更多希望盡早接觸場景及接觸應用,看在這個過程當中,到底遇到了什么問題,把這些問題帶回來,我們綜合一下,看大家遇到的最多的問題,就是我們優先解決的問題。”
這種理念,與當年云計算之于互聯網的關系有著異曲同工之妙?;厮輾v史,正是得益于云計算平臺在基礎設施層面的支撐,互聯網企業才能將更多的精力聚焦在業務創新上,加速用戶需求與技術能力的迭代融合,最終催生出一個繁榮的應用生態。
如今,百度智能云正是希望在多模態AI領域扮演這樣一個“助推器”的角色。通過在算力、平臺、安全等多個維度提供支持,讓更多的企業和開發者無需在復雜的模型訓練、部署、應用開發上“翻山越嶺”,而是專注于挖掘行業需求、打造可用的智能化應用,讓多模態AI從實驗原型逐步發展為日常工具。
站在這個思路上審視多模態AI,就不難理解百度智能云的戰略選擇。在多模態AI落地的過程中,有兩大關鍵挑戰亟待攻克:一是實現更自然的人機交互,二是提高模型的可控性、盡可能消除幻覺。單純的視頻生成模型雖然看上去很酷,但還難以很好地解決這兩大問題。反而是在一些垂直領域,用更簡單實在的多模態技術,就能讓AI先跑起來。
比如在工業質檢領域,結合圖像識別和文本描述的多模態系統已經能準確找出產品瑕疵并生成詳細的檢測報告;又如在醫療影像診斷中,將X光片、CT等圖像與病歷文本結合分析的方案,已經在多家醫院實現規模化應用。這些看似日常的應用,才是AI真正創造價值的開始。
這正是百度多年來在多模態AI領域的投入方向。李彥宏強調,“外界有一種誤解就是百度不做Sora,就等于是百度不做多模態。我們非常非??春枚嗄B,我們也在多模態上有非常長期的多年投入,在真正有應用場景的地方,我們的多模態能力是非常強的。”
三、多模態AI的“地基”
多模態AI的門檻高、難度大,這是業界公認的痛點。各類模態數據的處理、模型訓練的調優、推理服務的部署,每一個環節都需要大量的專業知識和工程經驗。這無疑阻礙了多模態AI在更廣泛行業中的應用。百度智能云是如何支撐多模態技術大規模落地的?
在模型訓練層面,百度智能云的百舸計算平臺實現了主流多模態大模型的全覆蓋,除了支持MLLM、CogvIm2、Qwen2-VL等業界領先的多模態模型,還針對多模態訓練的特點提供了一系列優化方案。其中,“多芯混訓”可以兼容英偉達、昆侖等多種芯片,充分發揮芯片的異構性能,并能在萬卡規模下將兩種芯片混合訓練下的效率折損控制在5%以內;“長上下文訓練”則突破了序列長度的瓶頸,為多模態模型拓展了更廣闊的應用空間;“大集群高效訓練”的并行策略,進一步提高了多模態訓練的效率,使萬卡任務上的模型有效訓練時長占比達到99.5%、端到端的性能提升30%。
在模型推理方面,百度智能云同樣展現了全棧式的優勢,百舸適配了各類客戶場景,既支持用戶自定義鏡像部署,滿足個性化需求;又能在英偉達、昆侖等異構芯片上實現推理服務,兼顧成本與性能;針對主流的文生圖、文生視頻、多模態模型,還提供了一系列加速優化方案,通過架構分離、KV Cache、負載分配等一系列加速工作,讓長文本推理效率提升了1倍多。
作為一個全棧式開發平臺,千帆平臺提供了不同層級的開發路徑。對于普通AI應用開發者新手,千帆ModelBuilder提供開箱即用的多模態能力,涵蓋圖像生成、理解、視頻生成等熱門領域。用戶只需調用API接口,即可實現多模態交互,無需理會背后復雜的模型結構和訓練過程。除此之外,千帆AppBuilder作為企業級應用開發平臺,可以幫助客戶和開發者不斷降低應用開發門檻,提供豐富的多模態能力,包括文生圖、圖像內容理解等圖片處理組件,短語音識別、短文本在線合成等語音處理組件以及數字人功能等,同時可實現多渠道對外集成分發,滿足更豐富的應用需求場景。
對于追求定制化的企業用戶,千帆提供靈活的定制化服務。用戶可利用平臺的數據處理、模型訓練、推理優化等工具,構建匹配自身業務場景的多模態解決方案,支持從數據處理到模型訓練的全流程開發。平臺還集成了主題模型庫,覆蓋智能客服、數字人、知識管理等熱門領域,幫助用戶快速搭建行業性多模態應用。
具體來看,千帆平臺提供了非常全面、靈活的多模態服務方案。如果客戶需要直接使用多模態大模型,可以在千帆上一鍵調用包括百度文心一格、Stable Difusion、Vidu等在內的主流模型,覆蓋從文生圖、文生視頻到圖像理解等多個應用領域。如果客戶希望定制化訓練和微調專屬多模態大模型,搭建個性化應用,千帆平臺同樣提供強有力的算力和工具支持。
無論是復雜模型的訓練,還是大規模推理能力的實現,云服務都在背后扮演著關鍵角色。通過提供這些基礎設施服務,百度智能云幫助開發者和企業更專注于應用創新,而不必過多關注底層技術細節。
除此之外,百度智能云還將多模態能力進一步沉淀到行業解決方案和產品中。比如在工業領域,打造了“一見”視覺大模型平臺;在智能客服場景,提供多模態對話能力;在數字人領域,實現了文生3D視頻??梢哉f,百度智能云的多模態服務已經滲透到各行各業的關鍵生產力環節,以更貼近需求的方式幫助企業提質增效。
四、不做Sora,是為了更多的Sora
在百度智能云支撐下,越來越多的創新企業與開發者已經匯聚于此,借“他山之石”,砌筑自己的“高樓”。
生數科技就是其中的典型代表。這家致力于多模態大模型研發的明星企業,在百度百舸平臺的加持下,推出了國內首個純自研的視頻大模型Vidu。通過百舸平臺超強的容錯能力和訓練加速能力,生數科技將Vidu訓練素材渲染加速效率提升了3倍,數據拉取效率更是提升了51倍,可以說,百度為這個“國產Sora”的誕生提供了堅實的算力保障。
類似的案例還有哇嘶嗒(VAST),這家3D-AIGC領域的佼佼者同樣將百度智能云視為AI創新的“壓艙石”。其面世的3D內容創作工具“Tripo”備受全球矚目,被稱為3D領域的“GPT-4”。而這一切的背后,正是百舸平臺在算力、成本、工程化等方面的全方位賦能,幫助VAST快速構建起強大AI基礎設施,獲得成熟的AI工程化能力。
當然,多模態AI生態的觸角遠不止于內容創作領域。以光魔科技為例,這家企業就瞄準了AIGC平臺的普惠化。在百度智能云視頻解決方案以及百舸平臺的加持下,光魔科技推出的“白日夢AI”實現了一鍵式的文生視頻能力,讓每個普通用戶都能“編出”專屬影片,已經擁有大量忠實擁躉。
除了聚焦前沿技術的創業公司,百度智能云還在為百勝中國這樣的“傳統巨頭”提供服務。依托百度智能云的大模型能力和智能客服解決方案,這家餐飲巨頭打造了特色AI客服系統。該系統能夠關聯上下文、精準識別客戶真實意圖,提供更好的售后服務支持,同時還能輔助人工客服快速總結訴求、優化服務流程。這為百勝中國節省了大量客服成本,同時又提升了用戶滿意度。
由此可見,百度智能云正以其“地基”般的算力支持、有梯度的開發平臺,為整個多模態AI生態提供源源不斷的“能量”,在未來孵化了出更多的“Vidu”、“Tripo”,乃至更多的“Sora”。
五、“解決問題的AI”
對比云計算對互聯網產業的變革,以AWS為例,它不僅改變了企業的IT基礎設施,更重要的是催生了新的商業模式和創新企業生態。進入AI時代,多模態AI代表了人工智能從專項能力到綜合認知的重要躍升,這種突破不僅體現在技術維度的拓展,更反映在應用范式的轉變上。
AWS的AI時代的實踐同樣提供了一個很好的觀察樣本:在傳統AI開發中,需要針對特定問題進行精心設計和訓練。但在生成式AI時代,AWS認為成功的產品化之路不應局限于單一模型的性能競爭,而是要著眼于更廣闊的技術組合與應用場景,更多強調“降本增效”、“實用”的AI。
技術永遠只是手段而非目的本身。多模態AI正在重構傳統的價值鏈條,這個過程中的關鍵在于如何將技術創新轉化為可落地的解決方案,使不同規模、不同行業的企業都能找到適合自身的數字化轉型路徑。
特別值得關注的是,不同于過往依賴單一技術平臺的垂直整合,新一代AI基礎設施更強調開放協作。這種模式使得不同規模、不同行業的企業都能找到適合自身的數字化轉型路徑,從而讓AI成為真正能夠解決問題的AI。從這個角度來看,百度智能云和AWS顯然站在同一戰線上:通過構建開放、靈活的AI基礎設施,降低技術使用門檻,讓AI真正服務于產業創新。
六、結語
在全球AI競爭日益激烈的背景下,不同企業呈現出截然不同的技術路線和發展策略。這是無可厚非的,在這個仍處于摸索階段的賽道上,技術和商業路線的多樣化不僅有利于推動整個領域的創新突破,也能為不同場景和需求提供更豐富的解決方案。
市場研究和咨詢公司Omdia在最新發布的報告中指出,將技術轉化為可落地的解決方案同樣關鍵。百度智能云在多模態生成式AI技術和商業成功方面展現了領導力。Omdia預計,百度智能云將繼續在中國引領多模態生成式AI應用的部署和實施。
百度“應用驅動”的思路或許啟示了我們:AI技術的發展不應陷入簡單的技術競賽,而是要著眼于更加可持續的商業價值和社會價值。通過深入產業、理解需求,將創新成果轉化為切實可行的解決方案,從而推動技術與產業邁向下一個階段。
作者|周一笑
本文由人人都是產品經理作者【硅星人】,微信公眾號:【硅星人Pro】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!