張一鳴姍姍來(lái)遲,卻更遲了

0 評(píng)論 3057 瀏覽 7 收藏 15 分鐘

隨著人工智能技術(shù)的飛速發(fā)展,AI視頻生成模型正成為科技巨頭們的新競(jìng)技場(chǎng)。在這場(chǎng)角逐中,字節(jié)跳動(dòng)雖然起步較晚,但其推出的豆包·視頻生成模型卻顯露出強(qiáng)勁的商業(yè)化潛力。本文將探討字節(jié)跳動(dòng)如何憑借豆包視頻大模型,在AI視頻生成領(lǐng)域迎頭趕上,并分析其在商業(yè)化道路上的策略和挑戰(zhàn)。

進(jìn)入9月,視頻大模型成為了大廠的AI新賽點(diǎn)。而這一次,張一鳴再次姍姍來(lái)遲。

距離阿里通義千問(wèn)文生視頻上線5天,距離6月份快手發(fā)布可靈,時(shí)間已經(jīng)過(guò)去3個(gè)月,9月24日,字節(jié)終于推出了自己的豆包·視頻生成模型。

而值得關(guān)注的是,一向看重投資回報(bào)率(ROI)、偏實(shí)用主義的張一鳴,一開始就為豆包視頻大模型定了“商業(yè)化”的調(diào)。

在活動(dòng)現(xiàn)場(chǎng),火山引擎總裁譚待表示,豆包視頻生成模型從一落地就開始考慮商業(yè)化,使用領(lǐng)域包括電商營(yíng)銷、動(dòng)畫教育、城市文旅和微劇本,例如音樂(lè)MV、微電影和短劇等。

圖注:輸入“一個(gè)戴著圣誕帽的小女孩抱著布偶貓”生成效果圖源:字母榜

同時(shí)譚待也強(qiáng)調(diào),在豆包視頻大模型發(fā)布前,就已經(jīng)在抖音不少短劇項(xiàng)目“露臉”。而上個(gè)月,昆侖萬(wàn)維發(fā)布 AI 短劇生成平臺(tái)SkyReels,7月,美圖秀秀發(fā)布AI 短片生成工具M(jìn)OKI。

“現(xiàn)在已經(jīng)有上百家短劇出海企業(yè)成為AI大模型用戶。”某頭部AI 工具服務(wù)商亦表示,對(duì)于大模型廠商如字節(jié)而言,用AI打下高昂的影視制作成本,AI加持下,短劇、MV將成為類似網(wǎng)文、短視頻一樣有更多用戶參與的內(nèi)容產(chǎn)品,在他看來(lái),“晚來(lái)的字節(jié),下的是商業(yè)化的棋?!?/p>

事實(shí)上,當(dāng)Sora“平地一聲雷”炸圈,能否推出視頻大模型,成為了2024年衡量大模型廠商技術(shù)是否先進(jìn)的“新標(biāo)準(zhǔn)”。

在這場(chǎng)齊追Sora的追逐戰(zhàn)里,“不緊不慢”的字節(jié),拖到9月底才在豆包大模型Pro升級(jí)的當(dāng)口,為視頻大模型“留了一個(gè)版面”。

當(dāng)字母榜打開即夢(mèng)AI,注意到應(yīng)用豆包視頻大模型后,C端用戶能夠在即夢(mèng)AI內(nèi)體驗(yàn)視頻生成。

最長(zhǎng)12秒“中規(guī)中矩”的生成時(shí)長(zhǎng),對(duì)齊可靈的生成效果,“不算驚艷,但遲了幾個(gè)月,也沒(méi)被先發(fā)的視頻大模型甩出技術(shù)差距。”作為首批內(nèi)測(cè)豆包視頻大模型的AI從業(yè)者,張洋告訴字母榜,盡管國(guó)內(nèi)視頻大模型扎堆更新,但字節(jié)姍姍來(lái)遲的底氣,或許正在于此前AI視頻生成的效果,都并未能讓用戶“驚艷”。

而國(guó)產(chǎn)模型追Sora的同時(shí),OpenAI卻已經(jīng)通過(guò)GPT-o1的推出,為基座大模型展示了強(qiáng)化學(xué)習(xí)的新路徑,OpenAI或即將迎來(lái)估值超萬(wàn)億的新時(shí)代,大模型廠商們,也將面臨新的賽點(diǎn)。

01

剪映此前推出的即夢(mèng)AI只支持3秒的視頻時(shí)長(zhǎng);加載豆包大模型后,即夢(mèng)AI內(nèi)可以生成3-12秒的視頻。

相比之下,可靈1.0版本,在未開通會(huì)員的情況下,只能體驗(yàn)5秒的視頻生成,而字節(jié)的即夢(mèng)AI通過(guò)每天登錄發(fā)放66積分的形式,支持用戶的免費(fèi)試用。

不過(guò),不像豆包大模型憑借低于行業(yè)98%的價(jià)格,開始卷起“大模型零元購(gòu)”,引發(fā)熱議,豆包大模型似乎不符合字節(jié)一貫“悶聲干大事”的傳統(tǒng),顯得有些粗糙。

輸入“一個(gè)小女孩懷抱著布偶貓”的關(guān)鍵詞,在豆包視頻大模型發(fā)布前的內(nèi)測(cè)版,第一次,AI似乎將布偶貓理解成了玩偶,生成的視頻是懷抱著假貓,視頻內(nèi)的人臉也略顯僵硬。

而等9月25日再次生成后,布偶貓又變成了田園貓,第三次生成時(shí),才AI大模型才準(zhǔn)確完成了指令。張洋告訴字母榜,作為首批內(nèi)測(cè)的AI從業(yè)者,豆包視頻大模型的使用效果并不算驚艷。

不過(guò),豆包視頻大模型可以切換3D動(dòng)畫、2D動(dòng)畫、國(guó)畫、黑白、厚涂等不同風(fēng)格,還可以選擇隨機(jī)運(yùn)鏡,或者自定義推近、拉遠(yuǎn)等運(yùn)鏡形式,相比起只提供16:9、9:16、1:1三種畫面比例的可靈,豆包顯然更加適配不同的畫面比例,包括3:4、2:3、4:3、3:2等更多的比例選擇。

在張洋看來(lái),在用戶的互動(dòng)的體驗(yàn)上,豆包確實(shí)提供了更多的選擇。不過(guò),雖然豆包視頻大模型可以實(shí)現(xiàn)一個(gè)prompt內(nèi)的多鏡頭切換,但“整體畫面的銜接仍有些不流暢,人物的表情有些失真。”

不過(guò),張一鳴這次也毫不意外地將“實(shí)用主義”刻在了豆包視頻大模型的基因里。

豆包視頻大模型一經(jīng)發(fā)布,便面向企業(yè)市場(chǎng)開啟邀測(cè),同時(shí)火山引擎總裁譚待更表示,豆包視頻生成模型從一落地就開始考慮商業(yè)化,使用領(lǐng)域包括電商營(yíng)銷、動(dòng)畫教育、城市文旅和微劇本,例如音樂(lè)MV、微電影和短劇等。

不同于其他“拿著錘子找釘子”的AI創(chuàng)企,不論是字節(jié)還是快手,“本身有內(nèi)容有平臺(tái),釘子在手,做視頻大模型天然有著更多的應(yīng)用場(chǎng)景。”張洋表示,

7月24日,可靈AI官方微信發(fā)文透露,目前申請(qǐng)權(quán)限的用戶數(shù)已突破100萬(wàn),并在同一天上線付費(fèi)會(huì)員體系,包含黃金、鉑金、鉆石3個(gè)會(huì)員類別,年度會(huì)員價(jià)格從500多元到5000多元不等。對(duì)于姍姍來(lái)遲的字節(jié)而言,或許能在技術(shù)上與可靈不分上下,但在商業(yè)化路徑上,已經(jīng)開啟C端付費(fèi)的可靈,似乎再次快了一步。

02

5月,面對(duì)“OpenAI 在谷歌發(fā)布I/O的前一天發(fā)布GPT-4o”的問(wèn)題,谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言,“當(dāng)我們正處于AI的拐點(diǎn)上時(shí),我看到的是機(jī)會(huì),所以如果把這個(gè)時(shí)間線拉長(zhǎng),那么某一天發(fā)生的某一件事就都無(wú)關(guān)緊要了?!?/p>

如同被OpenAI時(shí)時(shí)搶跑的谷歌,晚來(lái)的字節(jié),手握釘子,似乎打的還是后來(lái)居上的主意。

根據(jù)QuestMobile數(shù)據(jù)顯示,截止到7月份,AI APP月活用戶規(guī)模已突破6630萬(wàn)。其中,豆包、文小言、Kimi、星野、通義位居top5,月活用戶規(guī)模分別為3042萬(wàn)、1008萬(wàn)、625萬(wàn)、466萬(wàn)、424萬(wàn)。

盡管豆包APP的發(fā)布時(shí)間明顯晚于阿里的通義千問(wèn)、更晚于百度的文心一言、Kimi,但豆包的月活用戶規(guī)模已經(jīng)大于其他四家APP用戶活躍數(shù)的總和。

因此,在AI視頻生成領(lǐng)域,面對(duì)國(guó)內(nèi)技術(shù)突破遲滯的現(xiàn)狀,字節(jié)也似乎有著晚來(lái)的底氣。

不管是先出圈的可靈,還是姍姍來(lái)遲的字節(jié)豆包視頻大模型,7月、9月扎堆推出視頻大模型的廠商們,似乎誰(shuí)都沒(méi)能追趕上Sora。

從快手的《山海奇鏡之劈波斬浪》,到字節(jié)的《三星堆:未來(lái)啟示錄》,用AI做短劇成為了頭部廠商AI視頻生成效果的“煉金石”。

顯然,相比起需要真實(shí)人物出現(xiàn)并互動(dòng)的傳統(tǒng)短劇,神話、科幻等類型的短劇,更適合現(xiàn)階段的AI大模型。

“現(xiàn)在的AI生成水平不穩(wěn)定,大場(chǎng)景的炸彈爆炸、煙火升空等等的效果已經(jīng)真假難辨,但也需要調(diào)試人員先生圖,再進(jìn)行1-2個(gè)小時(shí)的調(diào)整,”張洋告訴字母榜,現(xiàn)在的AI大模型生成的視頻,更細(xì)節(jié)的人物表情和動(dòng)作生成,仍然存在表情不自然,動(dòng)作幅度小、表現(xiàn)形式機(jī)械的問(wèn)題。

而AI短劇平臺(tái) Reel.AI 朱江也在采訪中直言,“非動(dòng)漫短劇預(yù)計(jì)要在今年下半年才能達(dá)到可消費(fèi)水平。

李彥宏曾表示,“所謂領(lǐng)先12個(gè)月或落后18個(gè)月并不重要,每個(gè)公司都處在完全競(jìng)爭(zhēng)的市場(chǎng)內(nèi),你不管做什么都有很多競(jìng)爭(zhēng)對(duì)手?!?/p>

手握億級(jí)用戶規(guī)模的抖音APP,字節(jié)的從容不難解釋。甚至如今還未發(fā)布視頻大模型的騰訊,也手握著微信這一最大的社交APP,對(duì)于“手握釘子”的張一鳴和馬化騰,他們似乎有著更多的選擇。

03

“現(xiàn)在用哪家的視頻大模型,都在抽卡。”

“生成10次里大概有1次能真的達(dá)到商用標(biāo)準(zhǔn),但調(diào)試10次的過(guò)程,或許還不如人工更有效率?!痹囉眠^(guò)市面上的幾家視頻大模型后,影視從業(yè)者單杉直言,現(xiàn)在的大模型在生成效果上,沒(méi)有達(dá)到用戶的期望。

“輸入生成一段布偶貓的視頻,結(jié)果要不就是理解成玩具貓,要不就是田園貓,當(dāng)用戶2-3次試用無(wú)法得到穩(wěn)定且超出預(yù)期的結(jié)果,就很難真正地完成用戶留存”。在單杉眼里,這或許也能解釋為何發(fā)布已超半年,Sora卻遲遲沒(méi)有公測(cè)。

年初便曾有報(bào)道稱,OpenAI CEO奧特曼將投入7萬(wàn)億美元與臺(tái)積電合作建設(shè)晶圓廠,意在跳過(guò)英偉達(dá)自研芯片,而9月,OpenAI被爆出臺(tái)積電正在為其“Sore視頻模型”開發(fā)一款定制A16埃米級(jí)工藝芯片,目的在于提升其視頻生成能力。

而這款A(yù)16的芯片,密度提升1.10倍,在相同工作電壓下,速度提升了8%—10%;在相同速度下,功耗卻降低了15%—20%。用“更低的價(jià)格和能耗,推進(jìn)更快的AI視頻生成”,顯然是OpenAI押后Sora公測(cè)的重要原因。

想要實(shí)現(xiàn)更好的AI視頻生成效果,更大的算力成本的支出,更低的價(jià)格和能耗,這也成為了國(guó)內(nèi)視頻大模型最終能否“跑出來(lái)”的關(guān)鍵因素。

而近日,字節(jié)又被爆出計(jì)劃與臺(tái)積電就AI芯片開展合作,盡管字節(jié)隨后回應(yīng)稱報(bào)道不實(shí),并表示在芯片領(lǐng)域的探索更多集中于推薦和廣告的業(yè)務(wù)優(yōu)化。但在字節(jié)招聘網(wǎng)頁(yè)輸入“芯片”等關(guān)鍵詞,包含AI芯片架構(gòu)、芯片SIL測(cè)試工程師在內(nèi),已經(jīng)有200多個(gè)相關(guān)崗位。

但對(duì)于張一鳴乃至國(guó)內(nèi)的大模型頭部廠商而言,擺在他們面前的挑戰(zhàn)或許更為棘手。

9月19日,在2024云棲大會(huì)上,月之暗面創(chuàng)始人楊植麟表示,GPT-o1的推出的主要意義在于提升了 AI上限?!疤嵘?0%的生產(chǎn)力,還是說(shuō)10倍GDP,這里面最重要的問(wèn)題,就是能不能通過(guò)強(qiáng)化學(xué)習(xí)去進(jìn)一步scaling?!?/p>

在GPT-o1時(shí)代,當(dāng)如今的豆包、通義千問(wèn)、文心、Kimi的即時(shí)聊天,從思考10秒、20秒生成答案,到能夠調(diào)用各種工具,去執(zhí)行分鐘級(jí)別甚至天級(jí)別的任務(wù),國(guó)內(nèi)用戶已熟知的AI即時(shí)聊天產(chǎn)品形態(tài)將迎來(lái)巨大的改變,“AI更像人,或者一位助理”,這似乎成為了月之暗面?zhèn)兿乱淮巫汾sOpenAI的新賽程。

當(dāng)新的競(jìng)爭(zhēng)時(shí)刻再次到來(lái),國(guó)內(nèi)大模型廠商的基座大模型彼時(shí)未見“新水花”,但對(duì)于張一鳴們而言,則又一次面臨抉擇。

是將大把的“人、錢、算力”繼續(xù)投向文生視頻這樣的功能場(chǎng)景做迭代,還是學(xué)習(xí)OpenAI,引進(jìn)強(qiáng)化迭代路線?對(duì)于不缺錢的字節(jié)來(lái)說(shuō),當(dāng)然可以“兩個(gè)都要”。

而當(dāng)“強(qiáng)化學(xué)習(xí)”帶來(lái)的想象空間足夠大、足夠誘人,新的發(fā)令槍打響,沒(méi)能起早的字節(jié),這一次能沖在前頭嗎?

(文中張洋、單杉為化名)

撰文:馬舒葉 編輯:王靖

本文由人人都是產(chǎn)品經(jīng)理作者【字母榜】,微信公眾號(hào):【字母榜】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Sora視頻內(nèi)容截圖

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!