字節為AI埋下了三條主線
此前被熱議的豆包留存問題,豆包助手與即夢在字節內部戰略優先級變化的討論,答案都在三條主線搭建的立體框架里。
過去兩年中,字節在AI領域展現出了強勢的投入決心、靈活的組織能力和積極的產品策略,從一個起步遲緩的追趕者,快速轉變成為一家在大模型領域中布局全面、進展迅速的領先者。
梳理字節在AI領域的動作可以發現,基礎大模型、通用助手和AI應用三個方向上的探索,共同為其構建了一個立體的AI發展框架。
首先,在基礎大模型領域,字節旗下的豆包大模型在通用語言、視頻生成、語音對話、視覺理解等方面建立了比較完備的能力組合。其次,在通用助手方面,豆包已經成為僅次于ChatGPT的助手類應用,日活躍用戶數接近900萬。最后,在應用領域,字節推出了多個AI應用,其中即夢被認為正在承擔起成為AI時代「抖音」的重任。
這個框架下,我們可以嘗試為字節AI業務的發展描摹出一個更具體的「兩橫多縱」發展格局,為多樣化的AI業務嘗試找到字節體系內的站位,為此前圍繞豆包助手與即夢在字節內部戰略優先級變化的討論,提供新的判斷邏輯:
字節AI的兩橫多縱格局
基礎大模型以及與之相配合的AI應用開發平臺扣子為自身的通用助手、應用開發提供能力支持的同時,還能依托火山引擎的算力支撐和云服務,幫助更多企業AI化自己的產品與服務。
通用助手和作為載體的AI硬件形成了一個滿足用戶獲取基礎信息和服務需求的入口,這是一種更底層的、連接B端與C端需求的能力。應用則聚焦視頻、音樂、教育、社交等場景,承接不能被通用助手滿足的深度需求。
具體來說,位于應用方向的即夢事實上承擔了字節的防守職責,面對AI給視頻創作、分享帶來的沖擊,探索延續字節在視頻領域優勢的可能性。而豆包大模型家族和豆包助手則承擔了字節向B端、向底層尋求突破的進攻任務——這也是字節在移動互聯網階段積極嘗試,卻沒有獲得理想成果的領域。
Google的2025年戰略會議上,CEO Sundar Pichai表示,這是至關重要的一年,必須全力以赴,尋求建立AI領域的絕對領先優勢。這句話說出了很多大廠的心聲,其中也一定包括字節。
進入2025年,調整好進攻姿態的字節,將會展現出更兇猛的攻勢,嘗試構建自身在AI領域的統治力。浙商證券在研報中指出,字節2024年在AI上投入巨大,資本開支達到800億元,2025年這個數據預計會達到1600億。字節旗下的AI音樂創作產品海綿音樂也贊助了東方衛視今年的跨年晚會。
放長遠來看,AI賦予字節的最大憧憬并不是打造出多少個AI時代的爆款應用,而是一個突破自我、重新確定生態位的機會。
一、豐富的模型能力是基礎
豆包大模型家族是字節在AI時代的根基所在。豐富的模型能力不僅能夠支撐字節在通用助手和AI應用領域的嘗試,維持字節在C端的影響力,還能吸引更多B端客戶依托豆包大模型來創造或重構AI時代的場景服務能力,為字節在to B業務上創造更大發展空間。
過去一年,豆包大模型家族在通用模型、視頻生成模型、視覺理解模型、3D生成模型、音樂生成模型、代碼大模型等方向上都實現了快速開發與迭代?;鹕揭婵偛米T待表示,很多用戶在使用豆包大模型過程中獲得的最大驚喜,不僅來自模型效果好,還來自迭代速度快。
2024年12月舉辦的火山引擎Force冬季大會上,豆包大模型的能力進一步得到了提升。通用模型Doubao-Pro的理解精度和生成質量較5月和8月發布的版本有了大幅提升。豆包視覺理解模型能夠識別和理解動物影子、雜志上印刷的星云和個人的體檢報告,音樂模型已經可以創作3分鐘時長的音樂。
就像李想在與騰訊新聞的對談中所說,基座模型是人工智能時代的操作系統+編程語言。企業要做的就是將模型的各種能力編寫成符合場景需求的AI應用。不斷豐富、增強的模型能力,會讓火山引擎擁有一塊好用的敲門磚,幫助其滲入到更多商業化場景中。
火山引擎公布的數據顯示:在信息處理場景,最近3個月豆包的調用量增長了39倍;在客服與銷售場景,調用量增長16倍;在硬件終端場景,調用量增長了13倍;在AI工具場景,豆包調用量增長了9倍。
企業對基礎模型的需求增長,給火山引擎帶來了新的增長機會,讓其有志成為AI云原生的領軍企業。一方面,火山引擎會擴大規模優勢,通過規模大、彈性高、成本便宜,吸引企業進行遷移。另一方面,可以抓住大模型帶來的技術變革機遇,通過豆包大模型獲得更多關注和新的合作機會。
面向Agent的探索,會是豆包大模型在2025年的一個突破方向。隨著能力邊界的拓展,在語言能力上疊加了視覺理解、深度推理能力的大模型開始有能力處理更加復雜的任務。在很多關于2025年的預測中,都將「具備代理執行能力的Agent」視為一項重要的內容。
譚待也表示,如果一個Agent能夠幫助人們寫一首打油詩,它的價值就不大,但如果能夠幫助人完成完整的作業輔導過程,就會帶來更大的價值。未來會有越來越多的企業依賴基礎大模型構建自己Agent化的場景服務,每一個Agent都是一項高度集成的能力組合。
不斷進化的大模型能力支撐下,走向成熟的Agent很可能會徹底推開AI應用時代的大門。字節如果能憑借豆包大模型、扣子和云服務基礎抓住這扇門開啟的機會,就有很大可能填補上作為to B領域后來者的短板,給B端客戶選擇字節的云服務提供更多籌碼。
二、工具化的助手正在成為連接器
同時,作為能力底座的基礎大模型打破了移動互聯網時代C端與B端的界限。譚待認為,「大模型的C端和B端背后其實都是同一個東西,就是那個模型本身,因為所有的能力都是內化到其中了?!惯@意味著,依托基礎大模型能力進行的場景AI化實踐,未來有可能會被聚合到一個跨越C端與B端的門戶中。
目前看來,通用助手更有可能成為這個在基礎大模型之上,負責連接一切需求與能力、虛擬與現實的門戶,也是一個像移動互聯網時代的微信、Google搜索一樣的超級入口。如果豆包助手能夠成為這個門戶,那字節就擁有了在移動互聯網時代幾番追求而不得的更為底層的入口。
就像公眾號《信息平權》在文章中分析的:過去,字節的邊界局限于頭條和抖音,圖文和短視頻信息流為主要形態,基于此去拓展商業化,發現即便是帝國也有邊界。而AI有潛力成為字節拓展其邊界的抓手,可與千行百業、線上線下、軟件硬件鏈接。
也正是在「掌控新一代超級入口」的誘惑下,做搜索引擎的Google與做新能源汽車的理想,都將AI助手視為未來業務的關鍵點。
Pichai將Gemini應用升級,確定為Google實施全面領先戰略的關鍵支柱之一。Google認為,Gemini不僅是一個聊天機器人,更是一個具有多種功能的AI工具,是未來業務增長的重要引擎。
在李想看來,助手還處在非常初期的階段,大家如今在做的種種嘗試,都是想將AGI的L3階段的門票拿在手里。所謂的AGI的L3階段,就是人人可用的to C智能體出現。
誰能在B端整合更多能力,創造出更多Agents,同時在C端連接更多用戶,誰就可能在圍繞通用助手進行的入口之爭中,建立更大的優勢。
豆包助手之于字節的重要性,與Gemini之于Google一樣,要遠高于聊天機器人的價值。
《智能涌現》接觸到的知情人士表示,豆包助手目前的用戶互動時長、互動輪次都不算高,且在過去一年中增長幅度不明顯,有管理層提出,這種基于文本的對話類產品,大概率不是最理想的產品形態。但我們認為,這依然是站在聊天機器人的定位上,對豆包助手作出的評價和判斷。
聊天機器人只是豆包助手的一項能力,隨著連接的不斷豐富,字節大概率會為豆包助手會在聊天之外,注入更加豐富的能力,讓其向Agents階段邁進。
一方面,豆包助手會繼續整合視頻生成、視頻理解等大模型的創新成果,拓展基礎能力的邊界。這一點在不久前豆包助手電腦版的更新上有比較明確的體現。相比之前的版本,新版的豆包助手電腦版變成了一款具備AI搜索、視頻生成、文本創作、圖像生成能力的工具集合。
另一方面,按照量子位智庫的統計,豆包助手累計用戶數超過1.6億。豆包助手還能以領先的用戶體量,吸引更多樣的Agent融入其中,提升自身處理復雜任務的能力。我們的一個判斷是,在用戶拉新之后,未來服務和能力的豐富度,將在很大程度上決定通用助手的用戶留存能力。
作為能力合集和需求連接器的通用助手,會更傾向于即用即走的用戶使用習慣,而不是注重用戶時長的殺時間邏輯。豆包戰略研究負責人周昊認為,對于大模型產品,好像很難定義哪一個是「最關鍵的用戶需求」。因為它天生就是一個通用型產品,每個用戶打開它時,想要解決的問題都不一樣。
因此,豆包助手要做的是,滿足好不同用戶在不同場景下的需求,依靠無縫連接的交互方式,陪伴用戶度過每一個需要知識和幫助的時刻。豆包助手此前給到大家的印象會更接近于一款有趣的AI社交產品,但從字節的戰略發展需求上看,豆包助手需要扮演多面手的角色,甚至擁有像Ola Friend一樣的AI硬件軀體。
三、AI應用滿足更深度的需求
相較于通用助手,AI應用滿足的是用戶在某個領域或場景中更深度的需求。簡單來說,前者像前臺客服,匯聚全面需求,并負責解決常見需求,后者則是后臺工程師,負責解決更為專業、棘手的問題。字節旗下的抖音、剪映、今日頭條等產品都屬于后者。
在AI時代,抖音、剪映、今日頭條等應用的能力會被進一步打散,一部分視頻內容可以直接在豆包助手內獲取和呈現,簡單的圖片、視頻編輯能力也能夠在AI助手中得以實現。但是,也依然會有相應的AI應用存在,為重度用戶提供場景化的服務,比如刷視頻、社交的需求,很難單純依靠豆包助手得到滿足。
未來,基礎大模型+通用助手,可能會成為字節App工廠的新一代能力池和流量池。這個基礎上,新的AI應用能夠被不斷地孵化出來。
但目前,這個基礎并不成熟,字節目前的AI應用還是在依托抖音流量實現成長,沒有完成面向AI時代的模式切換。這也給我們理解通用助手和AI應用的關系帶來了干擾。
《智能涌現》的報道中,字節管理層有人提出,長期看,需要找到更低門檻、更「多模態」的產品形式,剪映和即夢可能是合適的入口。但是,它在本質上與貓箱、豆包愛學、海綿音樂等產品一樣,是一個面向垂直領域的產品,即便是疊加上世界模型的期待,也很難成為更底層的入口。
在剪映業務負責人張楠的介紹中,抖音是一個「真實世界」的相機,而即夢希望借助生成式AI技術,成為想象力世界的相機,記錄每個人的奇思妙想,幫助每個有想法的人輕松表達、自由創作。同時,即夢也在從AI工具出發,嘗試孵化關于AI內容的社區。
即夢的發展路徑與抖音高度相似,都是從降低用戶的創作門檻出發,在不斷擴大的創作者群體推動下,形成一個內容平臺。即夢App內的短片一欄,就是一個與抖音相似的刷視頻的界面,只不過用戶在這里刷到的都是利用大模型創作的AI視頻內容。有用戶僅發布過一個視頻,已經獲得了146個贊。
視頻確實是實現自然交互必不可少的一塊拼圖。但我們認為,這里的視頻更多是指通過攝像頭理解世界的能力,可以被集成在手機、電腦、眼鏡、機器人等硬件設備中,幫助人與機器更順暢地交流;而不是即夢所代表的發揮想象,創造視頻內容的能力,讓人們一直待在虛擬世界中的能力。
字節在AI時代的布局目前呈現出了兩橫多縱的形態。豆包大模型和豆包助手是兩橫,即夢、豆包愛學、海綿音樂是多縱。還是類比移動互聯網時代,微信是一橫,而抖音體量再大,也僅是代表視頻領域的一縱。
如果豆包大模型是字節準備的操作系統和編程語言,那么豆包助手會是設備的桌面,即夢是在這個桌面上的一個視頻領域的應用。
同樣的,豆包愛學、海綿音樂、貓箱可以看作字節在教育、音樂、社交等領域推出的AI時代的應用。頭頂「App工廠」頭銜的字節,在AI時代仍在延續自己對關鍵垂直領域的產品嘗試,未來我們也可能會在健康、游戲等領域看到字節推出的AI應用。
正如Google談及2025年時,Pichai認為這是一個顛覆性時刻,賭注從未如此之高。其實,包括字節在內,站在大模型牌桌上的企業,都在下注去賭一個更長遠的未來,大家需要比的是,口袋夠不夠深,眼光夠不夠毒,定力夠不夠足,運氣夠不夠好,以及戰略框架是否明確。
作者 | 李威(北京)
本文由人人都是產品經理作者【窄播】,微信公眾號:【窄播】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!