后Transformer時代,AI將何去何從?(下)|【十萬字】深度研報
在人工智能的浪潮中,Transformer模型以其革命性的影響力改變了AI的發展軌跡。但隨著技術的進步,我們正站在后Transformer時代的門檻上,探索AI的未來方向。
本文深入探討了AI算法與人類神經系統的差異、Transformer后時代的技術觀點、大模型產業鏈的價值規則,以及AI在各個領域的應用前景。
展望AI未來
目前AI算法和人類神經系統的區別
數量上
人類的大腦估計已經包含860億個(10^11次方)神經元,這些細胞信號傳遞到對方通過多達100萬億(10^15)突觸連接。
GPT-4是8個2200億參數組成的混合專家模型,8 x 220B = 1.76萬億連接,與真實人腦仍然差50多倍。
功耗上
人腦功耗10w。
?一張NVIDIA A100功耗250w,更別說萬卡集群,簡單計算相差25萬倍。
機制上
人腦神經元種類多樣、神經遞質多樣,多為化學信號,維度信息高。
人工神經元結構簡單單一,傳遞為簡單電信號,維度信息低。
結構上
人工神經元之間的連接則是一開始就被固定好了的,比如根據實際需求需要設計一個多大的神經網絡網絡模型,那么這個網絡模型的參數和連接方式就基本已經被固定了。雖然可以通過神經元之間的隨機失活等方法可以局部的改變神經網絡內部的連接,但是這種改變仍然無法讓人工神經元像生物神經元一樣根據外界輸入的數據信息而選擇性的提取需要的特征信息。
生物的神經元之間是沒有任何順序的,可以隨時根據外界傳入的信息有條件的隨意連接,但是人工神經網絡內部的神經元之間是有順序排列的,也就是神經網絡的層數,人工神經元只能在神經網絡的不同層之間發生連接,由于數學矩陣運算的規律,在同一層神經網絡之間的神經元是無法連接的。
而且無論從目前效果和上述的巨大區別上,目前的LLM離真正的AGI還有很大的差距,想象看一個人類擁有互聯網級別信息的時候,智慧程度會跟現在LLM一樣嗎?
所以很多人說數據即將用盡的觀點是偏頗的,算法倒是學習效率低下才是本質。
但也說明深度仿生的聯結主義潛力巨大。但未來會如何呢?
Transfomer后時代的觀點
辛頓和伊利亞 — 壓縮即智能
奧特曼在今年10月份接受采訪說:伊利亞(OpenAI前首席科學家伊利亞·蘇茨克維)總是說,這些模型的真正意義在于壓縮,我們要找出如何壓縮盡可能多的知識,這就是我們打造人工智能的方式。壓縮就像是智慧密鑰,我已經對此冥想很久,但我確信自己仍然沒有完全理解它,但那里有些更深刻的東西。
就上上文提及到的注意力機制一樣。隨著進化的腳步,生命體本身由簡至繁,而人類歷史發展到今天,我們的生存環境和所需要學習、掌握的工作任務和過去的叢林生活復雜到不知多少。為了應對這個變化,大腦會如何進化呢?是發展成一個同時處理龐大的信息并且容量超大的大腦,還是發展成雖然容量不大,但可以迅速地分析信息,并配有一個高效率信息選擇和投注機制,將所有計算能力都放在重要的任務上的大腦呢?很明顯的,后者更有優勢,而且大自然也為我們選擇了這個目標。
人腦的注意力是一個用來分配有限的信息處理能力的選擇機制。而Transfomer的自注意力是通過概率分布和權重分配實現該機制。
“預測即壓縮, 壓縮即智能”
這一觀點最早由Ilya Sutskever在其博文和訪談中提出。Ilya Sutskever在不同場合提到,當我們談論“預測下一個Token”時,本質上是在進行信息壓縮。一個理想的預測模型, 應該能夠以最簡潔的形式(即最短的程序或描述)來表示輸入數據中的關鍵模式和規律。預測是通過生成特定數據集的最短程序來實現的【46】。
Geoffrey Hinton從另一個角度闡釋了壓縮與智能之間的聯系。他指出, 人工智能系統之所以能夠展現出理解、類比、創新等高級認知能力, 關鍵在于它們能夠發現并利用不同事物和概念之間的共同結構。如果AI系統能夠掌握這種高度概括的表示,就可以實現跨域的類比和泛化。而要做到這一點,就需要AI系統從大量表面差異巨大的事例中提煉和壓縮出最本質的共性。換言之, 機器要成為一個智能的類比推理者, 首先需要成為一個高效的信息壓縮者。
可以抽象的理解為:壓縮就是尋找第一性原理的過程,數據越多,總結出的第一性原理更具有普遍性。
綜合Sutskever和Hinton的觀點, 我們可以得出以下幾點認識:
1. 從信息論的角度看, 學習的本質是一個逐步壓縮數據的過程。通過在輸入數據中發現可泛化的模式和規律, 學習系統可以用更簡潔的表示來重構原始信息, 從而降低其描述復雜度;同時減少信息在壓縮中的損失。
2. 大規模機器學習, 尤其是基于海量數據訓練的深度神經網絡, 可以看作是朝著最優壓縮逐步逼近的過程。隨著模型規模和數據量的增大, 神經網絡能夠捕捉到越來越抽象和一般化的特征, 其內部表示可以壓縮更多的信息。
3. 壓縮能力與智能水平密切相關。一個高度智能的系統, 應該能夠基于少量信息對世界進行大量的重構和預測。這就要求系統在學習過程中最大限度地提取和內化數據中的關鍵模式和規律。因此,追求更強的壓縮能力, 可以為我們指引通往AGI(通用人工智能)的道路。
楊立昆 — 世界大模型
楊立昆在題為《朝向能學習、思考和計劃的機器進發》的演講中,清晰地指明了以自監督學習為代表的 AI 系統的優缺點。
我們今天正在使用的LLM還無法做到真正的理解世界,這其中有很多原因,但最主要的原因是:LLM的訓練方式是用一段缺失了部分文字的文本去訓練一個神經網絡來預測缺失的文字。事實上,LLM并不預測詞語,而是生成字典中所有可能詞語的概率分布,然后從概率分布中選擇一個詞放入文本序列的尾部,再用新生成的文本去預測下一個詞,這就是所謂的自回歸預測【47】。
但這種自回歸的方式與人類的思維方式有很大的不同。人類大部分的思考和規劃都是在更抽象的表征層面上進行的–人類對思考的意識只存在于高級表征中-比如人類不是靠像素點識別物體的,而是又像素點形成的光影、輪廓等,知識來源于此,而不是在更深層次的神經網絡中,換句話來說,如果輸出的是語言(說出的話)而不是肌肉動作,人類會在給出答案之前先思考好答案。但是LLM不這樣做,它們只是本能地一個接一個地輸出文字,就像人類的某些下意識動作一樣。
然而,單靠這種方式,我們并不能真正做到推理,也很難處理非離散的復雜現實數據。要實現人類級別的智能,我們仍然缺少一些至關重要的要素。比如,一個十歲的孩子學會收拾餐桌、把碗盤放進洗碗機,只需看一遍就能學會。而一個17歲的青少年經過大約20小時的練習就能學會開車。然而,我們還沒有達到五級自動駕駛,也沒有能夠幫忙收拾餐桌的家用機器人。
實現真正的智能需要的一個關鍵能力是“分層規劃”,也就是我們人類在面對復雜問題時,能夠分階段、分層次地進行解決。比如從紐約去巴黎,我們會先計劃怎么到機場,而不是從一開始就去計算整個行程中每一步的肌肉動作。如何讓AI具備這種分層規劃能力,目前仍是一個未解的難題。
真正的世界模型是:我對某時刻T時世界狀態的想法,疊加此時我可能采取的行動,來預測在時間T+1時的世界狀態。這里所指的世界狀態并不需要代表世界的一切,不一定需要包含所有的細節,它只需要代表與這次行動規劃相關的足夠多的信息。
十年來,我們使用生成式模型和預測像素的模型,試圖通過訓練一個系統來預測視頻中將發生什么來學習直觀物理,但失敗了,我們無法讓它們學習良好的圖像或視頻表征,這表示,我們無法使用生成式模型來學習對物理世界的良好表征。
目前,看起來可以更好地構建世界模型的一種新方法是”聯合嵌入”,稱為JEPA(聯合嵌入式預測架構),其基本思路是獲取完整的圖像及其損壞或轉換的版本,然后將它們同時通過編碼器運行(一般來說,編碼器是相同的,但也不一定),然后在這些編碼器之上訓練一個預測器,以根據損壞輸入的表征來預測完整輸入的表征。JEPA與LLM有什么區別?【48】
LLM是通過重建方法生成輸入,生成未損壞、未轉換的原始輸入,因此必須預測所有像素和細節。而JEPA并不嘗試預測所有像素,只是嘗試預測輸入的抽象表征,從本質上學習世界的抽象表征(例如風吹樹葉,JEPA在表征空間中預測,會告訴你樹葉在動,但不會預測每個樹葉的像素)。
JEPA的真正含義是,以自我監督的方式學習抽象表征,這是智能系統的一個重要組成部分。人類有多個抽象層次來描述世界萬象,從量子場論到原子理論、分子、化學、材料,一直延伸到現實世界中的具體物體等,因此,我們不應只局限于以最低層次進行建模。
基于該理念設計的 V-JEPA 是一種“非生成模型”,通過預測抽象表示空間中視頻的缺失或屏蔽部分來進行學習。
四、大模型產業鏈——綜述
產業鏈的價值規則
框架根據具體的工作流盡可能的列出行業,有價值的筆者總結性多講,沒有變動的且基礎的介紹一下。
關鍵的熱點行業,筆者會綜合講述中美企業和商業環境的不同之處。
筆者對有價值的定義:
- 技術顛覆 — 先發的知識(人才)壁壘
- 商業模式顛覆 — 確保和大公司盡量在同一起跑線
- 有一定的市場規模的想象空間
五、基礎層
算力
這里只講述整裝硬件層面的算力提供商以及基礎的軟件的趨勢。不涉及芯片行業的上游。
LLM對算力的需求飆升
我們看到,為追求Scaling law帶來的涌現效應,在位廠商模型訓練的算力規模不斷擴大,對AI算力基礎設施的需求形成支撐。根據中國信通院《中國算力發展白皮書(2023)》,GPT-3的模型參數約為1,746億個,訓練一次需要的總算力約為3,640 PF-days,即以每秒一千萬億次計算,需要運行3,640天;2023年推出的GPT-4參數量可能達到1.8萬億個,訓練算力需求上升至GPT-3的68倍,在2.5萬個A100上需訓練90-100天【49】。
針對LLM的新供應
通用芯片和專用芯片之爭
按照芯片的設計理念及用途,AI算力芯片可分為通用芯片和專用芯片,二者各有特點。
通用芯片為解決通用任務而設計,主要包括CPU、GPU(含GPGPU)和FPGA。
專用芯片(ASIC)為執行特定運算而設計,具備算法固化特性,主要包括TPU(Tensor Processing Unit,張量處理器)、NPU(Neural Network Processing Unit,神經網絡處理器)等。
在通用算力芯片當中,CPU內核數量有限,采用串行方式處理指令,適合于順序執行的任務;GPU采用眾核結構,最初開發用于圖形處理,而后憑借其強大的并行計算能力適用于AI通用計算(GPGPU);FPGA是具備可編程硬件結構的集成電路,其可編程性和靈活性可快速適應AI領域的算法變化。與專用芯片相比,通用芯片主要優勢在于靈活性及生態系統的完善性,可適應高速迭代的算法任務,同時GPU保留的渲染能力可適應大模型的多模態發展,而其主要劣勢則在于較高的功耗水平和較低的算力利用率。
專用芯片的優勢則在于通過算法固化實現了更高的利用率和能耗比,以及更低的器件成本,同時ASIC更適合大規模矩陣運算;其主要劣勢是前期投入成本高、研發時間長,且只針對某個特殊場景,靈活性不及通用芯片【50】。
ASIC(Application Specific Integrated Circuit)是專用集成電路,針對用戶對特定電子系統的需求,從根級設計、制造的專用應用程序芯片,其計算能力和效率根據算法需要進行定制,是固定算法最優化設計的產物。經過算法固化后,專用芯片與軟件適配性較高,從而能夠調動更多硬件資源,提高芯片利用率。而通用芯片由于算法不固定,其硬件往往會產生冗余,導致芯片利用率較低。
目前價值最大的仍然是GPU,它更適應高并發多分布式的訓練,LLM訓練和推理以它為主,95%的算力的都是由它提供。
就像工廠一樣,一開始會去買標準的設備(通用芯片)進行生產,后續規模擴大了,更了解客戶的需求后,產品變的差異化,這時候會去找產線集成商如西門子,定制化產線(專用芯片);本質上來說,背后就是需求和廠商供應的trade-off(成本等),但是需求是第一位,大規模量產和定制化的前提都是同質化的需求在支撐。
目前,我們對LLM的訓練和推理算法皆有不同程度的優化,商業場景還在積極探索,甚至是算法本身都在快速變化,ASIC等專用芯片為時尚早。
GPU適應LLM大規模計算的新技術指標
深度神經網絡對計算芯片的需求主要圍繞解決兩個問題展開:
(1)解決AI計算芯片和存儲間數據通信需求,AI模型中,大量運算資源被消耗在數據搬運的過程。芯片內部到外部的帶寬以及片上緩存空間限制了運算的效率。
(2)在控制功耗的同時不斷提升專用計算能力,對AI芯片進行定制,在特定場景下實現AI芯片的高性能和低功耗,解決對卷積、殘差網絡等各類AI計算模型的大量計算需求。
算力不足如何解決?
眾所周知的芯片斷供原因,國內廠商無法在正常的渠道買到高端的芯片,如何彌補?
除了走私外,異構芯片的混訓(國產芯片+國外芯片;本地計算+云計算)成為了主流,但隨著算力的不斷補充和IDC的建立,并且模型參數的變小,此類問題將快速解決。能看到的是A100芯片的租賃價格幾經對折。
國外的算力中心如特斯拉、谷歌、亞馬遜的萬卡集群都將在近期建設完成。特斯拉的有10萬塊H100。
新AI算力市場推算
GPT-4的訓練,推理算力成本拆解
訓練成本
GPT-4的一次訓練費用高達6300萬美元,2.15e25 的 FLOPS,使用了約 25,000 個 A100 GPU,訓練了 90 到 100 天,利用率(MFU)約為 32% 至 36%。這種極低的利用率部分是由于大量的故障導致需要重新啟動檢查點。如果他們在云端的每個 A100 GPU 的成本大約為每小時 1 美元,那么僅此次訓練的成本將達到約 6300 萬美元【51】。
推理成本高于訓練成本
ChatGPT 每天在計算硬件成本方面的運營成本為 694,444 美元。OpenAI 需要約 3,617 臺 HGX A100 服務器(28,936 個 GPU)來為 Chat GPT 提供服務。我們估計每次查詢的成本為 0.36 美分。ChatGPT一年將花費至少2.5億美元,而訓練一個模型僅需一次性花費6300萬美元。
訓練芯片
在給定訓練GPT-3模型所需運算操作數量的情況下,即便得知單卡算力,以及要求的訓練時間,量化加速卡數量實際上也存在難度,因為數據集精度、數據集迭代次數,以及GPU的使用效率等等因素都是未知變量【51】。
在此,我們直接采用OpenAI訓練集群模型估算結果作為參考:標準大小的175億參數GPT3模型大概需要375-625臺8卡DGX A100服務器進行訓練(耗費10天左右時間)。目前來看,訓練大模型的硬件投入基本3,000張-5,000張A100 GPU來完成。那么,以單A100卡售價10,000美元來計算,生產大模型所需的訓練用GPU一次性采購拉動在千萬美元級別,具體金額決定于參與生產大模型的終端用戶家數,中性情形下,我們假設8家廠商采購訓練卡,單一廠商需求量500臺DGX A100服務器,可帶來的訓練AI加速卡市場空間約為3.2億美元。
推理芯片
推理應用和實際業務上線關系緊密,硬件需求要結合對效率要求來進行部署。以A100 GPU單卡單字輸出需要350ms為基準計算,假設每日訪問客戶數量為2,000萬人,單客戶每日發問ChatGPT應用10次,單次需要50字回答,則每日消耗GPU的計算時間為972,222個運行小時(2*10^7*10*50*350ms = 3.5*10^12ms = 972,222h),因此,對應的GPU需求數量為40,509個。同樣以單卡10,000美元的售價計算,2,000萬用戶上線在推理端所創造的AI芯片市場空間約4億美元左右,但在中性情形下,假設日活用戶數達到1億用戶,在單客戶發問次數、單次回答字數不變的情況下,我們測算出推理相關用AI芯片市場空間有望達到20億美元【51】。
GPU芯片&服務器提供商
國內外芯片市場
全球GPU市場競爭格局較為集中,當前NVIDIA處于市場領導地位,根據Verified Market Research數據,2022年在全球獨立GPU市場當中占比約80%。
國產AI云端訓練和推理芯片廠商參與者眾多,大部分涌現于2017年以后。
(1)華為Atlas 300T訓練卡(型號9000)基于昇騰910 AI芯片,單卡算力280TFLOPS FP16;
(2)寒武紀思元370單卡算力256TOPS INT8,是第二代產品思元270算力的2倍;
(3)百度昆侖芯2代AI芯片單卡算力為256TOPS INT8 / 128TFLOPS FP16;
(4)海光DCU的優勢則體現在生態兼容性,其ROCm GPU的計算生態和英偉達CUDA[1]高度相似,被稱為“類CUDA”,有利于用戶可快速遷移,2022年海光深算一號DCU已商業化應用,深算二號正在研發中【52】。
目前國產產品依然與全球領先水平存在2-3年的差距。
國產最強的AI芯片性能大約為512Tflops,不僅不如NVIDIA的A100,甚至只有H100的四分之一左右。例如,寒武紀的思元590在某些特定應用場景下接近A100 90%的性能,但綜合性能仍只能達到A100的80%左右。
國產AI芯片企業雖作為后發者,依然擁有市場機會。一方面來看,摩爾定律的迭代放緩使得海外龍頭企業開發新產品面臨更大的挑戰,中國企業有望以更快的速度向海外現有產品看齊,但供應鏈方面存在不確定性,對后發企業構成利好【53】。
CUDA
GPU的算法和生態系統構建也是GPU設計中的重要部分。GPU算法需要與硬件緊密結合,以提高GPU的性能和效率。同時,GPU的軟件生態系統還需要支持各種開發工具和框架,以便開發人員可以更輕松地利用GPU進行高性能計算和機器學習。
基于高層次抽象,英偉達通過CUDA統一編程平臺提供了一套完整的開發工具鏈,包括編譯器、調試器和性能分析工具,以及豐富的庫函數(加速算子執行、實現卡間通信),為開發者提供了便利,降低使用成本。且CUDA統一編程平臺可支持多個操作系統,且支持各類GPU(包括數據中心級產品、消費級產品);全球安裝的CUDA兼容的NVIDIA GPU數量已經達到了數億級別【50】。
由于硬件端AI領域的先發優勢,大量的AI深度學習訓練開源項目和框架如PyTorch、TensorFlow等與英偉達GPU后端實現了原生適配,且兼容DeepSpeed、Megatron-LM等分布式加速工具;推理端來看,英偉達同樣擁有Tensor-RT引擎。總結來說,主流AI軟件棧的最佳優化方案均與英偉達CUDA生態及GPU深度耦合。通過日積月累,英偉達硬件環境上的開發者數量眾多,有龐大而活躍的社區以及大量可用的文檔、教程、論文,開發人員對CUDA的熟悉程度和專業度更高,導致新人采用CUDA面臨的時間成本更低。到2023年底,CUDA軟件包已累計下載4800萬次,證明其廣泛的用戶基礎和開發者社區的活躍度。
英偉達對外部企業、學校、以及不同應用領域均有良好的解決方案,對不同類型客戶進行深度綁定服務。
可以說其系統生態的繁榮為其GPU硬件平臺提供了最大的開發生態護城河!
能和其英偉達一較高下的,恐怕只有同時掌握前后端并擁有獨立開發生態的華為了。
其余的大部分做ai芯片的公司短暫的收入提升來源于國內IDC的建設,渠道為主,生態意識低。
集成算力提供商
AI服務器
一般來講,服務器的定制化程度高,大廠的服務器是自己采購,自己搭建,中小企業購買會多一點。再加上云計算的趨勢,保密單位的需求會硬一點,否則云計算性價比更高。
AI服務器(多個GPU等芯片集成)競爭格局方面,當前互聯網云計算廠商的白牌服務器占主導,未來隨著邊緣側應用的成熟,品牌服務器廠商份額也有望提升。AI服務器分為品牌和白牌兩類。所謂白牌,是由互聯網云計算大廠在云計算的規模效應下,與傳統的服務器代工廠EMS企業合作開發定制化的“白牌”服務器;所謂品牌,是由專門的服務器廠商開發的面向企業、政府、運營商和金融等銷售的通用型服務器【52】。
智算中心
政府
2023年以來,政府智算中心建設的規模與節奏均有顯著提升。通過梳理各地政府官網信息,我們整理了2020年-2024年政府智算中心建設情況,發現:
1)2023年以來智算中心建設明顯加速,各省市地方政府均在積極推進智算中心建設;
2)2020年-2023年間已投運政府智算中心單期算力建設規模一般在500P以下,而隨著AI帶動算力需求的提升,單個智算中心的體量提升,2023年下半年之后建設與投運的智算中心出現較多1000P以上的算力規?!?9】。
華為昇騰、寒武紀等國產AI算力芯片成為政府主導的智算中心的重要算力基座。北京昇騰人工智能計算中心利用“政府引導+市場化運作”平臺建設模式,政府負責頂層設計、政策保障;中關村發展集團負責設施建設、配套服務、提供空間載體,最終使用華為自主研發的昇騰芯片,互利共贏。長沙昇騰人工智能創新中心由長沙市政府和湖南湘江新區共同出資建設,采用基于昇騰910處理器的兆瀚CA9900 AI集群硬件,總算力最高可達1024 PFLOPS(FP16)。政府智算中心建設提速,有望進一步拉動國產AI芯片的需求。
三大運營商
根據三大運營商2024年資本開支指引,運營商投資重心將繼續向算力網絡建設傾斜。具體來看,中國移動計劃2024年在算力網絡領域投資475億元,占當期資本開支的27.5%,同比增長21.5%;中國電信資本開支在產業數字化方面的投資占比同比提升2.5ppt至38.5%,絕對額達到370億元,其中公司計劃在云/算力投入180億元;中國聯通則表示算網數智投資堅持適度超前、加快布局【49】。
三大運營商智算中心建設持續推進。根據2023年度業績發布會,中國移動計劃2024年加快算力多元供給,累計智算規模規劃超過17 EFLOPS,新部署智算增幅接近70%;中國電信持續推進智能算力建設,2023年公司智算算力新增8.1EFLOPS,增幅高達279.3%,累計規模達到11.0 EFLOPS,2024年公司預計智算規模將繼續提升10 EFLOPS至21 EFLOPS(FP16);根據公司公告,中國聯通算力中心已覆蓋國家8大樞紐節點和31個省份,數據中心機架規模超40萬架,完成29省千架資源布局,骨干云池城市覆蓋超230城,MEC節點超600個。我們認為,運營商對智算場景投入的持續加碼有望帶動服務器、網絡設備等算力基礎設施需求節節攀升,在電信云網設備側具備穩定供應能力的廠商有望充分受益。
大型企業
騰訊、百度、阿里、字節、商湯等企業積極推進智算中心布局,阿里張北超級智算中心總建設規模達12000PFLOPS 百度與騰訊均已在全國多個地區建立了智算中心,包括廣州、上海、北京等,字節跳動則依托于潤澤科技等進行智算中心相關的IDC投資【49】。
互聯網廠商當前算力構成仍以英偉達為主。根據TrendForce,中國云計算廠商目前使用的高端AI芯片中英偉達的芯片占比約為80%,當前的國產化率水平較低。考慮到貿易摩擦的影響,海外核心高端AI芯片難以進入大陸市場,國產替代需求迫切性高。
國內AI加速芯片廠商把握發展機遇,有望滲透進入互聯網市場。根據TrendForce,2023年在全球AI服務器采購需求中,字節跳動/百度/騰訊/阿里等中國互聯網廠商采購占比約8.5%,為AI服務器的重要需求方。我們認為隨著AI大模型加速迭代,國內互聯網廠商對于AI服務器需求有望進一步提升,國產AI芯片潛在市場空間廣闊。
我們看到,互聯網廠商積極推動與國產算力芯片的合作,根據公司公告,海光DCU支持包括文心一言在內的多個大模型的適配和應用;百度飛槳與海光DCU實現生態兼容性認證;而華為與百度合作推進昇騰AI上與飛槳+文心大模型的適配。我們認為,隨著芯片的性能迭代及生態完善,國產算力芯片在互聯網側的應用有望逐步增加。
總而言之,由于斷供的風險,國內芯片的國產化率逐漸提升,但在AI算力方面,主力軍仍是英偉達。目前AI將會以通用芯片為主。
算法
這里的算法指的是流派、學習范式等AI底層知識和洞悉的集合,由稀缺的人才掌握,是產業鏈里的核心的核心,沒有之一,算法決定了一切,主流算法的改變,可以改變所有的工作流和產業鏈行業的價值。
例如之前的CNN等算法的學習范式是監督學習,數據的輸入和輸出是pair的(匹配的),且需要標準的數據–大量的人工標注,催生了人力密集的數據標注行業,但是自回歸的decoder-only transfomer算法下是自監督學習,數據不需要標注,請問新的大模型下,預訓練還需要人工標注嘛?RLHF和微調的部分還會需要少量的人工,但也是大大減少了需求。
算法的產出來自于關鍵的實驗室和大公司;可以關注其論文的產出,來跟進;一些跟蹤的渠道將會在最后展示。
RVKW
最新RVKW-相比transfomer這種方法有效地捕獲了序列中不同位置之間的依賴關系,同時減少了模型的計算復雜度和存儲需求;它是RNN的一種,建議大家持續關注,目前該算法還在雛形中,為時尚早,有意思的是,發明該算法的人是中國人彭博。
數據
數據來源
AI公司獲取語料數據一般有開源數據庫、自有/自建數據–爬蟲、購買數據產品授權–專業語料數據服務商處這三種方式。
以GPT-3為例,其訓練時使用的語料庫數據主要來源為Common Crawl爬蟲(60%)、WebText2(22%)、Books1&2(各8%)和Wikipedia(3%)
擁有更高質量、相關的數據,可以更好的訓練or微調模型;可獲得的數據取決于行業和公司業務,是大模型產業鏈里最重要的壁壘之一;也往往是大公司的先發優勢,初創公司出來公開的數據集,必須通過創新的商業模式來獲取更多的數據。
不同國家的數據管理
當然避不開不同國家數據管控問題。
國外:歐盟將數據分割為“個人數據”和“非個人數據”,但個人數據嚴格屬于自然人,企業數據使用權受到極大限制;美國的數據要素制度采取實用主義原則,回避了數據所有權問題,未對數據進行綜合立法,只有針對跨境數據主權、行業隱私法、消費者隱私等分別立法。
國內:2022年12月,中共中央國務院《關于構建數據基礎制度更好發揮數據要素作用的意見》(簡稱“數據二十條”)對外發布,提出構建中國特色的數據產權制度、流通交易制度、收益分配制度和數據要素治理制度,其中創新數據產權觀念,淡化所有權、強調使用權,聚焦數據使用權流通,創造性提出建立數據資源持有權、數據加工使用權和數據產品經營權“三權分置”的數據產權制度框架。三權分置的產權制度,淡化所有權、強調使用權。
生成式數據的版權問題一直是AI發展的法律限制性因素,隨著馬斯克支持特朗普上臺,向特朗普提議解綁前沿科技的法律限制,會是一變動因素。
數據不夠?
關于數據量(Training Tokens)和模型大?。≒arameters)對于模型的影響,OpenAI在2022年發表的論文有過討論:在計算量增加10倍時,模型大小增加5倍,數據大小增加約2倍;而計算量再增加10倍時,模型大小增加25倍,數據大小僅增加4倍。
根據非營利研究機構Epoch AI的最新論文,大語言模型會在2028年耗盡互聯網文本數據。
這里說的數據僅僅是真實數據,合成or仿真數據將會在AI Infra層詳細講述。
我的觀點如上述章節一致,本質上是算法導致的學習效率低下的問題,不是數據規模問題。
六、AI Infra層
軟件的市場演進規律
在正式進入介紹產業鏈前:我先對齊下大家對軟件行業的規律:
先有一個breakthrough的應用程序,然后這個突破性的應用程序激發了一個創新階段,在這個階段建立基礎設施,使類似的應用程序更容易建立,并且基礎設施使得這些應用程序被消費者廣泛使用【54】。
一家軟件公司的成功,通常需要經歷以下 4 個階段【55】:
1. 由于行業、趨勢、場景的變化,新的需求出現,這個時候有需求(剛性需求)但沒有標準化產品,大型企業尤其是科技公司便在企業內部自建團隊,靠幾名高技術水平開發者從 0 到 1 手動搭建產品和框架,并在后續自主維護。
2. 技術和解決方案在實驗室或企業內部運行一段時間后,開始有人試圖抽象出相對通用的框架和產品,并向市場發布,有開源產品–營銷、也有閉源產品,1爭奪行業標準(技術)。當用戶購買產品的 ROI 比使用“開源架構+內部自建團隊+維護更新”的方案更高(要有技術開發壁壘)時,2 用戶開始付費(商業模式創新切入)。
3. 隨著需求的增長,越來越多的客戶使用和篩選各類產品,經過一段時間的市場檢驗,最終收斂到 1-2 款產品(成功找到商業化產品的核心應用場景和 Product/Market Fit),行業標準形成。
4. 成為行業標準的產品和公司將基于現有的技術和產品,提供更多更有價值的功能和服務,提升產品和商業化能力,在商業化方面取得成功,注重防守–全棧解決方案,增加轉換難度。
To C差不多,制勝的目標變成了利用生態截取大量流量,再轉化。
流量的進出順序為硬件終端(pc、手機等)> 軟件(檢索工具 > 社交軟件 > 其他);所以依托硬件去做流量的轉化有天然的優勢,畢竟流量在前,軟件公司只能聽蘋果or安卓終端公司生態擺布,著名的例子就是騰訊想通過微信小程序來躲過蘋果商城的蘋果稅,結果被蘋果起訴;當然中國可以沒有蘋果,但不能沒有微信(支付、社交、出行等等的完全生態),唯一軟件打得過硬件的反例。
蘋果公司在2017年推出的應用服務條款,通過虛擬貨幣的打賞,應當被視為應用內購買,蘋果將從中提取30%的分成,而且必須走蘋果支付渠道。所以大家知道為什么國內女主播要求蘋果手機用戶打賞要走微信小程序打賞or其他非蘋硬件了吧。還有ios的游戲充值也比正常渠道貴。
這也是為什么谷歌還自己做了手機等硬件,還有meta扎克伯格瘋狂炒元宇宙,想用vr、眼鏡等穿戴式設備其他硬件范式推翻移動互聯網時代的手機生態,由于光學成像等等原因,很可惜還有很大的距離。
AI Infra產業鏈
以下對 AI 工作流總體可以拆解成四個垂直模塊:數據準備,模型訓練,模型部署和產品整合。
LLM流行前,AI模型通用性較低,項目落地停留在“手工作坊”階段,流程難以統一規范。人工智能已有數十年的發展歷史,尤其是2006年以來以深度學習為代表的訓練方法的成熟推動第三波發展浪潮。
然而,由于傳統的機器學習模型沒有泛化能力,大部分AI應用落地以定制化項目的形式,包括需求、數據、算法設計、訓練評估、部署和運維等階段,其中,數據和訓練評估階段往往需要多次循環,較難形成一套標準化的端到端的流程和解決方案,也由此造成了邊際成本高、重復造輪子等問題【56】。
大規模預訓練模型完成了“從0到1”的技術統一,泛化能力和通用性釋放出“從1到100”的落地需求,且存在相對標準化的流程,衍生出AI Infra投資機會。
總而言之,就是算法的變化導致了infra層的變化:有的工作流不需要了,也有新的工作流,且流程相對標準。
數據準備
數據標注
作用:標注機器學習輸入 (X, y) 中的 y 部分,在一部分目標變量 y 缺失的業務場景為 AI 模型提供人類先驗知識的輸入。作為上一代 AI 興起時最旺盛的需求,在計算視覺領域使用場景相對較多【56】。
重要公司:國外:Scale AI(人工數據標注供應商),Snorkel(使用模型對數據進行合成 / 標注)。國內:海天瑞聲等。
商業價值評價:低
LLM無需求,LLM 本身具有很強的自監督屬性,輸入的數據和輸出的數據并不是標準的pair的狀態。
由于OpenAI和LLAMA 2的RLHF(Reinforcement Learning from Human Feedback)強調高質量數據對模型訓練結果影響的表述;且在訓練模型中參與科學家人數和工時最多參與數據反饋。對原來低質量數據標注方法的顛覆,LLM模型不再使用標注數據,而使用人類少量的高質量的反饋。
按照meta 2023年訓練llama2購買3萬條高質量人類反饋*預計市場參與者10家*一年4次訓練模型=2023年美國市場需要120萬條,再*10美元的單價=最多1200萬美元市場規模。
競爭形式預測:沒有大的改變,業務變高端了,邀請專家來反饋,提高單價增值;價值較低,資源壁壘隨時可破。大模型公司自己都可以做,沒必要外包。
特征倉庫
作用:管理機器學習輸入 (X, y) 中的 X 部分,離線特征工程,在訓練時更靈活地調整需要使用的特征組合和加工方式;在線實時預測,將線上的數據流靈活地提供給 model serving;和線上數據監控,保障模型使用的數據分布與質量的安全性【56】。
在 LLM 大語言模型的場景下,訓練和推理數據不以這種形式進行組織,故 Feature Store 在 LLMOps 下沒有使用前景。
合成數據
作用:真實數據的補充。做真實數據的“平替”,用AIGC反哺AI。一項來自Epoch AI Research團隊的研究預測存量的高質量語言數據將在2026年耗盡,低質量的語言和圖像數據存量也將在未來的數十年間枯竭。
面對潛在的數據瓶頸,合成數據即運用計算機模擬生成的人造數據,提供了一種成本低、具有多樣性、規避了潛在隱私安全風險的解決方法,生成式AI的逐漸成熟進一步提供技術支撐。
比如,自然語言修改圖片的Instruct-Pix2Pix模型在訓練的時候就用到GPT3和Stable Diffusion來合成需要的提示詞和圖像的配對數據集;Amazon也利用合成數據來訓練智能助手Alexa,以避免用戶隱私問題。合成數據市場參與者較多,獨立公司/項目如gretel、MOSTLY AI、datagen、hazy等,數據標注廠商如Scale亦推出相關產品,此外主流科技公司英偉達、微軟、亞馬遜等均有不同場景的嘗試。
圖:Instruct-Pix2Pix借助GPT-3、Stable Diffusion生成指令-圖像訓練數據集
商業價值評價:中
那么在LLM里,合成數據真的有效嘛?答案是否定的,合成數據提取了樣本的特征,并進行相似性的替換,特征仍然無變化;且數據本身會和真實數據混合,導致真實的數據特征漂移,噪聲變多,大模型過擬合。
但在以強化學習和模仿學習為主自動駕駛算法領域一級具身領域(神經網絡端到端的FSD),算法無法覆蓋到未曾見過的場景–強化學習的缺點,也就是所謂的coner case,這時候使用合成數據,在仿真平臺中訓練模型,確實可以提升其在coner case的性能,但仍然有限。
目前英偉達的sim saac等平臺也可以做到仿真生成環境,解決coner case的市場規模較小再加上汽車企業的賬期較長8-12個月,所以商業價值較中。
國內公司有光輪智能、智平方、Hillbot和銀河通用。
查詢工具&數據科學工具及平臺
作用:廣義的數據科學涵蓋利用各類工具、算法理解數據蘊藏含義的全過程,機器學習可以視為其中的一種方式和手段;狹義的數據科學也可以僅指代機器學習的前置步驟,包括準備、預處理數據并進行探索性分析等【56】。
一般在開源框架上自研,無商業價值。
模型訓練
模型庫
作用:機器學習屆的 Github,以更 AI-native 的方式組織 AI 開源社區,為 AI 研發提供安卓式的環境【56】。
重要公司:典型代表廠商包括海外的Hugging Face、Replicate,國內關注Gitee(開源中國推出的代碼托管平臺)和ModelScope(阿里達摩院推出的AI開源模型社區)OpenCSG等項目。
商業價值評價:低
占據著數據科學工作流的入口位置,用戶數量較大;但其開源屬性增大了其商業化難度,目前變現手段不多。
傳統 ML 模型規模小,訓練成本低,基本不依賴 Model Hub;大語言模型場景下許多科學家和工程師通過 Model Hub 調用開源的預訓練模型和參數,來減少自己從頭訓練和定制化模型的成本。
小客戶開發demo的場景更多!但做自己的模型肯定是脫離模型庫的,可以理解為交流模型的論壇。已有龍頭,且商業化機會對于專業開發客戶小,僅作為營銷平臺(廣告盈利)和做demo。
大模型訓練框架
作用:AI 模型訓練與推理的核心框架,使模型能夠高效的實現計算。以深度學習框架為例,其內嵌實現了以下事情:可以繞開手寫 CUDA 代碼,直接簡單地使用 GPU 搭建模型。這使得深度學習框架門檻變低很多,只需要定義神經網絡的結構與損失函數,即可跑通一個基本的模型。可以理解為深度學習的開發軟件。
重要產品:Tensorflow (Google), PyTorch (Meta), Jax。
Tensorflow 先發優勢明顯,早期占據了業界的主流。但其版本管理做得不好,易用性也略遜于 PyTorch,在學界被 PyTorch 后發超越。目前在業界使用 PyTorch 的公司也在變多,但由于遷移成本高,Tensorflow 也有一定公司在使用,況且 Tensorflow 是使用谷歌開發的 TPU 的主要選擇。Paddlepaddle(百度)、Mindspore(華為)。大公司掌握,為其深度學習的生態之一,免費使用。
商業潛力:低
盡管這一領域沒有顯著的商業潛力,但還是在這里介紹一下這類框架,因為這是當前所有 AI 模型的基石,有著很強的生態意義。
訓練和推理階段的計算優化
作用:通過芯片層面或者算法層面優化開發成本和推理計算成本
由于LLM的算法的改變,所有之前的優化辦法基本失效。在這里對LLM算法和計算機體系的全面的洞悉是稀缺性的,具有非常高的壁壘(又有大規模語言模型的訓練經驗,又有對計算機底層系統-存儲、計算等的了解的人非常少)。
同時,降低模型的訓練和推理成本,是大模型企業競爭的重點,目前價格和成本昂貴是導致大模型沒有被大規模使用的頭號問題;不管是大模型公司,還是使用大模型的公司付費意愿強,客戶覆蓋眾多。
市場規模上來說:訓練和推理的計算成本是大模型企業的最高占比成本。且推理優化的上限要比訓練優化的上限更高,具體數字已在算力層表述。無論是采取訂閱制還是API的盈利形式,市場規模都將是百億甚至千億美金的級別。
商業潛力:極高
目前主要是兩種技術路線進行優化:兩種一種是硬件層面的優化,一種是直接在AI算法上優化。但國內企業仍需要突破一體機的商業模式。
硬件層面的優化
目前國內硬件優化的公司為主,并且率先商業化,但在在硬件層面上,技術可創造的 margin(提升空間)不大了。比如硬件利用率,理論上最高是 60% 多,現在大家用英偉達的系統和軟件已能做到 40%~50%,可提高的空間就是百分之十幾。并且GPU優化技術面臨著嚴重的同質化問題,各廠商之間的性能差異并不顯著。
潞晨科技:
潞晨的產品重點在于訓練與推理一體化解決方案,尤其側重于訓練領域,在推理技術路線上,潞晨仍然主要集中在GPU優化方面。
硅基流動:
硅基流動專注于MaaS模式,通過云端向用戶提供Token服務。這一模式要求其具備廣泛的模型兼容能力,以支持多種不同的模型和技術手段,并結合云計算管理等一系列增值服務。
清昴智能:
清昴團隊源自清華大學計算機系媒體與網絡實驗室,專注于構建模型部署平臺,在底層不同GPU芯片的適配及模型部署服務方面積累了豐富的工程實踐經驗。團隊最近主要集中于與部署相關的MLOps算子以及對國產芯片兼容支持的算子開發。
無問芯穹:
無問團隊主要成員來源于清華大學電子工程系。在技術路線的選擇上,該團隊主要聚焦于GPU利用率和通信的優化以及計算機集成系統優化。
總體而言,純粹依賴于GPU優化的技術方案面臨嚴重的同質化挑戰,現有的開源框架已經達到了較高的性能,使得各廠商在性能表現上的差異化優勢不再顯著。
AI算法上優化
算法上優化的是沒有上限的,潛力最高。
以存換算的推理算法優化+全系統協同優化的趨境科技是該行業的黑馬:由清華系MADsys高性能計算機實驗室團隊組成。
利用推理階段的KVcache緩存,存儲多次提問的相似的問題和答案,避免重復計算,特別是未來的CoT的長推理場景,需要重復推理,成本可以直線下降。
趨境科技創新性地設計了“融合推理(Fusion Attention)”思路來利用存儲空間,即便是面對全新的問題也可以從歷史相關信息中提取可復用的部分內容,與現場信息進行在線融合計算。這一技術顯著提升了可復用的歷史計算結果,進而降低了計算量。
尤其在RAG場景中,“以存換算”能夠降低把響應延遲降低20倍,性能提升10倍。
在此基礎上,趨境科技首創的“全系統異構協同”架構設計也成為重要技術支撐。該架構是首個允許在單GPU卡上支持1Million超長上下文的推理框架,以及首個單GPU上運行2000億參數MoE超大模型等等。
目前,趨境科技已聯合清華大學一起將異構協同推理框架的個人版,名為KTransformers的框架在GitHub開源,并在Hugging Face等開源社區引起廣泛關注和討論。行業合作伙伴也對此興趣頗高,已有多家知名大模型公司主動拋出橄欖枝,與其共同發起大模型推理相關的項目建設。
模型部署
模型安全和監控
作用:保障線上模型可用性和可觀測性,實時保持對模型輸出結果和指標的監控。未來會是模型可解釋性和安全的重要領域【56】。
重要公司:Fiddler, Arize, Arthur, Whylab。
商業價值評價:目前低
LLMOps 需求:增加,LLM 語境下的 AI 安全將成為重要命題。
LLM 大語言模型的性質比傳統 ML 模型更為復雜,有包括 Prompt Engineering 等激活和微調方法存在。為了保障安全性和可解釋性,隨著 LLM 在軟件中的深入落地,對模型的監控和后續管理會有著更高的要求。目前已經有新型公司,如 HumanLoop 在專注這個領域,之前的公司中 Whylab 也在做相應的嘗試。
目前,大模型公司本身并不注重安全性,還是在追求性能上,安全問題是否會被大模型公司外包?目前以RLHF為主要對齊手段上,確實不需要外部公司參與模型微調。
模型部署和Serving
作用:模型部署是指把訓練好的模型在特定環境中運行的過程。過程中需要最大化資源利用效率,且保證模型部署上線后在用戶使用時有優異的性能。出色的部署工具能夠解決模型框架兼容性差和模型運行速度慢這兩大問題。具體使用場景可以參考下圖:
重要公司:BentoML, OctoML【56】。
LLMOps 需求:增加
商業價值評價:目前低
基于 AI 的應用和產品會越來越多,優秀的模型部署能降低模型的推理成本并提高性能,模型部署和 serving 會在 LLMOps 重要的需求,且可能會衍生出模型剪枝、蒸餾等能壓縮模型冗余的部署 serving 需求。但都是大模型公司本身在做。
二次開發
開發者工具
作用:為開發出agent工具,提供調用各種細分工具的平臺,產出智力成果。
Agent作為最終的LLM產品形態,屬于大模型的智能能力的關鍵一部分,一定會研發,且難度非常小。一方面LLM會將開發者和c端的流量卡在自己平臺上,一定會提供不同程度的自定義開發平臺(GPT2023年末已經推出agent開發工具商店以及GPTs:無代碼的agent應用開發)。
商業價值取決于大模型公司是否會向后整合。
目前有兩種商業模式:
1 提供開發工具的開發者平臺
國內(Fabarta),模型開發者工具Langchain,Together AI。
2 無代碼的agent開發
公司有CoLingo、AutoAgents.ai、Babel、Dify.AI。
向量數據庫
作用:非結構化數據庫,儲存的數據形式為向量 embedding,在推薦系統、搜索引擎、異常檢測、LLM、多模態等場景下都是數據輸出、搜索、召回的重要形態【56】。
重要公司:Pinecone, Zilliz;國內英飛流/InfiniFlow等
LLM需求:增加,但商業潛力:較低
在 LLM 語境下,向量搜索和查詢會在軟件中扮演更重要的作用,而向量數據庫則會成為這一方向中最重要的基礎設施之一。
首先,向量數據庫比較核心的技術就是索引(FLAT、HNSW、IVF)、相似度計算(余弦相似)、Embedding(將各種信息轉化成向量,降低信息復雜性);這些技術在大模型火之前就有了,時至今日本質上沒有顯著變化。
其次,賽道進入門檻比較低。無論是大模型提供方,還是傳統數據庫廠商都可以轉型進入這部分業務;這也就導致競爭會變得非常激烈。對于初創型公司來說,無論是拼財力還是拼客戶都完全沒有優勢。
由于其降低成本和實現關鍵agent檢索能力,模型大廠還有云計算廠商主動納入其能力。
七、大模型層
大模型層,無論海外還是中國,競爭格局非常統一的都是初創公司和互聯網企業。
開源 vs 閉源
在生成式 AI 向前推進的過程中,圍墻花園依然存在。OpenAI 并不 open 地僅開放商業化付費 API 作為 GPT-3 的使用方式,谷歌的大模型也并未開源。
下圖展示了開源社區追趕 AI 模型的時間線,可以看到技術追趕速度正在逐漸變快。那么這個趨勢是否會持續呢?如果差距持續縮小或較為穩定,AI 模型開發可能成為 iOS vs 安卓的格局;而還有另一種可能,則是差距逐漸放大,AI 研究所專業化地研發大模型,開源團隊主要做中小模型的工作。這一判斷的關鍵因素,會是各團隊對 GPT 模仿與超越的進度。
但總歸而言:閉源比開源好!且公司一旦做出效果,也會閉源!
大公司采取完全閉源或者部分開源的方式(META開源-為了集中智慧,更好的優化模型;但是訓練數據并不開放和輸出限制,并不符合最新的開源標準)
1 閉源有數據飛輪,將模型訓練的更好
2 開源的盈利模式,只能提供非標準的開發服務,沒有規模效應
3 開源發展慢于閉源,但商業化的競爭已然開始,以開源模型為基礎的軟件,性能和商業化落后
4 軟件類的歷史,都是開源先,再做閉源產品,天下沒有免費的午餐
開源沒有但使用者多,生態建立快,使用者還可根據業務需求自行增減功能或進行模型迭代,但是企業開發成本過高,無法及時收回成本,后面只能做為他人開發模型的工作,不具備規模經濟優勢,注定盈利模式走不通,但可以做營銷。
對于下游的應用層開發者來說:
模型選擇的問題,企業可以先用好的開源模型開發,再等待閉源模型技術發展突破(也可以同時開發,比較效果),再跟上(大模型層公司一定會提供標準化的工具)。
LLM
LLM的大模型公司是行業里主導玩家,整個產業都會由于該行業的競爭行為而變化。
從公開測試來看,中國大模型與國外模型仍有不小的差距。不過在scaling law的邊際效應減小的情況下,仍然可以在最多1年內追上。
海外
直接網站MAU數據說話,Chatgpt和借用OpenAI技術的微軟的Bing斷崖領先。還有app數據,考慮到大家使用都是通過網站入口進入,app的數據影響較少。
海外的商業化和技術進展整體快于國內市場,有非常好的借鑒意義。
初創企業
1 OpenAI
具有絕對優勢地位!利用技術優勢的時間差,正在快速商業化和防守!
團隊:掏空硅谷人才的頂尖公司,但是由于眾所周知的不再“open”和改變企業性質為盈利組織后,一次團隊“政變后”,關鍵科學家伊利亞以及安全團隊的出走,企業后續的頂層技術設計能力堪憂。CEO奧特曼是美國孵化器YC(國內奇績創壇的前身)的總裁。
事
事實上,近期OpenAI的人事變動頗為頻繁,大量關鍵科研人才流動。此前在今年5月,OpenAI超級對齊團隊負責人Jan Leike以及聯合創始人、前首席科學家Ilya Sutskever在同一天宣布離職。此外有消息顯示,OpenAI另一位聯合創始人Andrej Karpathy也已在今年2月離職,并且去年加入該公司的產品負責人Peter Deng也已離職。
隨后在8月初,OpenAI聯合創始人John Schulman宣布離職,并表示將加入AI初創公司Anthropic。彼時OpenAI公司發言人曾透露,總裁Greg Brockman將休假至今年年底,并且Greg Brockman本人表示這是其自9年前創立OpenAI以來第一次放松。
今年9月OpenAI首席技術官Mira Murati也宣布離職,并表示,“經過深思熟慮,我做出了離開OpenAI這一艱難決定。離開這個深愛的地方從來沒有一個理想的時間,但感覺此刻就是最好的選擇”。
本月初OpenAI旗下Sora AI視頻生成項目負責人Tim Brooks宣布離職,加入OpenAI的主要競爭對手谷歌DeepMind。近日,OpenAI高級研發人員、OpenAI o1推理模型負責人Luke Metz宣布即將從OpenAI離職。
目前OpenAI的招聘重點已經從基礎研究轉向產品開發和應用領域。
戰略方向:根據開發者大會,可以確認OpenAI重點將在繼續開發多模態大模型(尋找下一代的Scaling Law以及Cot等等)和尋找商業化(1為基于gpt的開發者提供全棧的開發工具和方案–免代碼的GPTs和Assitant 2運營應用軟件的平臺-Store 3To C的搜索引擎以及Canvas工作臺);向后向前整合關鍵能力。特別是C端,OpenAI一定會去嘗試去做大市場的生意。
To C類(獲取流量):提供Chatgpt,GPTs agent和GPT-store,奧特曼長期如果想要推翻谷歌,成為新的檢索入口,必須要找到新商業模式和生態!(特別是找到和廣告商收費,但又不破壞C端客戶使用體驗的商業模式)。
OpenAI確實在產品化上有所不足,目前OpenAI的招聘重點已經從基礎研究轉向產品開發和應用領域。此前在2021年,該公司發布的招聘職位中有23%屬于一般研究類職位,但在2024年這個比例已降至4.4%。
對于B端(ISV生態工具棧):短期內參考蘋果生態(廣泛吸引開發團隊入住),市場上對C產品收取高額月費享受ai服務,可以短期收錢,但是目前來看大模型競爭隨時趕上,賺錢的服務也將會被垂類公司賺走,如何獲取和留存大流量;提供統一模型微調和訓練工具。為了應對谷歌等大公司整體生態的競爭,必須要走出商業差異化!
與互聯網大廠合作:微軟占有49%的股份,引用至自己的終端(copolit agent–LLM版搜索引擎救活了微軟無人問津的瀏覽器edge–兩年內從8%的市場份額提升至15%!直接挑戰谷歌chrome),同時也投資了另一家大模型公司,大公司都會使用大模型來對其企業產品進行agent化和云服務的協同工作!微軟同時投資mistral和引入inflection ai的ceo,說明對OpenAI的掌控不強,所以才做的多手準備。BTW,微軟云計算的azure上的GPT的api費用要低于OpenAI官網的價格。
對于OpenAI來說,一方面的投資有算力的加成,快速訓練,一方面微軟也對奧特曼的支持導致了伊利亞想把奧特曼踢出團隊的失敗。另外根據協議,OpenAI一旦開發出AGI(第五級-AI可以完成一個組織的工作),微軟就將失去OpenAI的技術。
總而言之,OpenAI拿算力、數據;微軟拿到OpenAI的技術作出產品,賦能業務。
2 Anthropic
創始人達里奧是一個技術天才,在OpenAI的5年間,他先后帶領團隊開發了OpenAI的早期產品GPT-2和GPT-3,成為首批記錄人工智能規模定律和規?;募夹g大牛。
正是這段經歷,達里奧逐漸意識到AI可能比想象中強大,它帶來的安全問題也比想象中更嚴峻,然而,OpenAI似乎并不能解決他的顧慮。2020年6月,GPT-3問世,半年后他與妹妹丹妮拉決定一同辭職。
OpenAI核心團隊出來創業,Anthropic 已經和 亞馬遜、Google、Salesforce 達成了戰略合作,使用 Google 提供的云服務,并且集成到 Slack 中;Anthropic也表示會進一步擴大與AWS的合作,提出將“從芯片到軟件的技術基礎,共同推動下一代人工智能研究和開發?!逼渲芯桶ê献鏖_發AI芯片,以及AWS業務的進一步滲透。
Anthropic 的成功源于其獨特的技術路線和商業策略。首先,Claude 3.5 Sonnet 模型在性能上實現了質的飛躍。根據 Anthropic 官方的數據,該模型在研究生水平推理能力(GPQA)、本科水平知識(MMLU)和編碼能力(HumanEval)等多個基準測試中均表現出色,甚至超越了其前身 Claude 3 Opus。
基于Anthropic發布了一項革命性的技術——模型上下文協議(Model Context Protocol,MCP)目標是實現LLM應用程序與外部數據源和工具之間的無縫集成。
因為允許LLM訪問和利用外部資源,它的功能性和實用性都會大大增強。解決LLM數據孤島的問題。使得開發者更容易開發自己的產品。
無論是構建AI驅動的IDE、聊天界面,還是創建自定義的AI工作流,MCP都提供了一種標準化的方式,來連接LLM與它們所需的上下文。
Claude 3.5 Sonnet 引入了革命性的”計算機使用”功能。這項功能允許 AI 模型像人類一樣與計算機圖形用戶界面交互,包括解釋屏幕圖像、移動鼠標指針、點擊按鈕,甚至通過虛擬鍵盤輸入文本。這種創新大大拓展了 AI 的應用范圍,為企業用戶提供了前所未有的靈活性。
此外,Anthropic 還推出了”Artifacts”功能,允許用戶直接在聊天界面中與模型輸出進行交互和操作。這不僅提高了生產效率,還促進了人機協作的創新。
Anthropic 的成功也得益于其在安全性和道德方面的重視。公司率先提出了”憲法 AI”的概念,為其 AI 模型制定了一套道德準則和行為指南。這種做法不僅贏得了用戶的信任,也為整個行業樹立了標桿。模型與人類道德強對齊。
3 Mistral AI
Mistral AI成立于法國和2023年4月,由DeepMind和Meta的前科學家共同組建,專注于開源模型及企業級服務。公司成立之初,就獲得了英偉達、微軟和Salesforce等科技巨頭的投資。Mistral AI被視為OpenAI在歐洲的主要競爭對手,據該公司介紹,其開源模型Mixtral 8x22B是市面上參數規模第二大的開源模型,僅次于馬斯克的Grok-1。
不過,在與科技巨頭的競爭中,Mistral AI面臨很大的挑戰。今年前三個月,Meta、Google和微軟在數據中心建設和其他基礎設施的投資總額超過了320億美元。不過,Mistral AI已與微軟建立了長期合作伙伴關系,利用Azure AI的超級計算基礎設施訓練模型,并共同為客戶提供Mistral AI的模型服務。
互聯網企業
還有meta、谷歌、亞馬遜、推特等自研的模型!谷歌的Gemini和meta的Llama模型,性能都非常不錯。且有流量的優勢,agent產品化后搭載在自己硬件如谷歌手機,軟件如Meta的app上。
關鍵是誰會贏?
在基礎的算力和數據上,初創公司遠遠不如互聯網企業,唯獨在算法層面,或者更具體的說:AI算法認知領先,在智能工程上(數據、計算機系統)有一定的開發領先知識和經驗。預計和大廠們有個最多8個月的技術優勢。然而在scaling law大概率失效下,這個時間將會被快速拉短。
本身大廠們就是算法領域知識產出的主要來源(推薦算法、cv都是互聯網廠商的深度學習的拿手好戲,適應新算法很快),本身的transformer算法也是由谷歌提出,且互聯網大廠的業務就是cash cow,不缺利潤,后期追上很快。只是現在為了市場的競爭,快速合作,ai化產品賦能業務增長,實際上都在自己做模型。
在這種博弈下,初創公司只能不斷創造壁壘,保持技術上的領先的同時,找到一條可以挑戰互聯網企業的商業化路徑(至少這里還有無限的可能),否則會被互聯網初期免費的策略競爭(基本上互聯網企業的模型都免費,或者api價格遠低于初創企業,Llama都直接開源的)。所以初創企業和終端應用層的界限將會十分模糊,大模型企業除了提供MAAS的api等服務外,也會提供豐富的產品給到用戶。
如果無法成功商業化,那么初創企業基本上就會和上一時代的CV公司一樣:商湯、曠世依靠給互聯網大廠賣人臉識別api起家,技術成熟后,同質化競爭,單次識別人臉的單價從幾毛錢直接降到幾厘錢,甚至更低;然后開始尋找二次增長曲線,各種行業(自動駕駛、醫療、to c等等),搞渠道,做非標總包定制化,毛利下降。。。。。
總而言之,初創企業必須找到自己的有壁壘的盈利池,特別是to c領域作為大頭,拿到互聯網算力和投資后,把握好關系避免過于深入參與業務,要充滿想象力和勇敢挑戰互聯網大廠的業務,否則到頭來就是個大廠外包研發團隊,有業務能量和技術的等待并購or直接下牌桌。
那么這次的LLM浪潮到底是互聯網大廠們的流量競爭的延續還是新時代的降臨呢?
國內
初創企業
智譜ai:同時投資生數科技(美術類)和冪律智能(法律類),補充能力和應用層,商業化最成熟,主要面向to b;有語音、文本和圖像,有開發平臺;智譜 AI 已擁有超2000家生態合作伙伴、超1000個大模型規模化應用,另有200多家企業跟智譜AI進行了深度共創。
近期,在11月末智譜推出自己手機版的AutoGLM之前–可用語言操控手機的agent(LUI),下面應用層,會詳細講述,他的股東螞蟻集團的著名app-支付寶,在9月份早早就推出了“支小寶”,人們可以和他對話,在支付寶上進行訂外賣、訂機票等等操作。
月之暗面:to c(主要定位)商業化最好:Kimi智能助手在2024年1月的訪問量達142萬,在大模型創業公司的“AI ChatBots”產品中居于首位,月環比增長率為94.1%,增長速度也在大模型創業公司中排名第一;技術優勢,250ktokens的長文本輸入,主打無損記憶;但只有文字,to c入手;最近又有了CoT能力,數字推理能力加強不少。
互聯網企業
上述榜單為app使用榜單,非網頁版,更符合大家對模型和應用層使用的市場認知。豆包的使用是斷崖式的,和自己app業務的賦能,飛書等app內置豆包免費使用,加上宣發和教育板塊的擴張。
字節的豆包、360、華為、百度、阿里、美團等等都在出自己的模型。這里面字節和360做的商業化和模型成果結合的不錯,流量好。這里要說一句,幻方的deepssek模型通過優化注意力機制和量化的大量GPU(除了字節外,最大的英偉達算力方了),獲得了非常好的效果,性能位居世界前列,但不商業化,不賺錢,只開源模型,模型的競爭實在過于強烈。
國內國外的競爭態勢幾乎一樣。不再贅述。
八、應用層——軟件
AI應用軟件綜述
目前應用層的問題在于,大家都是嘗試在用,后續使用次數不多,無法利用好大模型的特性與需求貼合。
所以應用層的成功的關鍵是基于場景的深度理解,做出復用率高的產品!所以MAU、復購率等為關鍵指標。還是得回到應用場景的關鍵詞:
剛需 長期 高頻
應用層公司的模型選擇路徑
1 利用已有的閉源大模型用自己的數據微調模型:(但要找到合適的盈利模式,抵消流量費用)
訓練費用和調用費用:OpenAI對訓練和api調用收費。這通常基于使用的計算資源量和使用的模型。
- GPT-4v訓練價格:$0.00800/1K tokens ,promt/輸出價格:$0.00900/1K tokens 訓練價格:$0.00800/1K tokens,1K tokens 大約750個英文單詞,500個漢字,10個億中文。
- 訓練3次,僅花費35萬人民幣,關鍵在使用收費–交互2000次/1美元,大互聯網公司一天估計有10億次交互,每月要繳納1500萬美元,不如直接開發自己的大模型。
2 自研
3 開源大模型再訓練
基本上應用層的公司還是微調模型,不自研,也就是所謂的“套殼”,所以他們的壁壘就在于對場景和LLM的理解從而開發出PMF的產品,而技術層面上來說,所有套殼公司要做的事情就是提示詞工程-通過LLM偏好的語言習慣,引導LLM最優化的輸出結果。
To B & To G–企業服務
海外龍頭公司:Saleforce、SAP、Zoom、Adobe、云服務公司等
國內:釘釘、企業微信、飛書、金蝶、用友等
針對大模型的已有的創造和歸納推理能力,可以部分替代美術創意、文字推理歸納。
(一)信息管理類
CRM — AI客服
大型企業如 Salesforce、SAP 和 Workday 也推出自己的 AI Agent 產品。其中,Sales Agent 是目前 AI Agent 主要落地和商業化場景之一。硅谷 VC 圍繞 Sales Agent 概念投資了很多 club deal,如完成了 5000 萬美元的 B 輪融資,估值 3.5 億美元的 AI SDR (Sales Development Representative,銷售開發代表) 11X,Greenoaks Capital 領投新一輪的 Sierra 估值也達到了 40 億美金【57】。
與此同時,Agent 公司從按 seats 數量收費的 SaaS 定價模式轉向基于結果定價,帶來了更大的市場空間和想象力。
目前的 Sales Agent Startup 大多專注于替代或優化銷售流程中的某些環節。
AI客服歷史
客服市場從上世紀 50 年代發展到今天,主要經歷了四個階段【58】:
傳統電話客服(2000 年以前)—多渠道客服(2000 年-2010 年)—云客服(2010 年-2015 年)—AI 客服(2015年至今)。但是即使發展到今天,客服市場競爭格局仍然十分分散。在 LLM 之前,AI 客服依賴于自然語言理解(NLU) 和機器學習,不同的行業需要不同的語料庫,客服公司通常僅能在一至兩個垂直行業做深,難Scale。
第四階段的 AI 客服也叫 “對話式 AI(Conversational AI)”,國際主要玩家包括 Kore.ai、Amelia 等。
AI客服技術路徑
早期基于 Rule-Base 的 Chatbot 對答是可控、可預測、可重復的,但對話缺乏“人情味”,并且通常不保留已發生的響應,存在重復和循環對話的風險。傳統 Chatbot 架構和工具非常成熟,主要包括四個部分:NLU 自然語言理解,對話流程管理(對話流和響應消息,基于固定和硬編碼邏輯)、信息抽象(預定每個對話的機器人響應)、知識庫檢索(知識庫和語義相似性搜索)。傳統 Chatbot 唯一基于機器學習和 AI 模型的組件是 NLU 組件,負責根據模型預測意圖和實體。這種 NLU 引擎的優點是:有眾多開源模型、占用空間小/無需過多資源、存在大量的命名實體語料庫、有大量垂直行業的數據。后來的 Chatbot 采用更復雜的算法,包括自然語言處理(NLP)和機器學習,來提供動態和上下文相關的交互,從而解決早期基于模板的方法的缺點。
Chatbot 發展到后期出現了 Voicebot。Voicebot 的基本方程式是:Voicebot = ASR(Automatic Speech Recognition) + Chatbot + TTS(Text To Speech)。這些變化增加了復雜性,提供更好的對話效果、更長的對話時間和更多的對話輪次,以及更復雜的對話元素(如自我糾正、背景噪音等)。然而,Voicebot 出現的同時也帶來了一系列挑戰:有延遲問題、需要更復雜的流程、需要加翻譯層、容易出現對話離題、用戶打斷對話難以解決等。
因此,開發者依然在渴望一個靈活且真正智能的對話管理系統。LLM 的出現從開發到運行都顛覆了 Chatbot IDE 生態系統:不僅加速了 Chatbot 的開發設計,大大提高了Scalability;而且在對話運行中可以實現上下文交互、靈活且智能的回復。但缺點是穩定性、可預測性較差,以及在某種程度上的可重復性弱。
AI客服需求場景
根據銷售工作流,可以將 AI 客服分為幾類:
1)營銷類外呼:售前場景因為對于模型的理解和智能能力要求較低,是目前比較好的落地場景。Voice agent可以帶來更自然的對話體驗,同時能夠結合分析歷史通話數據,實現營銷轉化的提高。如果遇到太難的問題,LLM 也可以檢測后發給普通的客服。
2)銷售中:目前LLM還比較少的被應用到直面leads,因為受能力限制,失敗了損失過大。但被充分應用于客服培訓中,一方面節省了因為電銷頻繁離職導致的過多培訓時間成本;另一方面可以做到知識庫實時對齊,成為電銷的語音 copilot。
3)投訴/售后服務、客戶回訪(占比50%):AI 可以幫助客服收集客戶投訴,解決簡單的售后服務問題(不一定要使用LLM)。同時可以進行大規模的客戶回訪,也開始被企業廣泛的采用。
市場規模
根據 Morgan Stanley 的報告,目前全球大約有 1700 萬名客服代理人員,代表著大約 2000 億美元的全球勞動力市場。隨著多渠道協調響應的需求增加(例如電子郵件、社交媒體、聊天),這個市場從傳統的客服中心向云服務轉型。根據 Morgan Stanley 估計,目前高達 50 % 的客服互動都屬于簡單直接的類型(例如密碼重置、包裹查詢、需要退貨),隨著 AI 解決方案的改進,這些互動未來可能不需要人工客服的參與。但是考慮到客戶強烈希望與真人客服交談的偏好,在保守情況下,未來 5 年內,可由 AI 處理的客服業務將占 10-20 %,并且這一比例預期將增長。因此,Morgan Stanley 認為在未來 5 年內,Contact Center 市場(包括 CCaaS 和 對話式 AI )2027 年市場規模可達約 260 億美元。
市場格局推測
Sales AI 領域非常Crowded,主要競爭對手可分為三大類:大型公司的銷售自動化產品、同類 Gen AI 初創公司、以及上一代 AI 銷售軟件。
垂直行業的語料庫和客戶資源在客服 NLU 時代是玩家的競爭壁壘(數據、行業認知和客戶資源),所以客戶在選擇供應商時更看重供應商在垂直行業的經驗,因此截至目前 AI 客服市場格局仍然較分散。根據專家訪談,AI 客服市場未來很可能有 20-30 位玩家同時留在場上,重要玩家的收入體量大約可達到 10-30 億美元。假設 LLM 落地成熟,考慮到 LLM 的通用性,市場格局有可能由分散變為更加集中,更利好頭部公司。
眾所周知的原因-中國市場的暫未接受訂閱制導致軟件公司無法像國外企業一樣,獲得高額的收入。但這也是商業進程問題,美國經歷了軟硬件一體機的IBM壟斷,到Oracle等軟硬分離的訂閱制挑戰,再到目前大模型的API-用多少買多少;每次盈利模式背后都是市場受夠了被生產者壟斷的剩余剝削,選擇了更加平等的盈利模式;中國市場還需要時間。
所以即使收入增長很快,國內企業服務目前在融資低谷(大家更希望看到并購整合,只為活出資本寒冬)。但是原有的AI客服公司明顯在新浪潮下,具有更大的先發優勢:技術上-只需微調模型;但有大量的數據和場景理解;商業上有固定的渠道客戶,新的盈利模式帶來進行溢價的升級。期待商業模式的轉折,重新將軟件類估值抬回應有的水平。
LLM 對 AI 客服市場的技術風險
真正到了落地階段客戶仍更多采用傳統機器學習/NLP 的解決方案(客戶有定制化和垂直行業解決方案的需求,LLM 對垂直行業的理解和準確性反而不如傳統方案),需要限制LLM的幻覺。需要因此目前主要是成立年限較長、有一定行業經驗和客戶積累的傳統公司受益。但傳統方案基于關鍵詞進行回答,靈活度較差,用戶體驗也不夠真實,因此該情況有可能僅是過渡階段。
國內公司有:句子互動、斑頭雁、追一科技、百應科技、Stepone等
ERP — 企業搜索
根據 ReportLinker 預測,2028 年,全球企業搜索市場規模將達到$6.9B,2022-2028年 CAGR 為 8.3%【59】。
供需:企業搜索產品的目標用戶主要為知識工作者,企業客戶覆蓋大、中、小型公司,但以大型企業和中等規模公司為主,因為隨著企業越來越龐大,積累的結構化、非結構化數據越來越多,員工與員工之間溝通也越來越低效,因此企業越大對企業搜索的需求就越大。
海外企業搜索大致經歷了三個階段:
1. 第一階段是基于關鍵詞的搜索,用戶需要輸入關鍵詞或關鍵詞組合進行搜索;
2. 第二階段是基于語義的搜索,用戶可以輸入自然語言完成搜索,且搜索的相關性和準確性和第一階段相比有很大提升。
前面兩個階段的共同特點是,均為用戶輸入關鍵詞或自然語言,搜索引擎根據相關性對搜索結果進行排序,且搜索結果為網站;
3.第三階段,也就是現在,搜索出現了新的玩法,ChatGPT 或 Bard 等搜索的結果不再是一條條網站,而是直接提供問題的答案。Glean 屬于比較積極擁抱搜索行業的變化的玩家,技術上同時提供語義搜索和關鍵詞搜索的能力,產品上同時提供答案生成和網頁排序兩種形式。
企業搜索的需求非常明顯和穩定,因此該賽道一直比較擁擠,主要玩家包括微軟、Google、Amazon、IBM、Oracle 等大型科技企業,以及專注做企業搜索的公司,如 Coveo、Lucidworks、Glean、Mindbreeze 等,這其中有像 Glean 這樣新成立的公司,也有像 Coveo 這樣已經成立十幾年的公司。
與企業服務公司產品為互補品,可拆分,客戶離不開原有的企業服務產品,且數據均在原公司,企業檢索為增值服務,可短時間內自研。
Glean(谷歌搜索團隊創業)
客戶:Glean 早期將科技公司視為目標客戶,后來更聚焦于成長期科技公司,這些公司的員工數量通常是 500-2,000 人,公司處于高速發展之中,愿意嘗試新事物且快速行動。
技術:Glean 利用多維方法將矢量搜索、傳統關鍵字搜索和個性化結合到了一個混合搜索系統中,從而提高了搜索的相關性和準確性。
核心功能是搜索;亮點是個性化和跨應用。
商業價值:Glean 的跨應用搜索相當于在所有 SaaS 產品之上架了一層,用戶不需要再逐一打開 SaaS 應用,在 Glean 上就可以查到企業數據,并完成部分高頻工作;流量進入入口,并且還能直接有生產力,目前最多的還是員工入職場景(培養使用習慣?。?/p>
商業模式:純 to B 的模式,未向個人用戶開放。Glean 通常為企業提供兩種定價模型,一是 Per-Seat 的定價模型,每個 Seat 每月 100 美金以內;二是針對企業級解決方案的個性化定價模型。
競爭優勢:1易用性(鏈接多個SaaS合作),冷啟動快(3天)2搜索能力的數據飛輪,形成個性化 3員工的網絡效應。
但是無法沉淀業務數據,數據都在SaaS,有搜索數據沉淀,提供企服的公司一般也提供(并購邏輯),國外使用SaaS較多,所以需要企業搜索來使其串聯,不像國內統一化。
未來的期待:想辦法有一定的數據沉淀,未來要成為中心平臺,需要再多做一些高價值工作替代or形成行業工作流的替代,讓使用者繼續使用。
國內
主要是大模型層公司在做,一種是幫助企業員工進行企業內部知識搜索和總結-私有化部署(項目制,商業潛力弱);一種是ERP公司使用大模型進行搜索并進行SaaS調用。
關注數據獲取留存以及如何商業化,是否考慮垂直行業工作流的agent化!泛化能力不強,先抓住垂直客戶的高價值需求,先商業化。感覺業務有些迷茫,目前客服和數據預處理都有大量玩家參與,大的ERP公司例如金蝶、用友等可以嘗試調用大模型復制Glean,完善自己的企業軟件使用入口,進行優化,通過大模型調用各類SaaS。
國內ERP公司目前的超萬級的ISV和生態完整的工具棧壁壘是模型層完全無法競爭的,大概率做個內部技術支持。
HCM — 數字人面試&員工培訓
主要是數字人視頻來代替面試(企業減少招聘投入并提供面試者之前機器面試的體驗感)和新員工的入職培訓視頻。
數字人互動直播與錄播有點類似,只是錄播少了互動。在錄播時會先把視頻錄制好,然后通過OBS推流,推到直播平臺就可以了。如果需要互動流程時,要獲取直播彈幕,判斷彈幕是否滿足回答條件,如果需要回答則生成答案,然后在走一遍視頻制作流程,然后推流。
技術上無壁壘,商業上直播不允許用錄制的視頻,作用只能在短視頻平臺進行視頻成本的下降。大廠都有在做。
目前對于可重復性多的視頻生成場景,有較高的價值,例如網課、入職培訓等教育和營銷領域??春贸龊#杖朐鲩L快的公司。特別是出海,詳細分析請看下述的視頻生成賽道。
初創公司代表:硅基智能、Fancytech、Heygen等,其他數字人中小公司也很多。
法律
根據服務對象劃分,Legal Tech 的種類可以分為 ToL 服務律師事務所、ToB 服務企業法務部門及 ToC 服務消費者。但值得注意的是,無論是 ToL 還是 ToB,企業才是最終付費方。即便產品的客戶是律師事務所,由于律師事務所是為企業服務的,律師事務所會把 Legal Tech 工具轉交給客戶報銷【60】。
LLM 出現前的法律 AI (以 NLP 為主)主要運用于合同管理,但這些工具以信息檢索為主,很難對信息進行深度的處理與分析!
產品:
- 法律寫作:撰寫長篇、格式化的法律文件,幫助起草合同,撰寫客戶備忘錄,作為工作起點
- 掌握專業法律知識,可以回答復雜的法律問題
- 進行合同及文件的理解與處理
- 定制公司特有的模型:使用客戶特有工作產品和模板訓練,以嵌入工作流,類似新員工加入律師事務所時的入職培訓等
- 律所工作流:客戶訴求的溝通與拆分、法律研究(法條檢索和判例研究)、客戶方案設計、合同、訴訟文書或其他法律文件的處理,以及其他涉及到法律適用問題的工作
模型層:
法律 LLM 創業公司主要直接接入 API 或 finetune 大模型,不同公司選擇了不同的供應商,Harvey、CoCounsel、Spellbook 接了 GPT4,其中 Harvey 和 CoCounsel 2022 年下半年就獲得了 GPT4 的優先使用權,Robin AI 則選擇了與 Anthropic 的 Claude 合作;公司多采取多個模型組合去完成不同細分任務。
數據層:
不同公司能獲得的優質數據不同,這對于 LLM 的表現會產生較大影響。CoCounsel 因具有 Casetext 多年的數據積累,并被湯森路透收購,可以使用其世界級法律內容庫,在數據維度具有較大優勢;Lexis AI 背靠 LexisNexis 也有類似的優勢。而 Harvey、Robin AI 等新興創業公司選擇與頭部律師事務所、四大審計公司綁定的方式獲得優質訓練數據。
看好有大模型訓練能力、行業專業數據庫、深入大客戶工作流的切入團隊是關鍵。
市場規模:
中國機會更大,2023年中國各類案件接受3200萬件,400萬件未處理,還有1400萬調解(每年還以30%速度增長,這些都是強制未上升至受理案件的!中國法律服務能力缺口極大?。?,還有各類監管審查工作,ai的出現可以極大緩解公檢法的極大壓力!中國律師事務所4萬家,每年增加2000家,中國約 57 萬名律師。保底110 美元/月/人+超量使用+定制開發,目前市場規模60個億元,且將會不斷快速增長30%!
在中國to b法律領域有個重要問題就是,律師普遍工資不高,實現替換意愿不強,目前商業化進展緩慢。但需要持續關注。
筆者更關注龐大的C端市場!中國人需要一款專業的法律詢問APP,依法治國的前提。
美國Harvey(openai投資),CoCounsel
中國:冪律智能(有數據、模型開發已完成)智普AI和北大的Chatlaw
審計合規
需求:國家和行業合規要求–GDPR,PCI-DSS,HIPAA,SOC 2,避免罰款和停止運營;合規和審計成本高–大型企業完成SOC2審計的單次成本超過100萬元;工作量巨大,只能通過抽查來減少工作量,跨多部門,工作協調困難,數據隱私保護缺失,通過海量數據的采集和分析做到高效證據獲取,最終生成可支持審計目標的合規報告。大大降低合規的成本(預計提升效率40倍)–人工審查+審計;同行檢舉過多,罰錢多。
兩大業務:審計(出海大公司)和數據合規(出海公司)
工作流:1理解當地法律法規 2梳理業務場景 3找到敏感違規業務流 4合理規避法律風險 5定期人工檢查 6生成報告
市場測算:
數據合規(出海的中小型公司)
2027年,出海企業72萬家,每年新增5萬家,所有的涉及數據獲取的企業都要符合當地規定,會遭同行舉報,有天價罰款。假設滲透率20%,10萬一年,中小型增量就有150億人民幣。大型公司將根據用量收款。
還有審計(出海大公司),想象空間大
發展趨勢:IT合規自動化平臺在國內尚無明顯領先者–主要是法律新規,美國歐洲很成熟,中國剛剛起步,沒有競爭對手,出海和國外上市公司需要。
(二)研發設計類
從技術來說,LLM+Diffusion的生成技術就是完美契合該類行業,甚至幻想本身就是一種創造力。從商業價值上來說,創造是最好的切入工作流的入口!先創造后修改!
美術類工具
在講美術生成式的行業之前,筆者先講下國外幾家在做的事情以及思考,方便大家理解整體市場。
Stability AI
基于 Diffusion Model的Open model + Private Data,主要是針對B,G端的用戶
戰略:針對B端用戶做模型的開發,支持開源為了證明技術、模型可控性和低成本技術外包!C端用戶順便收取費用。但是哪款產品都不是爆款,缺乏規劃。目前團隊商業化和管理能力弱。
技術:Diffusion開源模型(Stable Diffusion 由開源社區、Stability AI 及 Runway 研究員合作完成,Stability AI 并不獨立擁有該模型的知識產權,Stable Diffusion 生成的作品版權遵循 CC0 協議,不歸屬于任何個人和公司,但可以用于商業用途):使用門檻低、模型調優靈活度高、生成效果好,加上 Stability AI 出色的運營能力,Stable Diffusion 成為了第一個擁有極強生態的開源模型(提供算力和資金支持–外包團隊)。但是Stable Diffusion 中大量的數據反饋由于其開源屬性無法形成優化模型的反饋回路,在更新模型上速度緩慢。
Diffusion的技術要解決精細化的問題!
LLM:StableLM 看起來又是一個營銷勝于實際工作的例子。根據用戶測評,與其他開源模型相比結果相當平庸,與 GPT 也相差甚遠。
產品:付費應用 DreamStudio,大公司的api Plug-in,定制化咨詢和大模型開發服務;通過開源,與生態合作,快速成長。
客戶:常見的 B 端客戶,還會為發展中國家的 G 端提供服務。
盈利模式:
1)服務大公司,提供定制模型和咨詢服務:Stability AI 的核心業務是為大公司建立專門的團隊,形成合作伙伴關系,出售模型(擴展和定制 Stable Diffusion 或其他大型生成模型,每個模型的報價約幾千萬美元),并為企業提供咨詢服務,幫助大型公司和政府對 AI 模型的采用。
2)付費應用:孵化社區生態中的技術與應用,推出商業化版本,如以 Stable Diffusion 為基礎的 DreamStudio,上線第一個月,收入就達到數百萬美金,用戶數量達到 180 萬。
3)API:通過提供開源模型的 API 收費,并提供增值服務。Photoshop等公司的插件。
成本:Stability AI 作為開源生態的基礎設施,為開源社區提供算力及資金支持是一筆極大的開支。
據說目前 Stability AI 擁有在 AWS 運行的、由 4000 多個 Nvidia A100 GPU 組成的集群,用于訓練包括 Stable Diffusion 的 AI 系統,導致其運營和云服務方面的支出超過了 5000 萬美元。
團隊:創始人為印度人,無AI經歷,團隊來自世界各地,管理風格自由,這增加了成本,減緩了產品開發,沒有總體的規劃。
圖片生成的競對Midjourney進化之快得益于其出色的產品設計和閉源屬性帶來的的數據飛輪。MJ 做了較強的風格化處理,使得 to C 用戶體感更好,但是我們注意到,SD 開源社區的 Finetune、Alignment 模型風格化后也能達到較好的效果,所以不排除 Stability AI 也有能力做到,只是重心不同。
除了 Midjourney 等通用型文生圖軟件,垂直類應用也層出不窮。不同行業對生成圖片有著不同的要求,需要使用特定數據集訓練,這給垂類賽道的創業企業提供了機會。如專注于 Logo 與網站設計的 looka,專注二次元形象生成的 NovelAI,專注游戲資產生成的 Scenario,以及專注頭像生成的 Lensa。這些垂類應用目前來看很難成長為大體量公司,但盈利能力強,如 Lensa 在發售后的短短幾周就賺了 4000 – 5000 萬美元。
目前Runway/Pika的定位是Video Making Interface,AI native tools,圖像視頻編輯工具,關鍵是能從好用的單點工具閉環成用戶不可或缺的工作流產品!視頻生成是編輯的一部分。
目前Runway/Pika產品跟Adobe-Premiere和抖音-剪映比,只是AI增值性的提升,而沒有顛覆整體的工作流,也很難顛覆他們的產品生態;同時大公司也在進行AI的研發;Sora的出現有新解法,僅作為視頻創作源,不入侵到視頻編輯本身,但這兩個公司沒有那么錢和資源去競爭一家微軟的子公司。
在專業視頻編輯場景,Runway 難以撼動 Adobe 的護城河,其編輯工具目前無法應對專業精細化的要求,同時專業編輯軟件 Adobe 和達芬奇(Davinci Reslove)也在 Runway 發布的新功能半年后就更新 AI 工具插件。在輕量化視頻制作場景,Runway 面對高度嵌入抖音(TikTok)工作流體系的剪映。目前僅作為補充品存在。
Midjourney(專注文生圖)
壁壘:設計師風格–差異化!高質量數據和模型(后期可加入tansformer現實世界模型)
技術:構建了自己的閉源模型,數據質量及數據標注質量的重要性遠遠超過模型本身,迭代非???。
產品:藝術風格在市場上具有差異化優勢。產品搭載在 Discord 中,用戶通過與 Midjourney bot 進行對話式交互,提交 非常短的Prompt(文本提示詞)來快速獲得想要的圖片。
客戶:創意設計人群、工業設計人群、Web3 & NFT 從業者以及個人愛好者。若對標 Canva 的用戶群,以 Midjourney 目前訂閱價格計算,未來收入能達到約 23 億美元。目前1000萬用戶量。
盈利模式:
目前采取 SaaS 訂閱制模式,價格為 10 – 60 美元/月。雖未公布具體付費用戶數量,但根據客戶訪談可知用戶付費意愿較強。以目前用戶數量保守估計,年營收能到達約 1 億美元。
Midjourney 采取 SaaS 訂閱制模式。最初使用時,用戶可以免費生成 25 張照片。之后按照訂閱制收費。月付制為 10、30、60 美元,或者使用年付制,價格為 8、24、48 美元/月。值得注意的是,用戶只有在訂閱之后,才能擁有使用 Midjourney 創作的圖片的版權。
成本:目前來看,Midjourney 的毛利率約為 80%。Midjourney 搭建在 Discord 上,Discord 會收取約 10% 的手續費。雖不清楚 Midjourney 的模型訓練成本,但 Stable Diffusion 的訓練共使用了 256 張 Nvidia A100,耗時 15 萬小時,成本為 60 萬美元。每次生成圖像的推理在云端的 GPU 上完成,生成一張圖片的成本約 0.5 美分一張,且未來成本會不斷壓縮。相對于訂閱收入,生成圖片的成本可以逐漸忽略不計。
中美的主要不同在于,中國式電商場景更多,生成式的商業化也會有所不同。
專業編輯
總體市場規模測算:
圖片:Adobe,短視頻:剪映,長視頻:Adobe等專業軟件
僅短視頻:Instagram 月活用戶為 20 億,而 Tiktok 用戶為 20 億
目前數字媒體領域市場規模達到1500億美元,由于短視頻的快速增長(滲透率20&假設,增量將達到400億),(非專業的客戶也能使用ai和集成工具)增速極快。
專業編輯賽道工作流:視頻制作過程,視頻制作的后期則包括了邏輯剪輯、音樂制作、粗調成片、細調和字幕添加等工作,它們占據了專業視頻編輯工作的 80%,Runway 有提供音頻去噪、自動風格變換等功能。不僅如此,許多專業視頻還要包括視覺特效的制作,而在特效制作過程中,最費力的工作便是 Green Screen(綠幕摳圖)及 Inpainting(圖像修復)。
競爭情況:
短視頻領域要突破抖音生態!
但在專業美術領域有機會:Adobe采用的是Stable Diffusion的技術,而Stable Diffusion是開源,不具備長期優勢;Adobe對新技術和新商業模式反應緩慢,即使推出Express對標Canva,也無法與其競爭,專注于專業領域的打磨產品。
國內競爭對手較多像素蛋糕,剪映等.
切入機會:關鍵工作流切入,但是要有自己的大模型和藝術風格等各工作流差異化–原工作流比較固定,并趕上1精細化的技術壁壘!可以先從垂類賽道和c端切入,積累數據和商業化。形成2完善的工具和3素材庫+4云協作5獨特藝術風格差異化!
國內無初創企業切入專業領域,持續關注。
美術設計生成
場景:游戲開發/建筑/工業設計美術生成,主要還是游戲領域。
市場規模測算:游戲全球3000億美元,中國增速較快;分為IP/版權方、游戲發行方和開發(50%),其中美術占了50%的市場–750億美元(20%軟件+80%人工),假設去掉50%的人工和增加100%的軟件費用,美術市場(主要是圖片+3d模型的設計)將有600億美元,全球增速6%,中國14%。
工作流:其中開發又分為
- 策劃:負責游戲的數值、系統、劇情、戰斗和關卡設計等。
- 程序:負責編寫使游戲運行的代碼。這可能包括引擎編程、AI編程、網絡編程等。
- 美術:負責游戲的視覺效果,包括角色設計、場景設計、UI設計等。
- 音效:負責游戲的音樂和聲音效果。
- QA(測試):負責在開發過程中找出和報告游戲中的錯誤和問題。
游戲核心在:故事講述、游戲性上!AI長期內沒有替換的能力!
競爭情況:目前龍頭大公司還不具備AI研發的能力,都用的其他家的AI公司功能進行嵌入!
切入機會:在角色美術設計,3D建模,關卡設計等工作流實現創作!但是3D建模是根據美術概念來的(圖片+文字),需要多模態的能力和大量設計數據,要求高。
挑戰企業:
國外:
- Midjounry,Stable-Diffusion,Pika,Runway;國外新游戲引擎Jabali
國內:
- 圖片:TIAMAT、 LiblibAI奇點星宇、nolibox計算美學、智象未來 HiDream.ai
- 圖片+視頻:右腦科技、生數科技、愛詩科技
- 3D生成:空間直覺Microfeel、Vast
營銷設計
即使在經濟不好的時候,企業也較少削減營銷預算,縮減品牌營銷相關投入會引發市場份額下降、銷售額滑坡、品牌重建的長期成本上升等問題,反而得不償失。
工作流:策略規劃、內容創作、內容發布、效果反饋和優化這四個環節
市場規模:BtoC平均營銷占收入15% /BtoB平均營銷占收入10%,其中50%用來內容創作,TAM可達千億美元,根據statia,全球內容營銷行業市場規模為720億美元;市場夠大。
針對的客戶:品牌企業或大型企業關注品牌效益和經濟效益(目前AI還無法到達此水準),中小企業受限于營銷預算,則更關注成本。
后續發展:要試圖切入CRM賽道!抓住出海趨勢(中國72萬家公司出海,每年新增4萬家)!
海外初創公司:Typeface
國內企業:銜遠科技、FancyTech、WorkMagic、奧創光年
工業建模工具
競爭情況:國外龍頭AutoCAD、SolidWork和達索;且需要數據和經驗積累!
總結:中國市場較小100億,有專業團隊深耕可以;目前Diffusion技術不達標(圖片集成效果不好和精細化不足)。
文字類
Devops-代碼生成
總結:Visual Studio一家獨大(還和copoilt-openai聯盟),新公司產品差異化(僅在ui/ux)不明顯,未看到顛覆其商業模式和技術。
切入IDE(Integrated Development Environment)不僅是開發者的超級入口,也有機會完整地收集到測試、環境配置和 Debug 等環節的復雜推理過程的重要數據信息,因此,是最有機會、最早能夠出現 Coding Agent 的場景。
工作流:環境搭建、需求、代碼編寫、測試、代碼scanning、代碼重構、debug、部署
Copilot 用戶已有 46% 的代碼由模型生成,能讓這些用戶節省 55% 的開發時間;Copilot 建議代碼接受率在 30%以上 ,并在用戶上手半年后能提高到 36% 左右。
市場規模:2022 年,全球 DevOps 總收入規模在 80-100 億美元左右,并正以每年 20-30% 的增速增長
競爭情況:因為流量和產品先發優勢,IDE 目前幾乎是被微軟的 Visual Studio(免費)和 Github Copolit 聯盟(18個月1億ARR)所壟斷還有Jetbrain 吃下了 IDE 市場 18% 份額(IDE 工具及商店抽成),Tabnine 、Codeium、Cursor 以及 CodeWhisperer 等 LLM-first IDE 團隊則試圖基于 LLM 提供更具差異化的用戶體驗挑戰,模型能力相當,短期內收入可以。
寫作類
市場長期PMF待驗證,目前看下來,大模型性能好,也可以做,界限模糊。
波形智能-已被oppo收購、寫作工具–深言科技。
音樂類
AI 生成音樂是一個發展了很長時間的研究領域,但之前生成的作品還停留在“人工智障”的階段,Transformer 架構為音樂生成體驗帶來了 10x 的提升,2023 年出現的一系列基于 Transformer 的模型,包括 Google 的 MusicLM、Meta 的 MusicGen 以及 Suno 的 Bark,讓 AI 生成的歌曲變成了可欣賞內容【61】。
技術變化
聲音領域在 2015 年左右由于 Seq2Seq 的成熟曾有過識別技術的突破,但在生成方向的成熟比圖像和文字更晚一些。其背后的原因主要是聲音領域的信息密度更低:一個文字,一句歌詞可以對應著很多種聲音的表達形式,且生成的聲音比文字本身的數據量要大很多。
直到去年,技術路線基本收斂到 Autoregressive Transformer 和 Diffusion model 并存的模型結構。Transformer 架構對音樂生成的質量提升幫助很大,因為音樂是一個有長距離結構(多次主歌+副歌,且有呼應)的內容形態。Diffusion model 的加入,能有效避免避免了自回歸模型容易產生的韻律/節奏不穩定、詞語重復/遺漏等問題。
2023 年 Google 團隊提出了 MusicLM 使用了 Autoregressive 結構,實現了從文本描述生成高保真音樂片段,并支持對音高、速度等的精細控制。同一年 Stability 團隊的 Stable Audio 工作中也開始有 Diffusion model 的加入,使音樂生成的效果更加穩定,Stable Audio V2 中使用了和 Sora 一樣結合 Transformer 和 Diffusion 的 DiT(Diffusion Transformer 結構)。
Suno AI 音樂生成對語義有著很好的理解能力,對不同風格的規律、長距離的結構都能比較好地捕捉,我們判斷 Suno 一定用了 Transformer 結構,帶來了能 scale up 的智能。同時,Suno 生成的穩定性也遠好于其他模型,Diffusion 模型架構應該在其中使用。音樂生成的模型結構會與 Sora 的 DiT 結構比較接近,由幾個部分組成:
這個模型結構看起來很簡單,和 LLM 和視頻生成有很多相似之處,這可以被 Suno 創始人在訪談中的一個分享驗證:Suno 團隊在訓練模型的時候,盡量不讓模型中融入關于音樂或音頻的先驗知識,比如融入聲素等元素,而是讓模型自主學習。這種方法起初優勢并不明顯,但隨著 scaling up 的推移優勢開始顯現。
談到 scale,根據其他 TTS 模型參數量和目前的定價預估, Suno AI 的音樂生成模型的預估參數最大不超過 5-10b。音樂生成模型在數十億參數量級就能做好很不錯的效果了,與參數量相比同樣重要的還有數據。
如果優秀人類的作品為 10 分,我們認為 Suno 可以到達 7 分普通歌手、“抖音網紅歌”的水平:擁有多風格的作曲能力,可以創作出吸引人的旋律和節奏,但在音質、創新度上達不到專業作曲家的要求。但是已經可以為專業音樂玩家–Pro C,提供創意idea。
音樂市場
音樂的應用廣泛,除了音樂專業制作,廣告、影視、游戲、動漫、企業宣傳都會用到音樂。音樂專業制作市場(the recording industry)的產業鏈主要分為以下環節:
- 上游 – 音樂創作與錄制:包括進行詞曲創作、編曲、錄音、混音等制作環節。參與的人有作曲家、編曲家、錄音工程師、音頻編輯師、混音師、母帶制作師等。
- 中游 – 音樂的出版運營、宣傳推廣:發行人會對音樂作品進行版權運營、數字分銷。在宣傳推廣環節,通常會制作音樂 MV,通過各類媒體進行音樂推廣。
- 下游 – C 端用戶消費音樂:主要通過流媒體平臺等渠道向聽眾傳播音樂,同時開辦演唱會、制作文創產品等,實現音樂 IP 的商業化。經紀公司也會對藝人進行宣傳,組織演出等。
AI 生成音樂的應用機會不僅在為上游為音樂的制作環節降本增效,而且有機會將多個音樂制作參與角色合一,讓每個創作者成為“全棧音樂人”,同時打通上游、下游,再造創作、消費一體化的 AI 音樂平臺,也是我們期待的 Suno 的未來形態。下文針對受到 AI 生成音樂影響的上游和下游市場展開分析。
音樂制作市場
音樂制作為音樂產業鏈的上游環節,涵蓋創作、編曲、錄音和混音等環節,需要使用的工具包括 DAW、虛擬樂器、錄音設備、音頻效果器、MIDI 鍵盤、混音設備等,目前部署一套基礎的設備需要約幾千美元,更早期需要的投資更多。制作周期取決于音樂類型和規模,從幾天~幾個月不等,成本從幾千~幾十萬美金不等。根據多家咨詢公司的估算,市場空間大致為 $5-10B 左右,主要業務包括銷售軟件許可證、插件、硬件設備以及提供相關服務。
AI 有望進一步降低成本、縮短制作周期,將多個音樂制作參與角色合一,讓每個創作者成為“全棧音樂人”。Suno 已經可以幫助用戶生成音軌等組件,加速音樂創作流程。但本身該市場空間并不大,且比較分散,引入 AI 可能會導致 ToB 音樂制作市場的進一步縮水。
根據 A16Z 的判斷,還有可能出現基于 AI 技術自動生成音樂的“生成性樂器”。硬件設備有可能與 AI 模型交互。例如,一個 DJ 控制器可能能夠根據現場的氛圍和節奏,自動生成鼓點或旋律,輔助 DJ 進行即興創作。
To C 消費市場趨勢
根據國際唱片業協會聯合會(IFPI)統計,2022 年全球音樂市場規模達到 262 億美元,增長 9%,其中流媒體收入占 67%,增長 10.3%。包括兩塊業務,一塊是廣告支持流媒體(Ad-supported streams),占 18.7%,通過展示廣告來為用戶提供免費的音樂流媒體服務,一塊是訂閱音頻流媒體(Subscription audio streams),如 Spotify Premium、Apple Music 訂閱,占 48.3%,約 130 億美元。全球有 5.89 億流媒體付費訂閱用戶,占全球總人口 7.5%。根據市場格局可以看出,流媒體音樂平臺是音樂市場中最大的組成部分。
近十年音樂市場增長的另一個重要趨勢來自于短視頻。國際唱片業協會(IFPI)調研發現用戶聽音樂的時間顯著增長,每周聆聽音樂的時間從 2021 年的 18.4 小時增加到 20.1 小時,個性化需求也日益明顯。國際唱片業協會(IFPI)也統計了用戶聽音樂的方式,發現人們在聽音樂的時候,經常會和視覺相結合,很多情況下帶有社交屬性。
盡管分發渠道和用戶消費形式出現了變化,但生產制作側的壟斷趨勢還是比較明顯:在 2022 年財報中,向索尼、環球等 record label companies 支付的版權費用占了 Spotify 收入的七成左右,因此流媒體平臺當前還很難直接盈利。而當 AI 音樂生成降低了生產的制作與成本,是否能帶來生產關系的變化呢?我們能期待 AI 有可能讓版權優勢不只被大公司壟斷,而來自更多長尾、個性化的創作者。大眾創作的時代。
市場競爭
Suno 最大的競爭來自于兩個方面,一是 OpenAI 發布音樂生成領域的“Sora”,直接在產品效果上的碾壓;一是版權公司和 Youtube、Spotify 等音樂平臺公司,利用其數據和流量優勢推出競爭產品,但他們面臨更高的數據版權風險。同時,Suno 還面臨著其他創業公司及開源體驗的競爭。
OpenAI 是否會重現音樂生成的 “Sora”?
音樂生成模型的效果很大程度上是由數據質量決定的,這一方面取決于團隊是否能擁有充足的數據源,懂得處理數據的方式,另一方面是否有充足的 GPU 進行訓練。OpenAI “大力出奇跡” 的 Sora 一推出,對其他視頻生成公司的打擊有目共睹。OpenAI 目前已經注冊了商標 Voice Engine™,包括”基于自然語言提示、文本、語音、視覺提示、圖像和/或視頻創建和生成語音和音頻輸出”,很可能包括了音樂生成產品。
如果 OpenAI 在音樂生成領域重現“Sora”將是 Suno 很大的競爭威脅。但我覺得細分市場的壁壘在于對場景的理解,提供豐富的工具,而且個性化的曲風的數據也是競爭的壁壘,不只是技術。
來自版權公司和音樂音樂平臺的競爭
現有音樂公司對 AI 進行了積極的嘗試,也采取了很多防御性的策略,包括 Spotify 剛剛推出的 Gen-Playlist,以及 QQ 音樂推出了 Suno 專區,但目前并沒有出現類似 Suno 的出圈產品。一方面是 Suno 的產品具有一定技術壁壘,大公司的行動速度遠慢于創業公司;另一方面大公司受限更多,會有更多版權、倫理上的限制。以及,我們所認為的平臺、版權公司擁有的數據積累優勢可能并不成立。生成高質量的 AI 音樂需要歌曲原始的分軌數據,但這是音樂平臺也不擁有的,而原始分軌數據分散在各個版權公司和明星演藝公司,獲得大量的數據很困難,購買成本也非常高。
音樂市場本身頭部效應明顯,有成熟的版權公司和流媒體公司;且音樂是一個反復收聽次數最多的內容形態,因為這需要大眾的情感共鳴,造成用戶消費心智對新歌的需求頻次低,對老歌的反復收聽次數高。長尾、個性化的 AI 創作市場比較難以驗證。
長期來看,我們認為 Spotify、Youtube 等現有大公司將對 Suno 產生更大的挑戰。如用戶在 Youtube 可以實現多模態音樂創作→發布的一體化,這其實與我們對視頻生成格局的判斷類似。Suno 的取勝關鍵是持續保持最好的生成效果、以及找到自己獨特的產品形態。
總而言之,筆者非??春靡魳飞墒袌觯梢韵葟膖o Pro C和to B層賺取創意費用,豐富編輯工具的同時,大步邁向to C市場,顛覆流媒體和ip擁有者的生態,將創作的能力、權力和收益給到熱愛音樂的每一人。時間的尺度上一定是長期的,團隊必須對此保持極大的熱情。
SUNO
Suno 團隊由音樂家和 AI 專家組成,目前僅有約 12 名員工。Suno 官網上寫道公司文化以音樂為核心,鼓勵聲音的實驗和創新,在辦公環境中音樂無處不在。聯合創始人包括 Mikey Shulman、Georg Kucsko、Martin Camacho 和 Keenan Freyberg,四人此前共同在被收購的金融數據 AI 科技創業公司 Kensho 工作。其中 Shulman 和 Camacho 是音樂愛好者,他們在 Kensho 工作時常常一起即興演奏。
從經歷來看,創始人有成功的創業退出經歷,并且在物理、科學領域有極強的造詣。創始成員還有在 Tiktok、Meta 等互聯網公司的從業經驗。AI、物理領域的造詣以及對音樂的熱愛,使得團隊對開發 AI 音樂生成產品具有很強的適配性。
團隊以自己訓練的開源語音生成模型 Bark 為基礎,開發了SOTA 的 AI 音樂生成產品。Suno 團隊認為目前音樂聽眾數量遠遠超過音樂制作者是“失衡”的,期待用 Suno 讓每個人都能將自己的想法轉化成音樂,打破普通人與想象中音樂之間的障礙。
類似 Midjourney 讓人人都可作畫,Suno AI 作為第一款普通人可用、帶有人聲、歌曲生成效果接近商業化水平的產品,為全球 5.89 億音樂流媒體付費訂閱用戶提供了創作工具,開辟了增量市場。
音樂制作效果被用戶稱為 “the next level of music generation”,在硅谷核心圈得到了廣泛的流傳,實現了用戶的持續增長,根據 Similarweb 的數據,目前已經達到了約 220 萬 MAU。
Suno 團隊從開源 TTS 模型 Bark 開始,轉型做音樂模型,從 Discord 服務器到自己的 UX 交互流媒體播放器,都行動非??煸诎肽陜劝l布了成熟的產品。
Suno 網頁版本的產品形態很簡單,遠沒有到達 Spotify 等產品的復雜度。主要由 Explore、Create、Library 組成。Microsoft copilot 也集成了 suno,用戶可以通過 chat 的方式來進行音樂創作。
Explore 界面,會展示歌曲創作的 prompt 指引,以及用戶創作的最火、或最新的 AI 歌曲。暫不清楚推薦邏輯,但不同用戶登錄后看到的歌曲是一樣的,可見還沒有針對用戶偏好進行個性化推薦。
但是目前還無法做到對于生成音樂的精細化控制。期待“未來幾年能夠利用技術從各個方面對音樂的生成進行控制”。
通過追蹤 Discord 社區,我們發現 Suno 用戶大致分為:
- 音樂愛好者,他們本不會寫歌,Suno 帶給他們創作歌曲的能力。這類用戶希望通過 AI 輔助創作出有趣的音樂作品,用于個人娛樂或社交媒體分享。他們的需求常常類似于,為自己的貓寫一首 Taylor Swift 風格的歌。
- 專業音樂制作人,他們將 Suno 作為創作的靈感來源,或生成音樂素材,結合自己的專業知識進行后期制作。Suno 幫助專業音樂人更高效的輸出作品,他們也開始將 Suno 應用在商業場景。
- AI 創作工具探索者,對音樂生成的技術感興趣,嘗試使用 Suno 進行實驗性創作。
在與用戶的交流過程中,我們發現部分用戶對于 Suno 非常沉迷,Discord 社區中也保持了持續的高活躍。根據 Smiliarweb,Suno AI 的 MAU 持續增長,2024 年 2 月 MAU 已經達到約 220 萬,Suno 的國家分布并不集中,其中美國、波蘭的用戶最多,各占約 10%。以男性用戶居多,占據了約 68%,在年齡以 18-34 歲的年輕人為主。
具體使用場景較為廣泛,并不僅僅局限在專業音樂作曲,可以做如下劃分
商業模式上,Suno 采取訂閱付費的模式,Suno 目前更像一個創作工具,參考工具類產品的訂閱比例,簡單假設目前 Suno 約 220 萬的 MAU 有 10% 是付費用戶,其中 8% 為 Pro Plan、2% 為 Premier Plan,Suno 的月收入大致估算為 250 萬美金。創作生態的豐富,Suno 平臺也有機會出現廣告和內容訂閱價值,為 UGC 提供收入渠道;或為音樂創作提供增值服務,比如提供一站式的音樂創作和分發解決方案。
國內公司:DeepMusic靈動音(清華音樂制作人),致力于通過AI詞曲編錄混技術,全方位降低音樂創作制作門檻并提升效率,為音樂行業提供新的產品體驗和解決方案;音樂生成加輕量編輯工作站。
DeepMusic是一家基于人工智能技術的音樂創作服務商,該公司主要運用神經網絡學習現存的音樂作品,并從中尋找規律,從而進行音樂創作,其創作的音樂作品可用于短視頻配樂等方面。
但商業模式只是停留在Pro C層面。
AI4S
AI for Science(AI4S),是讓人工智能利用自身強大的數據歸納和分析能力去學習科學規律和原理,得出模型,生成式的來解決實際的科研問題,輔助科學家在不同的假設條件下進行大量重復的驗證和試錯,加速科研探索的進程。
主要在生物結構預測;其余在化學、材料上,整體市場規模由于過于細分不會太大,也比較難判斷項目,需要對其研發設計的工作流有相當程度的了解。
關注生成式的大模型在工業領域的擴展:例如工藝的生成等,不過基于設計產線等頻率低,市場不會太大。顛覆掉原來研發工具例如CAD、Solidwork等,還是會在設計數據、工作流理解上以及設計工具生態上有不小的困難。
(三)生產控制類
MES、SCM
業務對應工業生產控制類服務軟件-資產管理:ERPMRP、供應鏈管理:SRM、生產管理:MESAPS、物流管理:WMS、研發管理:PLM
圖:工業生產場景工作流及對應軟件
目前我國工業軟件整體面臨“管理軟件強、工程軟件弱,低端軟件多、高端軟件少”問題,研發設計類國產化替代空間較大。
MES:計劃下達+生產調度。MES(制造執行系統)是從生產計劃下達到生產調度、組織、執行、控制,直至生產出合格產品全過程的信息化管理系統。MES 主要集中在制造運營層,位于生產控制層和運營管理層之間,核心功能包括資源分配、車間排產、工序調度、過程管理等,擴展功能包括能源管理、質量管理、倉儲管理等。
全球 MES 市場規?;蛟?1,420 億元。據華經產業研究院,2022 年全球 MES 市場規模或達 1,420 億元,同比增長 15.2%。2017~2022 年 CAGR 達 15.5%,2024 年市場規模或達1898.6 億元。我國 MES 市場規模或達 57.2 億元。據華經情報網,2022 年我國 MES 市場規模或達 57.2億元,2020~2022 年 CAGR 達 13%。
MES 市場高度分散,參與廠商眾多。MES 軟件市場中的 SaaS 子市場,以及航空航天船舶、整車及汽車零部件、裝備制造等六個細分行業 MES 解決方案市場空間及廠商份額都在市場中占有較大份額。各細分行業呈現出不同的特點,但與 MES 軟件總市場相比,細分行業解決方案市場碎片化更加明顯,僅有石化化工、鋼鐵及有色金屬等行業保持較高的服務商集中度。
MES 國產替代空間較大,Top8 中本土廠商占到五席。2021 年我國 MES 市占率 Top8 分別為西門子、SAP、寶信軟件、鼎捷軟件、羅克韋爾、黑湖制造、新核云及中控技術,其中,海外大廠居于前兩位,仍處于相對主導地位,本土廠商占到五席,加速國產替代勢在必行。與國際大廠相比,我國本土廠商 MES 覆蓋行業相對較少,未來或需在多行業多點發力推進自主可控進程。
競爭對手主要為傳統MES廠商、涉及工業的大模型公司、初創AI工業軟件公司
- 傳統廠商為:西門子、SAP、寶信軟件、鼎捷軟件、羅克韋爾、黑湖制造、新核云及中控技術等
- 涉及工業的大模型公司:百度、華為等
- 初創企業為:劍及智能和Evergine等
持續關注由LLM帶來柔性生產的實現(不一定要軟件、生產線、機器人都行),由規模經濟生產轉向范圍經濟范式(一條產線生產多種物品),由此提供低成本提供多元化定制化的產品,價值潛力大。
To C
日常Agent
對標大廠的Siri、小愛同學等等,通過agent來完成對軟硬件的操作。GUI-圖像用戶交互轉向LUI-語言用戶交互,下方ai硬件會詳細講述,這里是軟件。
硬件、互聯網大廠和大模型公司的競爭流量的高地!不再詳細講述。
教育
多輪對話的LLM,必然也天然的適合教育場景。
目前教育市場分為:
1)基于錄播課的異步學習公開資源和工具(如 Youtube 視頻、google 翻譯、慕課等免費錄播課)
2)工具類服務,將學習中的某類需求或學習過程抽象為標準化產品,例如Chegg、Duolingo 等
3)真人老師的實時授課,包括線上、線下的大班課和1對1私教。(效果最好,國內知道200-300/小時,但AI是一個月)
AI的領域從錯題解釋擴展到了對話練習的role扮演:
工作流:特別是在語言學習上,依賴和人對話的訓練,聽說讀寫,都可以實現ai對人的替代,實現多場景人群的教育(k-12、海外工作、移民、旅游、興趣等)。
市場規模:國內需要學習語言的人太多,TAM難以估算–2億人,以Duolingo、Speak的700一年標準計算,就是1400億元的大市場
壁壘:課程設計、對話等教育數據、微調技術
龍頭:Duolingo和Speak
國外的語言教育的AI應用非?;?,為出國旅游和移民群體提供多輪對話場景,但是這種教學方式,對于國內水土不服,國內是應試教育為主。
國內新AI教育場景會更適合學齡前兒童的教育場景(新的交互寓教于樂的方法-具體看ai硬件),短期內小學及以上場景教育國內格局不會變動,用AI也只是,增強體驗和溢價。
游戲
目前游戲主流是聊天陪伴類(具有情感的人物切入,完成一定的情緒價值提供任務)
市場:模型質量高且完全虛擬的場景,并不追求準確!但是是為行業切入的入口,尋求正確的解決方案。
國外:Character.ai,Replika、ChAI
國內:LynkSoulAI心影隨形,Glow,星野(國內外基本上都是搞擦邊起家)
Character.AI
產品:Character.AI 搭建了用戶創建 AI 角色并與之聊天的平臺及社區。AI 角色有官方創建、社區成員 UGC 兩大類。用戶自行訓練的、深度個性化的 AI 聊天機器人能夠與人們建立真正的關系,擁有更大的想象空間和更多的使用場景。
客戶:粘性強,所有用戶的平均活躍時長為 24 分鐘/天,18歲至24歲的用戶,他們貢獻了約60%的網站流量,9 月的總 DAU 約為 350 萬,MAU 約為 1400 萬。
通過幻想滿足客戶的情感訴求,45% 的用戶主要和戀愛、浪漫類角色交流,22% 和游戲角色交流,17% 的用戶和安慰、心理療愈類角色交流。
盈利模式:每月收費9.99美元–可以與多個AI互動,玩場景游戲。
技術:底層模型以包含解碼器的神經語言模型(Neural language models)為基礎,類似 GPT 和 LaMDA,對話效果質量和推理成本好于GPT3。技術不足:記憶和幻覺,但不需要智力水平極高的模型來做情感,角色是否能表達連貫的情感可能也不像人們想象的那么重要。
團隊:創始人 Noam Shazeer 是前 Google 首席軟件工程師,Transformer 作者之一,并開創了大規模預訓練(Large-scale pretraining);聯合創始人 Daniel de Freitas 領導了 Meena 和 LaMDA 的開發。(自研能力)
戰略方向總結:正與谷歌討論融資,準備訓練其大模型,深度綁定的合作伙伴,承擔模型訓練成本;防守壁壘大,增長速度快,需要正確選擇攻擊方向。
優勢–1 情感交互,獲得極高粘性流量且轉換成本大,從而可以切入相關領域;2 全棧能力壁壘-且低訓練和推理成本;3 高質量數據-模型的飛輪效應。
未來突破點:
1 需要考慮聊天機器人無需用戶點擊將挑戰優質內容-點擊-廣告 內容平臺商業模式飛輪,如何加入廣告!
2 技術上導致的使用體驗有限:有限的上下文容量,幻覺,在邏輯、規劃、使用仍然有不準確性。最主要的是與人類的記憶不對齊,聊天容易丟失上下文,沒有對的記憶,如何培養感情?
3 站住虛擬聊天市場,提供更沉浸式虛擬體驗-UI、圖片、語音等,把握互聯網。
成本:自研模型(模型更加精致),每個 Query 的成本是 ChatGPT 的 1/3,訓練僅花費60萬美元。同時通過積累用戶數據形成飛輪,能夠不斷提升用戶的個性化體驗。
整體競爭非常激烈,國內外要有20多家公司在做,如何針對需求,提高粘性是主要的指標。
虛擬聊天機器人代表公司包括 Replika、ChAI;國內類似創業企業有 Glow、聆心智能、彩云小夢;垂直領域也存在業務交叉,如心理療愈機器人 Woebot;游戲領域的 NPC 在線交互平臺 AI Dungeon,AI 角色驅動的元宇宙平臺 Inworld.AI。
以及最近在測試階段的自然選擇AI-針對戀愛場景設計的“超級對齊”。
Character.AI在對話質量上完勝一籌,推理成本也更低,其他公司均采用微調的大模型。
模型本身技術壁壘跨越還需要時間。
檢索類
使用大模型進行網頁搜索。國外:Pelexity、大模型和大廠等
短期收現金可以,這個地方是搜索引擎和大模型公司會做的事情。重塑搜索引擎的工作流,關鍵是通過更好的生成來提升用戶的搜索體驗,并引入廣告等創新商業模式。
九、應用層——硬件AI應用硬件
綜述
ChatGPT 推出以后,AI 硬件就成為了熱門賽道【62】。
AI Pin、Rabbit R1、以及 Meta 的雷朋眼鏡,還有豆包推出的智能耳機,有成功的,也有不少失敗的。
在大模型熱潮持續一年之后,或許可以看一下,AI 硬件未來的機會到底在哪里。
硬件雖是中國的主場,但仍然軟件才是核心。
回顧移動互聯網時代,4G/5G的成熟在底層技術架構上為短視頻等高信息密度應用的新形態打下了基礎,而iPhone開創的觸控交互體驗真正為應用的繁榮打開了大門。
蘋果也因為在交互模式上的創新獲得了移動互聯網時代最大的紅利,時至今日依然可以向軟件生態征收“蘋果稅”。強如Meta,幾乎盤踞了海外C端流量和廣告收入,也因為缺乏硬件設備而如鯁在喉。Zuckerberg近年來在Reality Labs上的激進投入,狂燒500億美金就是為了占據下一個時代的硬件入口/計算中心。
在當前格局下, Google ,Meta,蘋果和字節跳動等移動互聯網巨頭從硬件到軟件牢牢把持了用戶生態,并基于計算中心/物理空間、流量/網絡效應、時間/用戶習慣這幾個核心要素形成了深厚的壁壘。如果這個局面不被打破,AI大模型技術將停留在更先進的生產工具(”enabler”)定位,從結果上豐富了移動互聯網生態的內容供給和用戶體驗,“為他人做嫁衣”。科技巨頭依然是最大受益者,過去5年強者恒強的局面將會延續。
因此針對AI大模型重新設計的硬件和交互將是GenAI時代挑戰者必須攻克的堡壘。這也是為什么Sam Altman很早就聯系傳奇設計師Jony Ive開始在硬件方向進行探索。
軟件帶來的變量主要體現在以下兩個方面
AI硬件的三層架構
在原生多模態AI大模型出現后,結合硬件會出現新的信息交互和處理模式,大體上可以分為三個層次:
- 多模態信號輸入 -> 傳感器
- 模型處理和計算 -> 計算中心
- 交互方式 -> UIUX設計
在這三層架構中,計算中心(如手機)將為AI大模型提供端側和云端運行能力,而AI大模型技術的能力進步驅動整個閉環用戶體驗的提升,具體表現為讓硬件在原有功能的基礎上拓展能力邊界,在第三層輸出更好的效果。反過來中間層需要硬件作為傳感器獲得更多context來更好地輸出模型運算結果。
LUI是否能成為下一代交互方式
「The UI of AGI」是AI硬件從業者需要思考的圣杯問題。
“套殼”其實就是一種最直接的嘗試,Arc瀏覽器,Perplexity,Monica.im都在各個方向積極探索。但LUI(Language User Interface)或者基于語音的交互方式(Voice-first UI)是否能取代觸控時代主流的GUI(Graphical User Interface)是在行業內被討論最多的問題。
我認為GPT4o為代表的低延遲、多情感、高智能原生多模態模型雖然為LUI的落地提供了技術支持,并在某些特定場景有較好的體驗,但現在看起來LUI并不能獨立成為最主流的交互方式。我認為思考這個問題的關鍵因素是I/O密度。I即input,指在人機交互中用戶向系統輸入信息。O即output,指系統向用戶反饋信息。
在I端,LUI能很好地解決當下信息輸入門檻過高的問題,陣列麥克風技術的發展配合AI大模型的多語言識別和總結能力,讓用戶在I端更加輕松自如(flowvoice.ai等公司已經有產品落地)。
但在O端,LUI的信息密度有很大的局限,特別是與GUI相比。Vela在「Voice-first,閉關做一款語音產品的思考」中做了詳細的解析。
聲音在交互上的局限性主要表現在:
1. 輸出線性
很難實現多線程多任務操作
用戶很難通過前進倒退精準定位碎片化信息點
2. 記不住
LUI是線性的而思維是樹/圖結構,語音無法單獨呈現人腦所需要的信息組織形式
結果需要簡單明確,最好用最小來回對話解決
在音頻自身限制和AI大模型現階段長程推理能力缺失的情況下,LUI目前只適合做目標明確的單點任務,且輸出結果信息密度不宜過高。從數據上看,天貓精靈使用最多的場景是詢問天氣和設定鬧鐘。
因此,LUI配合GUI結合使用我認為是能將I/O密度最大化的交互體驗。
與大廠的競爭
手機短期內依然是生態位核心。
手機在AI硬件三層架構可以在一定程度上覆蓋所有三個維度,并占據計算中心的核心價值位?,F階段對其他硬件設備的主要機會在于成為手機的傳感器,收集手機目前尚不能覆蓋的細分場景信息 – 主要是息屏、用戶雙手被占用無法拿起手機、無法快速開啟手機內置傳感器(為描述方便,下文統稱“手機空白場景”)- 并嘗試探索新的交互體驗。
對AI硬件團隊來說,市場足夠大的品類依次是耳機、智能手表、眼鏡和配飾類設備。
整個智能穿戴設備生態都脫離不了一個主題:Survival is the name of the game
手機廠商因為占住了核心生態位,穿戴設備的新機會都在其射程之內,我們討論的所有穿戴設備品類都逃脫不了激烈的競爭。對新玩家來說有兩種現實的選擇:
1) 在市場足夠大的賽道,爭取成為小米華為蘋果身后的第三/四名;
2)在大廠看不上,小公司搞不定的賽道做差異化競爭。
第一種路線考驗的是團隊的執行力,需要面對的競爭包括:
1 硬件玩家
第一梯隊:華為,小米,蘋果;優勢無需贅述,且已經有手機、耳機、眼鏡等成熟產品線,用戶基數大
第二梯隊:Oppo/Vivo,大疆,安克等;有成熟的供應鏈資源和分銷渠道,成熟業務可以產生穩定現金流
第三梯隊:科大訊飛、韶音、雷鳥、Rokid等;在垂類中有領先市場份額
2 互聯網公司:字節跳動、阿里、騰訊等;擁有大量承接UIUX的場景
競爭確實激烈,但也并不是全無機會。AI硬件時代的一個重要變量是對團隊的復合型要求:即軟硬件結合的能力。正如文初提到的,這一輪AI硬件本質上是軟件驅動的,與硬件龍頭競爭,新團隊需要具備更強的軟件能力,努力將產品向AI硬件三層架構的后兩層做價值延伸。而互聯網公司,強如字節跳動和meta都將一起競爭。無論怎樣,資本價值都比較大。
當然,也可以選擇第二條路線。這就要求團隊對消費者需求有深度的洞察和提前的預判。一個可以參考的思路是將軟件功能硬件化。核心是找到一個軟件端有需求的場景,并通過極簡的設計,將多步操作壓縮到一步。Plaud就是看到Live Transcribe這個app巨大的用戶基礎,將錄音這個本來可以在app端完成的場景硬件化。將原本需要掏出手機,解鎖,找到app,打開app,開啟錄音的一系列操作融合到簡單的一鍵到位。
目前主流的AI硬件有:智能眼鏡、智能陪伴和錄音
智能眼鏡
Rayban Meta
近期Rayban Meta意外大賣,增強了Zuckerberg對智能眼鏡這個形態的信心。小扎對此如此篤定不無道理,因為眼鏡作為傳感器定位的智能穿戴設備確實有得天獨厚的優勢。
一個具有對話功能,識別物體,錄像的眼鏡。通過“hey,meta喚醒”。
信息密度最大:眼睛是人類的窗戶,因為視覺是人類獲取信息密度最大的渠道;同理眼鏡同樣可以便捷地獲取視覺和音頻信息;目前手機做不到。
第一視角POV:“see what you see” + “hear what your hear”,POV視角不但可以提供了模型最需要的用戶視角的context;解放雙手的設定也適配手機空白場景。
在現有形態上創新空間相對最大:相比耳機和智能手表(疊加AI功能對本身形態改變不大),帶攝像頭的智能眼鏡相對是新的形態,為新玩家提供空間。
此外,攝像眼鏡在傳播上也有天生的優勢,從目前用戶的行為來看,攝影攝像是主要的使用場景。Rayban Meta在內容創作者和大V中非常受歡迎,他們創作的POV視角的內容在社交媒體傳播容易形成潮流效應,從而形成自傳播,攝像頭。
在Rayban Meta取得成功后,海外大廠已經形成共識:Google決定與硬件合作伙伴三星探索類似形態,落地在Google I/O上驚鴻一瞥的Project Astra,蘋果也開始重新審視自己的Vision產品線。
智能眼鏡形態的主要劃分和優劣勢
智能眼鏡根據功能組合和視場角(“FOV”)大致可以分為以下幾類:
1. 不帶顯示的智能眼鏡(已經能將重量控制在50g以內,符合輕量化要求)
音頻眼鏡:因為前文分析LUI的局限性,在用戶端提供的功能非常有限
攝像+音頻眼鏡:Rayban Meta取得階段性成功,價位$300
2. 帶顯示的智能眼鏡(能控制在100g以內,但在輕量化上還有提升空間)
40-50度FOV(雷鳥X2):輕顯示,價位$500-1,000
50-70度FOV(Orion):現實增強,有原型機,無法量產
100度FOV:接近VR視覺體驗,但采用OST方案;在目前技術邊界之外
不帶顯示的智能眼鏡在輕量化和成本控制上已經相對成熟。但目前只覆蓋AI硬件三層架構的第一層,并通過LUI提供有限的交互。純音頻眼鏡收集信號密度有限,同時受制于系統權限,產品功能單薄,且與TWS耳機重合度高。另外電子消費品追求標準化的模式,并不能滿足消費者對眼鏡個性化多SKU的需求。從華為和小米的實際銷量上看,只搭載音頻帶來的功能增強并沒有提供足夠強的說服力。
而帶有攝像頭的智能眼鏡,在保留音頻功能的同時,通過與手機配合使用,能解鎖更多延伸場景,提供較好的基礎體驗。
在帶顯示方案的眼鏡產品中,現有的成熟量產方案只能提供40-50度FOV的輕顯示,定位雞肋。一方面需要搭載光機帶來額外的重量和成本,另一方面視場角有限,實際上只起到了通知中心(push center)和widget看板的功能。運用新一代技術的Even Realities G1等產品,雖然在輕量化上更進一步,但這類產品的落地場景目前集中于:實時翻譯、導航、提詞器等場景。這些場景中確實有不錯的體驗,但可以試想一下普通人使用上述三個場景的頻次。
AI功能目前也僅限基于識圖的任務延伸(類似Apple 16展示的功能)。除此之外,不少人幻想的使用場景,在OST方案中都在目前的技術邊界之外。Orion也只能勉強提供幾個雞肋的場景。在某種程度上智能眼鏡除攝影攝像和音頻之外的功能都可以被智能手表覆蓋。
選擇比努力重要。對試錯成本更高的硬件創業公司來說更是如此,雖然上海顯耀等Micro LED公司近年取得一些技術突破,但顯示方案受制于FOV,即使落地也無法獨立支撐太多的應用場景,現在看來并不是最優的技術路線。
而Rayban Meta則為智能眼鏡指明了方向,短期內取代不了手機,但眼鏡保有量大,若出現類似汽車電動化的眼鏡智能化趨勢,市場體量也相當可觀。但目前的主要缺陷是因為輕量化無法搭載高容量電池的情況下,如何控制芯片功耗從而實現更長續航。
期待更多爆款的功能,提高Pro C的粘性。
智能陪伴
AI 玩具
玩具是搭載LUI的理想硬件載體。一方面,小朋友需要的信息密度和精度要求相對不高,且語音的流式交互也可以被硬件一部分承載。另一方面,相比于純軟件的形態,通過硬件具象化也更方便用戶代入情感寄托,提供更高的情緒價值。這個品類也符合“熟悉的陌生感”邏輯,用戶教育門檻低,基本上手即可使用。
需要注意的是AI教育的使用者和購買決策者分離,團隊需要在軟件后臺針對家長的訴求(主要是安全控制和成長記錄)有相對應的設計。
2024年OpenAI引入了Coursera前高管并重點發展AI教育,國內的學而思、小猿學練都陸續推出了AI在教育領域的產品,主要是面向課內應試教育場景。不同于AI玩具,學伴切入的是更廣義、更剛需的教育成長,關鍵還是得對孩子成長和教育文化有深度理解的,做出和孩子成長高粘性的產品。
該行業出色的公司眾多,我們以靈宇宙為例:
憑借卓越的軟件和算法平臺能力,以及對大模型計算的深刻理解,靈宇宙打造了一系列AI-Agent 終端產品,通過學伴進入家庭,未來在深刻理解家庭場景和空間數據的基礎上,將拓展至4D空間交互的OS層領域,首款產品即將在2025年CES大會產品面向全球發布。
創始人顧嘉唯,前百度人工智能研究院IDL人機交互負責人、百度少帥、微軟研究院HCI科學家,MIT TR35(2016年唯一入選企業家),曾是物靈科技的創始人兼CEO (兒童繪本閱讀機器人Luka盧卡全球銷量近千萬臺)。聯合創始人徐持衡是商湯科技 001號聯合創始人兼 CTO。
產品經驗豐富:團隊深耕硬件賽道超十年,歷史上經手數十款AI硬件產品,包括曾登上時代雜志封面的家用機器人 Jibo、百度小度機器人、百度無人車、隨身硬件百度BaiduEye、度秘等,無論在大廠還是創業階段產品力都已驗證,產品定義經驗豐富。核心團隊均為從0到1廝殺的勝利者,做過的互聯網及AI產品累計覆蓋9億用戶。團隊對兒童教育場景的深度理解,憑借產品數百萬量級銷量的成功經驗,在產品邏輯上具有巨大的優勢。
技術實力雄厚:來自微軟、谷歌、百度、商湯以及國際知名學者的核心技術團隊,持續在交互智能智能領域深耕,將通過自有產品的數據閉環,做4D空間智能OS。獲得來自商湯等八家戰略或市場化機構的投資、以及國家級的上海浦江實驗室和鵬城實驗室的算力及底層基礎模型技術支持,在軟硬件技術方面均突出。
錄音
PLAUD NOTE是一款由GPT驅動的AI智能錄音設備,提供錄音、語音轉文字和內容總結的一站式解決方案,憑借其精準的PMF和技術優勢,不到1年時間已在全球范圍內積累了幾十萬的用戶數量,在全球所有AI硬件中名列前茅,為中國出海AI硬件第一。未來,錄音這個場景,科大訊飛也會去做。
先看看Plaud長啥樣:
卡片式,差不多身份證大小,挺?。?.29cm),可以磁吸在手機機身背后。
吸在手機上后,最重要的功能就是錄音。
官方資料顯示,Plaud電池容量為400mAh,滿電Plaud可以連續錄音30個小時,可錄制和存儲約480個小時的音頻資料。
Plaud身上有3個麥克風,其中1個是震動傳導傳感器(VCS),另外2個則是用來采集外部環境音的空氣傳導傳感器。
震動傳導傳感器支持Plaud的通話錄音模式,利用固體傳導振動,進行錄音。
根本不需要系統內安裝新App,或者獲取授權。
非常外掛式地解決了“iPhone手機通話不能錄音”的情況。但是現在可以了,但會通知對方,現在正在錄音;但是微信等還是不可以。是一個非常好的統一錄音硬件。
加上AI的轉錄和云端,直接成了爆品。但未來會面臨大廠例如科大訊飛的競爭。
具身智能
核心:只有軟件的性能完善,才會帶來本體的放量和標準,才會帶來上游電機、材料等標準。
本體
對于硬件廠商的投資邏輯主要為:
1 基本的收入支撐:之前有四足等相關機器人的業務量
2 人形機器人的成本控制:自研電機、結構設計等等
3 人形機器人可實現的運動效果:折疊、翻滾、走路等
4 軟件:開發者友好的開發生態;成熟的電機以及運控集成算法
該行業出色的公司眾多,以云深處為例:
2024年11月,云深處推出的“山貓”四足機器人,收獲了國內外不少關注和認可,不僅在B站、視頻號、Youtube等平臺全網刷爆、新華每日電訊官方賬號數萬人點贊評論、Figure AI創始人也在X平臺轉發并點贊了這條視頻。
在驚艷的產品能力背后,我們了解到云深處有著深厚的軟硬件技術儲備:
硬件方面:在四足領域目前已推出絕影X30、Lite3等平臺、在輪足領域已推出“山貓”機器人平臺、在人形機器人領域今年下半年已推出DR01平臺、在零部件方面已推出J系列一體化關節產品,構筑了豐富、高性能的產品矩陣。
軟件方面:云深處創始團隊在人形機器人運動控制、強化學習RL等技術上是國內最早一批研究者,2019年起便與國外學者合作開展RL相關研究,2020年研究成果已登上機器人頂刊《Science Robotics》的封面,長期的研發積累是云深處能夠在四足、人形領域不斷突破產品力極限的關鍵。
大腦
目前物理大模型的屬性主要分為:
LLM/VLM模型驅動和擴散模型為主要驅動的模型,兩者可以統一
原生 VS 組裝式開源微調
分層化端到端 VS 整體端到端
除此之外,學習范式、數據和訓練環境也是次要需考慮的方向重點。
(3)學習范式
模仿學習+強化學習 VS 監督/無監督學習+強化學習
(4)數據
就像在之前具身部分解釋的一樣,快速收斂模型和算法是主要目前的競爭,如何Scale out可以在各個模型選擇上看出一二,無論怎樣就像GPT一樣,在大規模算力和數據輸入前,模型需要幾個基本特質:
相信同時具有大模型訓練和商業化能力的團隊。
1 原生模型,自研設計并訓練,相比于調用別人LLM或者VLM模型微調,可以底層優化算法,進行改動。
2 最大化容納數據的種類,來彌補機器人數據的不足。
3 極度精簡的模型結構,減少數據壓縮的損失。
4 低成本的學習范式:無監督學習最優,模仿和強化都需要大量數據和仿真(小腦路徑不在此范圍)。
最近優秀的大腦公司眾多,這里我們以智澄AI為例:
顛覆式AI原生機器人技術:完全自研大小腦融合模型,區別于任何一家大腦公司的架構;空間感知,物理世界理解推理和執行all in端到端具身智能大模型的神經網絡:魯棒性高,泛化性強,GPT時刻前夕-展現出的強大的可Scale out和Zero-shot能力。
領先的智能工程化能力:區別于前沿實驗室的組裝式開源大模型,智澄AI在前沿技術融合應用、異構數據搭建、空間感知、簡潔模型架構、安全可靠性等方面擁有多項獨到模塊創新,能夠更低成本、更高效率實現Best Practice學習范式的收斂。
硬軟件快速迭代能力:2024年6-8月相繼完成產品原型TR1、TR2,人形本體將在2025年初下線,已有數家場景客戶合作方,伴隨技術研發產品逐步落地。
多位國際AI大廠資深科學家及高管領銜:平均擁有20年AI經驗積累,CEO曾任Meta首席工程負責人,在Meta對于感知世界和物理世界模型有最新的認識;聯創包括Meta首席AI研究科學家和微軟大中華區CTO,Meta、亞馬遜、螞蟻、華為資深AI專家及海外頂級高校機器人、AI大模型背景人才梯隊。
產業、政府、高校頂級合作與資源:已獲得杭州市政府、產業方在資金、算力方面大力支持,合作伙伴包括華為、菜鳥、歐琳、清華、浙大、北大、哈佛、斯坦福等頂級高校。
參考資料
再次感謝各位的知識分享,在此之上我們做了更進一步的研究,并將之“開源”!
【1】來源:知乎,作者:瞻云,回答問題:大腦為什么自己不明白自己的工作機理呢?鏈接:https://www.zhihu.com/question/490949334/answer/2161395464
【2】來源:知乎,作者:bird,文章:人腦工作機制分析和猜想(01):關于人腦——腦的演變過程及當前的系統架構,鏈接:https://zhuanlan.zhihu.com/p/414408970
【3】來源:知乎,作者:花卷神經科學,回答問題:腦科學進展為何如此緩慢?鏈接:https://www.zhihu.com/question/34936606/answer/3300145691
【4】來源:知乎,作者:bird,回答問題:腦科學進展為何如此緩慢?鏈接:https://www.zhihu.com/question/34936606/answer/3300145691
【5】來源:知乎,作者:神經美學 茂森,回答問題:大腦神經元的的建立過程是怎樣的?鏈接:https://www.zhihu.com/question/268720152/answer/3546965051
【6】來源:知乎,作者:一起讀PCB,回答問題:神經元的工作原理是怎樣的?鏈接:https://www.zhihu.com/question/408206230/answer/3426676360
【7】來源:知乎,作者:Liang Shi,回答問題:神經細胞有哪些細胞種類&各種類的功能分別有哪些?鏈接:https://www.zhihu.com/question/457254607/answer/1921579805
【8】來源:知乎,作者:Liang Shi,回答問題:抑制神經元和興奮神經元是怎么區別的,或者說抑制神經元產生抑制遞質,興奮神經元產生興奮遞質?鏈接:https://www.zhihu.com/question/392758414/answer/1202650268
【9】來源:知乎,作者:賽殼學習筆記,文章:神經元的工作原理——電信號和化學信號的緊密合作,鏈接:https://zhuanlan.zhihu.com/p/361601594
【10】來源:知乎,作者:東單情感,回答問題:神經元的工作原理是怎樣的?鏈接:https://www.zhihu.com/question/408206230/answer/1614246705
【11】“Architectures of neuronal circuits”,Liqun Luo,Science,3 Sep 2021, Vol 373, Issue 6559,DOI: 10.1126/science.abg7285
【12】來源:知乎,作者:林文豐 Jason,文章:認知神經科學 第三版,鏈接:https://zhuanlan.zhihu.com/p/709723778
【13】來源:知乎,作者:呸PER無一郎,回答問題:人的大腦是如何識別某一物體并檢測到運動的?鏈接:https://www.zhihu.com/question/26430414/answer/3115980831
【14】來源:知乎,作者:趙思家,回答問題:注意力的認知神經機制是什么?鏈接:https://www.zhihu.com/question/33183603/answer/71783580
【15】來源:知乎,作者:OwlLite,回答問題:人類是通過語言介質進行思考的嗎?鏈接:https://www.zhihu.com/question/483263643/answer/2163239073
【16】來源:科技日報,文章:識別情緒的大腦回路發現,鏈接:https://www.hfnl.ustc.edu.cn/detail?id=22115
【17】來源:知乎,作者:林文豐 Jason,文章:《智能簡史:進化、人工智能和造就我們大腦的五大突破》,鏈接:https://zhuanlan.zhihu.com/p/714025058
【18】來源:知乎,作者:蔡叫獸,回答問題:如何看待饒毅的「人工智能還是偽智能」命題?鏈接:https://www.zhihu.com/question/27716888/answer/37866993
【19】來源:知乎,作者:周鵬程,文章:一場twitter爭論:人工智能是否需要神經科學,鏈接:https://zhuanlan.zhihu.com/p/576570463
【20】來源:知乎,作者:泳魚,文章:一文概覽人工智能(AI)發展歷程,鏈接:https://zhuanlan.zhihu.com/p/375549477
【21】來源:知乎,作者:ZOMI醬,文章:【AI系統】AI 發展驅動力,鏈接:https://zhuanlan.zhihu.com/p/914397847
【22】來源:知乎,作者:機器之心,文章:一文簡述深度學習優化方法——梯度下降,鏈接:https://zhuanlan.zhihu.com/p/39842768
【23】來源:知乎,作者:我勒個矗,文章:模仿學習(Imitation Learning)介紹,鏈接:https://zhuanlan.zhihu.com/p/25688750
【24】來源:知乎,作者:泳魚,文章:通俗講解強化學習!,鏈接:https://zhuanlan.zhihu.com/p/459993357
【25】來源:知乎,作者:IT胖熊貓,文章:AI知識體系概述,鏈接:https://zhuanlan.zhihu.com/p/706229733
【26】來源:知乎,作者:DoubleV,文章:詳解深度學習中的梯度消失、爆炸原因及其解決方法,鏈接:https://zhuanlan.zhihu.com/p/33006526
【27】來源:知乎,作者:普適極客,回答問題:怎么形象理解embedding這個概念?鏈接:https://www.zhihu.com/question/38002635/answer/1364549217
【28】來源:知乎,作者:猛猿,回答問題:如何理解 Transformer 論文中的 positional encoding,和三角函數有什么關系?鏈接:https://www.zhihu.com/question/347678607/answer/2301693596
【29】來源:知乎,作者:北方的郎,回答問題:對人工智能毫無了解,導師讓看transformer和BERT的兩篇論文。好幾天了,基本沒看懂,何解?鏈接:https://www.zhihu.com/question/568969384/answer/3390204563
【30】來源:知乎,作者:猛猿,回答問題:如何理解attention中的Q,K,V?鏈接:https://www.zhihu.com/question/298810062/answer/2320779536
【31】來源:知乎,作者:書中有李,文章:GPT 理解:關于 transform attention 中的 QKV,鏈接:https://zhuanlan.zhihu.com/p/636889198
【32】來源:知乎,作者:猛猿,文章:Transformer學習筆記二:Self-Attention(自注意力機制),鏈接:https://zhuanlan.zhihu.com/p/455399791
【33】來源:知乎,作者:佳人李大花,回答問題:為什么現在的LLM都是Decoder only的架構?鏈接:https://www.zhihu.com/question/588325646/answer/3383505083
【34】“Scaling Laws for Neural Language Models”,Jared Kaplan,arXiv,23 Jan 2020,cited as arXiv:2001.08361
【35】來源:知乎,作者:玖歌,文章:LLM Scaling Laws,鏈接:https://zhuanlan.zhihu.com/p/694664603
【36】來源:知乎,作者:程序猿阿三,回答問題:能大致講一下ChatGPT的原理嗎?鏈接:https://www.zhihu.com/question/598243591/answer/3446096328
【37】來源:知乎,作者:程序鍋,文章:OpenAI首次揭秘GPT訓練細節,鏈接:https://zhuanlan.zhihu.com/p/633202668
【38】來源:知乎,作者:猛猿,回答問題:誰能講解下擴散模型中Unet的注意力機制?鏈接:https://www.zhihu.com/question/597701864/answer/3080511687
【39】白辰甲,許華哲,李學龍;《大模型驅動的具身智能: 發展與挑戰》;中國科學 : 信息科學 2024 年 第 54 卷 第 9 期: 2035–2082
【40】來源:知乎,作者:lijun,文章:MPC(模型預測控制) 原理及理論推導,鏈接:https://zhuanlan.zhihu.com/p/698526965
【41】來源:知乎,作者:王建明,文章:對話羅劍嵐:強化學習+真機操作可以很Work,鏈接:https://zhuanlan.zhihu.com/p/6329634561
【42】來源:知乎,作者:高樂,文章:基于擴散基礎模型RDT(Robotics Diffusion Transformer)的人形機器人雙臂操作,鏈接:https://zhuanlan.zhihu.com/p/2020035331
【43】來源:知乎,作者:善與凈,文章:大模型評測的幾個榜單,鏈接:https://zhuanlan.zhihu.com/p/713849119
【44】來源:知乎,作者:愛生活Ai工作,文章:全球AI大比拼!GPT-4o穩居第一,阿里Qwen2為何跌至第八?,鏈接:https://zhuanlan.zhihu.com/p/703544557
【45】來源:海外獨角獸公眾號,作者:Cage,文章:LLM的范式轉移:RL帶來新的 Scaling Law,鏈接:https://mp.weixin.qq.com/s/JPfgF6UtgIYwWXwNQHOoqQ
【46】來源:知乎,作者:白老師AI學堂,文章:預測即壓縮, 壓縮即智能?——從信息論視角看大語言模型的本質與未來,鏈接:https://zhuanlan.zhihu.com/p/702188556
【47】來源:知乎,作者:DeepTech深科技,文章:爭鳴:OpenAI奧特曼、Hinton、楊立昆的AI觀點到底有何不同?,鏈接:https://zhuanlan.zhihu.com/p/636522807
【48】來源:知乎,作者:安曉心,回答問題:如何評價Yann LeCun的 世界模型?鏈接:https://www.zhihu.com/question/632009707/answer/3422307013
【49】智算未來系列十:智算中心加碼,國產算力提速;中金點睛,鏈接:https://mp.weixin.qq.com/s/sfRIUaMY0iua0ediPzUppQ
【50】AI浪潮之巔系列:云端算力芯片,科技石油;中金點睛,鏈接:https://mp.weixin.qq.com/s/RHgYjrhvqRoqVqLoUPvVzg
【51】ChatGPT啟新章,AIGC引領云硬件新時代;中金點睛,鏈接:https://mp.weixin.qq.com/s/V0Jch3MS-ch4azwMwIXDLQ
【52】AI浪潮之巔系列:服務器,算力發動機;中金點睛,鏈接:https://mp.weixin.qq.com/s/W2AwPTsOfvsGOeLhCYo7Nw
【53】智算未來系列七:國產云端AI芯片破局,路在何方?;中金點睛,鏈接:https://mp.weixin.qq.com/s/ptGlPPdIzfGzw4X7SVqRiw
【54】來源:知乎,作者:Na Liu,文章:科技演變的規律和投資方法論小感,鏈接:https://zhuanlan.zhihu.com/p/445923243
【55】來源:海外獨角獸公眾號,作者:Cage,文章:Anyscale:Databricks 創始人再下場,ML 領域最值得期待的公司?,鏈接:https://mp.weixin.qq.com/s/lKaEJsRkKnRkdDE9C2uOiQ
【56】來源:海外獨角獸公眾號,作者:Cage,文章:拾象AI投資圖譜:大浪已至,展望Infra百億美金公司機遇,鏈接:https://mp.weixin.qq.com/s/uBIpXFloAoda5lrquzyvDg
【57】來源:海外獨角獸公眾號,作者:haina,文章:Sales Agent 接管企業銷售,11x.ai 是企業數字員工的雛形嗎?,鏈接:https://mp.weixin.qq.com/s/IuJlFuZMNBaKQne6Kn2r5Q
【58】來源:海外獨角獸公眾號,作者:kefei,文章:Kore.ai:LLM能否為AI客服帶來新一輪洗牌與機遇,鏈接:https://mp.weixin.qq.com/s/IsS-xeh63ul82yw14EZOSA
【59】來源:海外獨角獸公眾號,作者:kefei,文章:Glean:大模型時代的企業內入口級產品,最了解員工的“AI同事”,鏈接:https://mp.weixin.qq.com/s/ibqKqUJJ1uZ0rAHx34yqGQ
【60】來源:海外獨角獸公眾號,作者:程天一,文章:AI重塑法律行業:為80%的工作帶來10x提升,鏈接:https://mp.weixin.qq.com/s/fmMuAcrSH9UH7svml4LlUg
【61】來源:海外獨角獸公眾號,作者:程天一,文章:Suno AI:音樂生成迎來MidJourney時刻,Suno能否挑戰Spotify?,鏈接:https://mp.weixin.qq.com/s/fmMuAcrSH9UH7svml4LlUg
【62】來源: 鹿其鹿粦Chilling公眾號,作者:Aaron Qian,文章:EP.3 | 一年之后:AI大模型航海我們身在何處 將駛向何方 (II) – 硬件篇,鏈接:https://mp.weixin.qq.com/s/9ra-9iQ_HjAfsethunVOrA
作者|楊儒、劉英航、謝晨星、王嘉攀
本報告由勢乘資本和光錐智能聯合發布
本文由人人都是產品經理作者【光錐智能】,微信公眾號:【光錐智能】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!