國內的AI大模型們路走偏了吧!
從ChatGPT引起的AI爆火已經2年了,國外已經在系統型超級應用的方向高歌猛進,而國內則沒什么消息。拿移動互聯網作類比,安卓是重要也更基礎,但其實可能沒有微信重要。那么,這條路真的對嗎?
在差不多10個月前寫的開源大模型LLaMA 2會扮演類似Android的角色么?和AI個體戶的崛起:普通人“屁胡”的機會、模式和風險等文章里提出過AI產品落地的的三段論:大模型、系統型超級應用、長尾工具。事隔10個月回頭再看,AI發展的走勢基本與此相同。其中大模型、長尾工具大家談論比較多,這次還是專注于系統型超級應用。核心原因是從各種新聞來看國外在這里已經開始高歌猛進,像一個局點一樣,但國內則相對安靜,似乎被錯過了??蛇@里才是AI應用的重鎮。拿移動互聯網作類比,安卓是重要也更基礎,但其實可能沒有微信重要。
一、什么是系統型超級應用呢?
系統型超級應用這類產品太復雜,實在不好理解,單純類比操作系統也還是不行,所以這次換個路數,我們拿一個最近受眾比較多的App 豆包以及背后的大模型來做類比,在產品形態、業務模式等各方面說明下這類產品。需要的話大家也可以一邊操作一邊形成直觀感受。
豆包APP自身可以看成系統型超級用的面向C端的部分,但系統型超級應用不是豆包APP。
系統是指操作系統,超級應用是指功能沒邊界。
一邊對各種硬件設備進行抽象靠驅動程序接入各種硬件。
一邊對應用進行開放,在它之上可以開發Office,PS等各種應用。
兩邊是被隔離的,做應用的時候不需要關注硬件差異,可以無差別的使用硬件的功能或者計算機的計算能力。
系統型超級應用首先具備這種系統特征。
那什么是超級應用呢?微信如果沒有小程序、支付等一系列子功能而是只局限于IM,單是人多那不能被稱之為超級應用。超級應用一個特征固然是用戶龐大,更關鍵的是通過二次開放應用商店,在功能上沒有邊界。
拿豆包這一簇產品做下類比,第一豆包大模型把各種算法完整進行封裝,比如識別、語音合成、大模型等,提供了一種AI的通用計算和算法調度能力,這是通用能力部分。其次你會發現它現在至少在一邊開放了技能商店(火山方舟/扣子)。APP的具體功能由技能來定義。
這個地兒不適合用“APP”這個詞形容可自定義的功能,確實用技能更合適。就好比一個機器人它上一秒鐘還不會開直升飛機,但裝載新技能后下一秒就可以了。對機器人而言這是一種技能。
另一邊如果參照操作系統其實是要投射到不同硬件上,這點豆包這一簇產品現在好像就覆蓋了手機和電腦,但這種基于自然語言的應用對端上硬件的資源要求是非常低的,甚至可以放到只有1M內存的設備上。這靠開放平臺來覆蓋會更適合,下面會說。(其實這里還得區分特征是屬于應用的運行時還是屬于純粹的云服務,小程序是微信的運行時技能,但有點復雜不展開了)
我們總結下這種系統型超級應用的構成,基本上是三位一體:
這里面容易被低估的可能是類似火山方舟這個位置的產品(CUDA大概是在這個位置),早期這個位置的產品絕對賠錢,很多時候還得靠降價來反哺它(看發布會豆包大模型把價格訂到:0.0008元/千Tokens,這確實是敢下狠手,比我在用的便宜很多很多。干的就是上面說的事)。但其實這里是通路也是標準,培養粘性和鏈接的地方??磮蟮?,火山方舟在持續升級從模型訓練、推理、評測到精調的全方位服務,還有插件以及工具鏈。打點其實是對的。
基于這個可以預測下面OpenAI的行為,它大概率會補自己直接的C端應用(不是簡單套殼)。從GPT-4o的發布來看,OpenAI內部似乎已經統一了認識:往應用方向整。這樣磕下去,科技巨頭里面估計會多一個,并且大概率會和Google直接碰撞,除非再有首席科學家起義。(有點像修仙,阻人成道了就一定會PK,和喜歡不喜歡沒有關系)。
二、系統型超級應用的打法
我為什么看著好像還算了解這類產品呢?
因為我一度曾經帶團隊設計了完整的這種超級應用以及其打法,那產品和現在的豆包至少有60%的相似度……。(但實在干不動。別的都好說,這類產品太費錢了,再加上上代技術也沒那么成熟,最終搞不動了)
這類系統型超級應用幾乎必然是To B和To C兩線同時著手。特別不單點極致,一般人可別整十死無生。
沒有C端的標桿,沒人相信你能干好,對于這種基于新技術的新品類也沒人知道你在說啥。所以就需要一個豆包這樣的C端應用做Pilot。看報道提到豆包APP月活2600萬,豆包大模型日均處理1200億Tokens文本,生成3000萬張圖片。這是很可怕的數字,智能音箱峰值的時候,每年出貨也就只有近4000萬臺,活躍更是遠遜(有的不足銷量的10分之1)。(當年我們的C端產品叫:TA來了,說實話我覺得比豆包還好聽一些,但數實在不行)
而為了把這種能力投射到更多的設備里面就必然需要構建開放平臺,既輸出能力也負責管理各種技能(應用運行時的技能平臺和MaaS形式的輸出,前者只在用戶量級上來了才有意義)。
還要有一些共同依托的能力,否則沒有根基。當年是一堆算法比如聲學的(可復制性最差,現在好像還沒解決),識別的,NLP的(過去可復制性也很差,現在基于大模型解決了),現在是豆包大模型這樣的新一代模型。里面看起來各種算法都打包進去了。
很多人可能沒注意的是包括大模型的這套算法核心計算其實在云上,端上要求的計算量極低,主要運行聲學算法等。前面提到你甚至可能在一個只有1M內存的終端設備上把這種AI能力集成進去。也就是說這種能力可以下探到語音無屏的開關這類小設備。
這導致這種超級智能應用先天的優勢就是多設備投射,進行沉浸式計算。這時候各種設備平權不是以手機為中心。
當前看起來豆包這些新一代超級應用還沒去干這個事,確實也沒到這個時點,其它所有硬件設備加起來創造的日活的和可能也不如APP的十分之一。
這種系統型超級應用要想干好,基礎能力和殺手型的技能都不能缺。
基礎能力搞不好有點浮沙筑高臺,房子很難蓋起來。(大模型還是很給力,一定程度上解決這問題)
技能搞不好有點像要蓋大房子但梁不給力,過去智能音箱搞不好核心就這問題。
什么是基礎能力呢?
這是領域本身定義的。比如如果是需要面向C端,TTS音色這個看著不重要的就和大模型的內容生成一樣重要。GPT-4o在補這個,豆包大模型也在強化這個。
在APP里什么可以成為一個比較Killer的技能呢?
播音樂的這類功能的支撐度總是不夠強壯,之前景鯤帶著小度在家往教育做垂直應該就是嘗試解決這個問題。
當年我們做過類似《Her》的嘗試,很有趣的是豆包也選了它。
但新一代模型的效果實在好很多,從端點檢測的精度到語音識別再到TTS(音色)再到內容生成。新一代技術比過去流暢太多了。
這里面有個叫《曖昧對象》的技能,真的差不多可以做陪聊天的服務了。(忘記是團隊那個產品同學認為最能有用的就是陪聊天,比放音樂有用,這是對的,奈何當年算法不給力,做完連貫性不過關)
這一組算法最終的效果是個乘法問題,每個都0.8最終一乘體驗就變0.5分?,F在的識別精度,音色的流暢度和大模型的通用內容生成乘在一起應該還能剩下90分以上。如果不是你知道它是人工智能的情境下,已經很難分得清這是人還是AI。
上一波人工智能創業里面,NLP公司心心念念的《Her》真的有人要做出來了,還附贈了和之前嘗試但不好使的聲音復刻功能(《黑鏡》那種男朋友沒了,現在看連聲音至少能做出一個70分的陪你聊天的他了…)。這比匹配意圖偶爾還得扣槽這種土鱉方式的開放式聊天實在是好太多了。
做過這個的可以試試,體驗下國內最新進展。
上面我們拿豆包APP以及背后的豆包大模型做例子分解了一下系統型超級應用的特征以及前者商業模式。
但系統型超級應用可不只局限于豆包以及背后大模型所代表的B端、C端,而是有著更寬廣深遠的空間,更關鍵的其實是行業。最先能收支平衡的有可能也是行業。
字節跳動這種公司走OpenAI的路沒啥問題,但看起來好像所有做大模型的都跑這條路上來了。這就是標題說的國內AI大模型路可能走偏了。類似OpenAI這個地兒恐怕也沒那么大容量。從上面分解中也能看出這模式夸張的難度和資源需求。
三、系統型超級應用可復制到更寬的領域么
有兩個新聞可以放在一起看:一個是DeepMind發布AlphaFold3,號稱為疾病治療和藥物研發開辟全新路徑;一個是Xaira公司融了10億美金。
這是什么呢?這是垂域大模型。(其實我不知道他們細節,也許沒想的那么大,但不關鍵)
顯然的Deepmind并沒有因為OpenAI亂了陣腳,繼續在自己的路上死磕。但很可能收支平衡比OpenAI還快。
因為它真的影響行業,重塑價值創造的過程。很多科學家會因為AlphaFold的調用次數和開放程度而造反,這反襯的正是影響力。那個國內的AI大模型有這種行業影響力。
每一個這種垂域模型不太可能是一個單獨的裸的模型,在落地的時候總是要和現實的信息進行連接。
這點上我之前拿Watson舉過例子。
雖然沃森不成功,但這種簡單架構上已經清楚的表明這是行業的系統型超級應用。
Watson固然是不成功,但真做出來呢?
那是真的會解決醫療行業的根本問題的,比如醫療資源不足的問題。
這才是新質生產力。
想象一下,這些模型一旦達到AlphaGo在圍棋里面的程度,那整個行業就要圍著這個模型轉了。對應行業會發生劇烈重整。
為什么提這個呢?
因為AI行業國內真干大模型的同學的選擇好像都擠一塊去了。
受OpenAI刺激,很多團隊都跑去干類似chatGPT的大模型,然后自己從頭搞又特別費勁,所以往往會借助開源。在這個基礎上(相對通用的類似chatGPT模型)上包裝出行業大模型。好處是瞬間可以出好多,壞處是不解決行業深層次問題,最終很可能變成上波的賺方案的錢,然后收支失衡。(參見:為什么說這些倒騰AI的方式會把自己搞死)
真正的垂域大模型,那怕把法律搞清楚也是有用的(康達的李思川李律,視頻號:川哥說法,就和我聊過好幾次)。但門檻確實還是太高,直接拿通用大模型上能靠譜么,我不咋看好。可現在看真做垂直的的反倒是不多。
四、垂域大模型和AGI
以前也寫過一點這個話題:chatGPT 和AlphaGo下圍棋,誰贏?垂域大模型有戲么?,現在仍然維持原來的觀點:在專門的領域尤其是價值比較高,有很多專業信息和知識的領域chatGPT這種代表AGI的模型是很難PK掉垂域模型的。
我是靠常識做這個判斷,很不權威。
常識是說一部分數據內蘊了各種知識和規則,把這些數據的種類覆蓋的越全,這個模型的相應的事能力也就越強大。通用大模型能力再強,沒有這部分信息,也會甕中之腦一樣空有智商。何況模型訓練過程中總是可以產生很多的Know-How,這會進一步增加差距。
在很長一段時間里可能會是一個通用大模型,上面承載幾個類似豆包/火山方舟/豆包大模型這樣的超級應用(比如搜索方向也可能出新的超級應用)還有一些垂域大模型共同為不同的系統型超級應用提供引擎。
五、小結
chatGPT屬于開局的點,我們把它刨除在外。那AI大模型真正的局點其實是這些系統型超級應用,不是小團隊做的輔助工具。那誰在做這東西呢?也可能是我真的不知道,但如果確實沒有行業性的,而是都圍在了通用模型上,那可能會在AI的局點上缺席了不少東西。那不管對于VC還是真的從業者其實遺憾的事情。(當年傅朱爭論過一場,從這個角度看實在是都偏了)
專欄作家
琢磨事,微信公眾號:琢磨事,人人都是產品經理專欄作家。聲智科技副總裁。著有《終極復制:人工智能將如何推動社會巨變》、《完美軟件開發:方法與邏輯》、《互聯網+時代的7個引爆點》等書。
本文原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!