Al lnfra下隱藏的千億市場
越來越多互聯網圈的大佬想書寫AI 2.0的故事,那么在這個過程中,創業者們有可能在哪個領域找到機會點?或許我們可以看看大佬們押注的“AI Infra”,這套復雜而又基礎的、在大模型開發中占據一定位置的體系。一起來看看作者的解讀。
劃重點:
- 如果將開發大模型比做是“造房子”,那AI Infra 就是“工具箱”,而中國缺少的正是工具和原材料制造工廠。
- 根據國外市場的情況,可以將整個AI Infra大致分為數據準備、模型構建、模型產品三個層面,在這三個層面中的每一個節點,都是創業公司的機會點。
- “數據準備”是中國AI Infra第一個機遇。圍繞著“以數據為‘能源’”,本身就是一條十分復雜而又基礎的產業鏈,而我國的數據相關產業鏈,幾乎都是云大廠“一帶而過”,缺乏深耕在某個細分領域的垂直競爭。
- 在AI大模型的訓練過程中,為訓練和推理提供工具和調度平臺也正在成為一個新的市場“模型中臺”,但從目前國內的情況來看,“模型中臺”確實是創業大佬們的游戲。
ChatGPT火爆之后,科技圈有不少人想譜寫AI 2.0的中國故事。
據「自象限」不完全統計,短短一個月,國內有名有姓的大佬下場AI創業已經不下10位。但當AI Infra赫然出現在賈揚清的創業字典里時,一位前百度NLP高級工程師一邊感嘆賈揚清創業眼光的毒辣,一邊對「自象限」說了四個字:這事能成。
這位工程師所說的“這事”,指的也并不是賈揚清創業的成敗,而是終于有人看到了中國AI Infra的底子薄弱,想要上手來補一補了,那么,國內做AGI——“這事能成”。
不止賈揚清,最早掀起“大佬創業潮”的王慧文,在披露出為數不多的消息中,Infra 出現了兩次。在三個聯創中,“一個Infra(基礎設施)背景的聯創”占據了重要的名額,與此同時,光年之外的第一個動作,便是與國產AI框架一流科技(Oneflow)達成并購意向。
被賈揚清和王慧文雙雙押注“AI Infra”到底是什么?在整個大模型開發中占據哪些關鍵節點?
順著大佬們的思路,「自象限」將AI Infra的鏈條進行了盤點和國內外公司對比以反觀中國現狀。簡單來說,AI Infra 是一套十分復雜又基礎的體系,包括構建、部署和維護人工智能 (AI) 系統所需的硬件、軟件和服務的組合,它包括使AI算法能夠處理大量數據、從數據中學習并生成有意義的見解或執行復雜任務的基本組件。
即如果將開發大模型比做是“造房子”,那AI Infra 就是“工具箱”,而中國正是缺少工具和原材料制造工廠。
在這樣的背景下,未來3~5 年,相比于受限大模型能力變化的應用層面,AIInfra反而會更加穩定。畢竟大模型公司搞軍備賽,那賣武器的公司增長一定十分可觀。
但問題在于,如今中國的AI產業鏈在這一塊還處于相當空白的狀態。國內基于ML進行數據標注的公司星塵數據創始人就曾提出過這個問題,中國有沒有AI Infra公司?答案是,沒有。
他認為“國內從業人員太過于專注在方法論上,而方法論是公開的,但實際不公開的內容才有更多Knowhow和壁壘性?!?/p>
所以,如果說應用生態是顯性創業機會,那么AI Infra便是隱形的藍海。事實上,當AI進入2.0時代,AI Infra在整個AI產業鏈的價值也正在發生變化。
我們根據國外市場的情況,可以將整個AI Infra大致分為數據準備、模型構建、模型產品三個層面,在這三個層面中的每一個節點,都是創業公司的機會點。
圖片為自象限原創,轉載請注明出處
其中數據準備又可以具體拆解為數據質量、數據標注、數據合成和應用商城與工程;模型構建又包括機器學習平臺、版本控制和實驗跟蹤、模型風險管理;模型產品則包括模型部署和服務、模型監控、資源優化等。
這些細分場景都在成為AI產業鏈的新“聚寶盆”。本文重點結合海外頭部公司對AI基礎層的研究,梳理了在大模型訓練中比較重要,亦或是國內目前比較薄弱的方向,希望給國內創業者予以啟發。
一、數據新產業鏈中的“聚寶盆”
“數據準備”是中國AI Infra第一個機遇。
對比中外生成式AI的發展會發現,中文數據的缺乏一直中文AI大模型的是最大的短板之一。
有公開數據表示,截至2021年,在全球排名前1000萬的網站中,英文內容占比60.4%,中文內容占比僅1.4%。但作為AI三要素(數據、算力、算法)中最基礎的部分,數據又是整個AI大模型訓練的前提。沒有數據,就相當于巧婦難為無米之炊。
需要明確的是,圍繞著“以數據為‘能源’”,本身就是一條十分復雜而又基礎的產業鏈,涉及到數據質量、數據標注、數據安全三個主要部分和多個環節。
未來在AI活躍的氛圍下,中國一定會涌現出多個大模型,目前僅百度就有36個大模型,阿里、百度、騰訊、華為每家的大模型都不低于三個。而大模型越“熱鬧”,對后端數據的需求數量和質量也會更高。
但反觀我國的數據相關產業鏈,幾乎都是云大廠“一帶而過”,缺乏深耕在某個細分領域的垂直競爭,「自象限」整理了幾個產業鏈中的關鍵機會,僅供拋磚引玉,期待更多創造。
1. “數據質量”新機會:曾在這里摸爬滾打的企業,或迎來“出頭之日”
整體上看,數據質量的機會分為兩個部分,一部分是在技術側,機器學習和自動檢測正在成為數據質量的新機會。另一部分是在市場側,隨著AI市場規模越來越大,數據質量正在從產業鏈末端擴展成為供應商直接服務企業。
未來,隨著AI成為社會發展的底座,數據質量會成為每個企業的剛需。但國內數據質量尚未受到足夠的重視,缺乏專門做數據質量的企業,它更多是以大公司附庸品的形態出現,更像是“順手”做的事情。
但實際上,數據質量是需要市場化的,就像汽車公司沒辦法生產每一個零部件一樣,只有讓數據質量成為整個產業的底座,通過眾人拾柴火焰高的方式,才能推動整個行業的發展。
在國外,數據質量是十分垂直的賽道。這類公司的核心目標,是幫助人工智能企業最大限度地減少劣質數據帶來的影響,他們的產品通常包括數據可觀察性平臺、數據整理和偏見檢測工具,以及數據標簽錯誤的識別工具等等。
國內其實也有這類的公司,但數量稀少。比如針對數據治理的公司有億信華辰、普元、石竹、龍石、華矩科技、卡斯特等等。這些公司有一個非常明顯的特點,就是他們在數據的細分賽道里摸爬滾打了很久,但因為這個賽道過于垂直,因此無論是資本還是市場都對他們關注不多,導致他們一直沒有“出頭之日”,也導致他們和國外專業的數據治理公司差距甚遠。
▲ 圖源《數據治理產業圖譜1.0》
國內的數據公司目前大多停留在篩選階段,而國外的公司卻能通過深度學習對數據進行深度挖掘,在同樣的數量上獲得更多有價值的部分。這種差距主要源于:
第一,國內數據處理方式老套。許多中國的數據公司仍然在使用數據建模這樣的傳統方法進行數據處理,而國外已經開始使用機器學習的方式進行自動處理、自動標注,自動檢測安全等工作。
第二,數據處理效率低下、可用的優質數據占比低。中國的數據公司在做數據處理的時候仍然處在初級階段,即在一堆數據中將符合標準的數據篩選出來,只是不同的公司篩選的標準不同,得到的結果有所差異。而國外的公司卻能在數據處理的過程中,通過對數據不停的清洗、修改得到更多符合條件的優質數據。
簡單來說,在AI 2.0時代,大模型的訓練對更全面、更準確、可溯源的高質量數據有著更龐大的需求,同時也對效率有更高的要求,依靠機器學習自動檢測質量問題,將會是一條新的路徑。
同時,在數據成為“新石油” 時代,數據質量并不能只靠大模型的發展帶動,每個企業都需要對內部數據的質量進行精粹,發揮市場化的力量,大范圍提質。
對標國外垂直賽道中的典型案例Anomalo,它使用ML自動評估和通用化數據質量檢測能力,實現了數據深度的可觀察性,以及數據質量檢測的能力泛化。
簡單來講,它一方面把數據質量這件事檢測這件事做得更深,另一方面通過能力泛化將其做得更廣。
▲ 圖源Anomalo官網
2022年10月,Anomalo與Google Cloud達成合作,企業可以使用無代碼關鍵指標和驗證規則或通過任何自定義SQL檢查來微調Anomalo的監控。簡單的說,Anomalo上云后,對于企業而言幾乎可以無門檻接入,且適配性高。
Notion是Anomalo的核心客戶之一,Notion是國外最大的All in one 辦公軟件,國內的飛書學習的就是它。其軟件工程師對此評價到“Anomalo團隊的功能、集成數量和響應速度夠非常強大,用戶易于導航并找到他們正在尋找的內容。”
2. 數據標注新機會:從“人工標注”到“算法標注”
數據標注者正在從人工標注,向自動標注和智能標注邁進,中間的變化不僅是效率的提升,也將迸發出巨大的產業機會。
在AI 1.0時代,人工標注是AI發展最典型的特點,在那個“有多少人工就有多少智能”的時代,全世界的AI發展都與底層廉價勞動力資源息息相關。
但在AI2.0時代,李開復點明與AI 1.0的第一個差異就是無需人工標注,AI可以閱讀海量的文本,進行自監督學習。可以說,標注后的數據是AI大模型的命脈,它的性能和準確性直接取決于標注數據的質量和數量。
在AI產業鏈中,數據標注也占據了非常大比重,據AI分析公司Cognilytica的數據,數據標注環節的耗時占比可達25%。根據researchandmarkets的報告,全球數據注釋和標簽市場預計將從2022年的8億美元增長到2027年的36億美元,預測期內復合年增長率為 33.2%。
▲ 數據標注通常包含圖像、文本和視頻。
以AI大模型之前,以AI最為人所熟知的自動駕駛領域為例,數據標注和訓練一直是自動駕駛技術研發中成本最高的兩個“吞金獸”,為了解決成本和效率問題,無論是國外特斯拉還是國內的毫末,都在人工標注到標注自動化,再到標注智能化的路徑上進行探索。
自動駕駛仍然是數據標注/圖片標注使用量最大的一個應用場景,而未來,隨著文本大模型、多模態大模型的不斷涌現,還將出現新的增長機會。
從人工標注到算法標注,是底層智能化的變遷。這其中跑的最快的是Scale.ai,目前Scale.ai是全球最大的數據標注公司,據外媒報道,目前Scale.ai最新一輪E輪融資3.25億美元,估值達到73億美元。
Scale.ai早期走的也是人工標注路線,利用了印度標注團隊,靠著比美國更便宜、更高效的標注服務打開市場。在行業選擇上選擇了當時大火的自動駕駛賽道,并早早與Waymo等龍頭企業達成合作。
后期隨著技術的發展,AI訓練對數據的廣度、深度、精度要求也越來越高,為了解決這個問題,Scale AI將AI應用在數據標注服務中,先用AI識別,再由人工負責校對其中的錯誤,校對完的數據再“投喂”給訓練模型,使下一次的標注更加精準。
目前,Scale也將業務拓展到無人車、無人機和機器人等領域,同樣也在向下游拓展,開發自有模型提供給其他數據標注公司,并逐步進入AI/ML價值鏈的更多環節??蛻舭绹鴩啦?、PayPal、自動駕駛公司及科技巨頭。
3. 數據隱私和安全新機會:“合成數據”或成AI數據主力軍
正如互聯網的發展長河中,崛起過如360、金山毒霸等“安全專家”,移動互聯網時代的騰訊手機管家、360手機衛士一般,在AI時代,“安全”將仍然是技術和應用發展的底盤和重心。
目前,隨著AI技術呈指數級發展,合規和隱私風險的行業痛點也在逐漸暴露,3月的最后一天,在西班牙媒體指責OpenAI未能遵守用戶數據保護法規后,意大利相關部門也以類似的理由宣布了對ChatGPT的禁令。
隱私計算和數據安全話題被重新推上風口浪尖。
3月下旬,OpenAI曾發布聲明,稱因為ChatGPT開源庫中存在一個漏洞,致使一些用戶可以看到其他用戶的信息,包括用戶姓名、電子郵件地址、付款地址、信用卡號后四位以及信用卡有效期。
ChatGPT目前擁有超過1億用戶,雖然OpenAI并未說明,“一些”用戶泄露到底是多少數量級,但哪怕只有千分之一的用戶接觸到了這一漏洞,其后果都是不可估量的。
中國面對大模型的保守和謹慎也有一部分來源于對數據安全體系的不信任。國家層面也不斷提出加大安全性測試和常態化管理投入,包括數據外泄等問題的緊急檢測和修補措施,以及更先進的預防體系建設,如內控流程的完善、數據脫敏處理等,最大限度保證安全性。
數據顯示,中國信息安全市場的潛在空間高達1000億元上下,與全球安全服務市場64.4%的份額相比,我國安全服務市場占比僅為19.8%。目前國內信息安全產業依然以硬件為主,代表企業如奇安信、新華三等。軟件市場空白度高,發展潛力巨大。
除了更加強大的數據安全保護之外,從根本上解決數據隱私的問題也成為一種思路,其答案就是數據合成。
合成數據即由計算機人工生產的數據,來替代現實世界中采集的真實數據,來保證真實數據的安全,它不存在法律約束的敏感內容和私人用戶的隱私。
目前企業端已經在紛紛部署,這也導致合成數據數量正在以指數級的速度向上增長。Gartner研究認為,2030年,合成數據將遠超真實數據體量,成為AI數據的主力軍。
▲ 圖源Gartner官網
二、“鈔能力”的“模型中臺”:需要創業大佬們的新游戲
如果我們把大模型看作一個云產品,那么數據、算力、算法可以被看做是這個產品的“IaaS”,即基礎設施。而在“基礎設施”和前臺應用的SaaS之間,還存在一個PaaS平臺作為中間層,承擔起為SaaS提供部署平臺,開發工具等任務。
這樣的結構在AI大模型中也同樣存在,當訓練AI大模型的前期數據準備工作完成后,數據會被送到一個新的訓練池里,在這里完成訓練、推理,中間也涉及到各種開發工具、統籌調度等系統,我們也可以將其稱為大模型的“煉丹爐”。
現在,大模型訓練已經有ML Paltform這樣的平臺型解決方案覆蓋從數據準備訓練、驗證、到模型部署和持續監控的全流程,促進端到端的模型開發。
這類公司可以簡單理解為“大模型開發的一站式服務平臺”,為任何想要開發或使用大模型的公司做供應商服務。
事實上,如果繼續對比這些年云計算的發展和變化會發現,云廠商和企業都在不約而同地加碼PaaS平臺。而在AI大模型的訓練過程中,為訓練和推理提供工具和調度平臺也正在成為一個新的市場“模型中臺”。
▲ 圖源DataRobot
但“模型中臺”市場也存在許多問題。
比如,Forrester在《The Landscape In China, Q4 2022》報告中指出目前的市場化難點:“客戶使用AI技術的關鍵障礙之一,是缺乏開發AI解決方案和操作AI系統的能力,而AI/ML平臺是解決這一問題的有效方法。Forrester依據供應商的市場情況,將其劃分為大型、中型、小型三類。”
目前國外這個市場出現了“大魚吃小魚”的情況,大型供應商正在通過收購AI開發過程中不同部分的小型公司,以占據更大的市場份額。
目前在全球范圍內跑得比較快的是DataRobot,最新一輪完成了2.5億美元的融資,估值達到60億美元。Dataiku最新一輪完成了4億美元的融資,估值達到42億美元。還有開源公司H2O.ai,最新一輪完成了7000多萬美元的融資,由高盛和平安領投。
但這還只是“模型”中臺的在訓練部分的機會,當一個模型完成訓練之后,就進入了模型部署環節。
模型部署也是未來大模型走向B端應用的一個重要環節,也有一套專屬工具。
這套工具需要與底層 ML 基礎設施、運營工具以及生產環境結合,來實現模型部署的三大環節,即優化模型性能,簡化模型結構,并將模型推向生產。
一般來說,模型的部署可以是幾周、幾天,也可以是幾個小時,這要看模型部署的效率。所以更快的模型部署能力也是更強的核心競爭力。
而這類工具可以將ML工程師從基礎設施和硬件層面的決策中抽象出來,協調IT團隊、業務人員、工程師和數據科學家的工作,提高大模型部署團隊的整體效率。
除此之外,它們還能將訓練有素的模型轉化為敏捷、可移植(適用于任何硬件)、可靠的軟件功能,并與企業現有的應用程序堆棧和DevOps工作流程相結合。簡單來說就是提高模型的環境適應能力,快速與更多業務兼容。
不過,從目前國內的情況來看,“模型中臺”確實是創業大佬們的游戲,對于當下中國的AI鏈條來說,除了高昂的啟動資金和試錯成本外,更需要的是超一流的專業技術,如何合理規劃平臺架構,深入到訓練部署的每一個環節,對創始人的框架能力要求極高。
從另一個角度來看,在這場需要“鈔能力”的游戲中,創業公司和資本的關系將比此前更為密切,甚至決定生死。
文中配圖來源于網絡。
資料參考:https://zhuanlan.zhihu.com/p/594362766
作者:程心,編輯:羅輯
來源公眾號:自象限(ID:zixiangxian),方格之間,自有象限。關心科技、經濟、人文、生活。
本文由人人都是產品經理合作媒體 @自象限 授權發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!