Scale AI:大模型還需要數據標注嗎?
AI行業每天都有很大的變化,而Scale AI的產品線可以很好的體現該行業的新動態,所以在本篇文章中作者針對數據標注在大模型中扮演什么角色、數據標注的商業模式、Scale AI 公司治理問題以及 Scale AI 未來發展情況等重要問題進行了討論。一起來看下吧。
我們在 2021 年 7 月編譯過一篇關于 Scale AI 的文章,但在過去一段時間,AI 行業每天都在發生十級地震,行業價值鏈也發生變化,因此我們認為有必要重新審視此前研究過的重要公司,所以把 Scale AI 拿出來重新研究。
Scale AI 2016 年成立,創始人為 Alexandr Wang 和 Lucy Guo,Lucy 現已離開公司。Scale AI 2019 年躋身獨角獸行列,當前估值 73 億美金,ARR 接近 3 億美金。Scale AI 核心業務為數據標注,從自動駕駛場景起家,后切入政府、電商、機器人、大模型等場景,分別對應著過去 AI 行業幾次大機會的出現。受益于 Alex 超強的個人能力及超強的團隊執行力,Scale AI 在每波大趨勢到來時都能快速捕捉機會,推出相應的產品,在細分領域迅速做到極高的市場份額。
目前,Scale AI 正非常激進地切入 MLOps 和 LLM 領域,提供各類工具、平臺和服務。包括電商場景的圖片生成工具 Scale Catalog,大語言模型開發者工具平臺 Scale Spellbook,以及合成數據產品 Scale Synthetic 等等。但從調研結果看,這些新興業務只是 Scale AI 尋找第二增長曲線的一些嘗試,產品銷售情況并不理想,最后能有穩定需求、貢獻主要收入的還是數據標注業務。
除了更新公司業務情況,我們還針對數據標注在大模型中扮演什么角色、數據標注的商業模式、Scale AI 公司治理問題以及 Scale AI 未來發展情況等重要問題進行了討論。
另外,我們認為 Scale AI 是觀察 AI 行業機會的絕佳生態位。一旦行業有新動向都會體現在 Scale AI 的產品線中,且公開可見。Scale AI 的產品更新動態非常值得關注。
以下為本文目錄,建議結合要點進行針對性閱讀。
- 行業
- 產品
- 團隊
- 競爭
- 當前結論與判斷
一、行業
1. 行業介紹
數據標注(Data Labeling)為 Scale AI 的核心業務。數據標注位于模型開發的上游階段,該過程需要先識別原始數據,然后為該數據添加一個或多個標簽。數據類型包括結構化數據和非結構化數據,后者包括圖像、視頻、3D(LiDAR、雷達等)、文本和音頻等。
來源:Scale AI 官網
數據標注的核心是質量和效率,對于數據標注的客戶公司而言,數據標注并非公司核心業務,外包意愿強。客戶標注數據主要通過內部自建團隊、眾包平臺、與第三方數據標注創業公司合作。該賽道玩家除了 Scale AI 之外,還有 Dataloop、SuperAnnotate、Labelbox、Snorkel、V7、Appen 等。
同一客戶公司內部的不同部門,可能會根據不同的需求和場景選擇不同的數據標注玩家。早期,數據全部由人工手動標注,以構建和積累機器學習模型的訓練數據集。盡管耗時且成本高昂,但手動標注數據確實在準確率等方面具有優勢。數據標注公司往往在菲律賓、肯尼亞、委內瑞拉等勞動力價格較為低廉的國家或地區尋找合適的數據標注人員。
隨著機器學習模型的發展,自動化數據標注的準確性提高,可以使用模型來輔助人工標注,比如模型預處理數據再發送給標注員;或人類作為審核員,審核并糾正模型給出的標注結果等等。與純手動標記相比,AI 輔助標注加快數據標注的速度。目前,Scale AI 等數據標注公司都在努力減少數據標注過程中的人工參與比例。
上述兩種方案是目前數據標注的主要形式,至于未來數據標注能否全部由模型代勞,我們目前的判斷是 No,成熟場景也許可以,但未來總是會不斷有新的場景出現,新事物往往需要先通過人工標注以積累數據、例子,然后才可能訓練出可自動完成標注的模型。
2. 大模型是否還需要數據標注
在此前,機器學習需要有監督學習,需要標注大量數據。隨著模型逐漸變大,對數據量的需求變大,標注數據的時間及成本變得無法控制,高質量的標注數據的生產速度難以滿足大模型的需求。但無監督學習出現后,機器學習不需要明確目的的訓練方式,也無法提前預測結果,因此不需要標注數據。
強化學習也不需要數據標注,強化學習的反饋不是通過標簽或數值,而是通過獎勵機制來學習一系列行為。預訓練模型實現了有監督學習到無監督學習的跨越,OpenAI 的 GPT-1 到 GPT-3 也一直采用此路線,因此在過去一段時間內,不少人擔心數據標注在大模型時代的價值。
但 ChatGPT 出現后,該顧慮有所緩解,ChatGPT 使用強化學習和人類反饋來使模型更好地與人類指令保持一致,即 RLHF (Reinforcement Learning from Human Feedback),這其中會涉及到非常多的數據標注工作。
RLHF 的數據標注與此前的用低成本勞動力完成的簡單數據標注工作也有所不同,需要非常專業的人士來寫詞條,針對相應的問題和指令,給出符合人類邏輯與表達的高質量的答案。
據稱 OpenAI 內部招了幾十名 PhDs來做 RLHF 的標注,Scale 作為 OpenAI 的上游供應商,同樣招聘了幾十名 PhDs 在為 OpenAI 提供此類服務,具體的分工是 Scale 更多完成標注的動作,而 OpenAI 更多是進行質量檢測。標注數據是 ChatGPT 效果區別于其他競爭對手的原因之一。Google 一位技術專家也表示,在 ChatGPT 出來后,Google 也在針對數據標注問題進行反思。
二、產品
1. 產品 Update
Scale AI 核心業務是數據標注,除此之外還有非常豐富的產品線。產品主要分成 4 大類:數據標注(Annotate)、管理和評估(Manage & Evaluate)、自動化(Automate)和合成(Generate)。
Scale 從自動駕駛領域的標注起家,在自動駕駛、地圖等行業表現很好,兩年前,公司 80-90% 的訂單都來自自動駕駛(2D、3D、激光雷達等),該比例近年有所下降。
事實上,Scale AI 的標注產品研發及銷售情況與底層的行業趨勢及各行業發展情況有很大關系,在自動駕駛之后,Scale 的數據標注訂單還來自政府、電商(零售商品目錄)、機器人、大模型(RLHF)等領域,分別對應過去幾年 AI 行業幾波大的趨勢和機會。每波大趨勢將要到來時 Scale 都能很敏銳地捕捉到信號,快速招聘相應的人才,推出相應的產品,在細分領域迅速做到極高的市場份額。
除了數據標注外,值得關注的產品還包括:Scale Catalog、Scale Spellbook、Scale Synthetic。
- Scale Catalog 主要針對電商和零售企業,除了提供標注服務,還能自動生成產品圖,是 Scale 切入 Generative AI 應用領域的一款核心產品。
- Scale Spellbook 是 Scale 近期投入較大的業務,匯集了 Scale 的核心人才,做一個基于大語言模型的 to 開發者的工具平臺。
- Scale Synthetic 是合成數據工具,隨著模型參數不斷變大,模態不斷豐富,對數據量的要求越來越高,真實數據量已無法滿足需求,合成數據開始受到關注。
從 Scale 的產品拓展情況來看,Scale 正非常激進地切入 MLOps 和 LLM 領域,提供各類工具、平臺和服務。不過這只是 Scale 尋找第二增長曲線的一些嘗試,產品銷售情況并不理想,最后能有穩定需求、貢獻主要收入的還是數據標注。
2. 客戶與商業模式
Scale 的標注工人主要從委內瑞拉、肯尼亞、菲律賓等工資水平相對較低的國家招聘,客戶主要為美國 enterprise 企業,商業模式就像全球化套利,毛利較高。
來源:Scale AI 官網
主要客戶名單如下:
商業模式方面,Scale 官網針對每款產品給出了標準化定價,定價模式為 Consumption-base 的模式。如 Scale lmage 起價為每張圖片 2 美分,每條標注 6 美分;Scale Video 起價為每幀視頻 13 美分,每條標注 3 美分;Scale Text 起價為每項任務 5 美分,每條標注 3 美分;Scale Document Al 起價為每項任務 2 美分,每條標注 7 美分。
除此之外,還有針對 enterprise 的收費方式,即根據具體的企業級項目的數據量及服務進行收費。由于 Scale 的大部分客戶都為 enterprise 客戶,因此實際上大部分收入均為項目制收入,客單價幾十萬美金至幾千萬美金不等。Scale 2022 年收入預計為 2.9 億美元,毛利約為 70%。公司 2021 年 4 月完成 $325M 的 E 輪融資,投資者包括 Dragoneer、Greenoaks、Tiger Global 等,估值達$7.3B。
三、團隊
Scale AI 于 2016 年誕生于 Y Combinator 創業項目,創始人為 Alexandr Wang 和 Lucy Guo(2018 年 Lucy 離開 Scale AI,保留 6% 股權),兩位創始人技術背景深厚。Alexandr Wang 出生于 1997 年,2014 年加入 Quora,并在 Quora 上結識 Lucy Guo,高中就收到很多硅谷科技公司的 offer,后在麻省理工學院攻讀機器學習專業,選修的全是研究生級別的計算機課程,一年后毅然從麻省理工輟學。
2016 年,Alexandr Wang 和 Lucy Guo 在 YC 期間創辦 Scale。Alexandr Wang 在 2011 年美國數學人才搜索 (USAMTS) 中獲得銅牌,在 2012 年獲得金牌;2013 年在美國數學奧林匹克競賽中進入全國前 30 名,同時在 Who Wants to Be a Mathematical 比賽中獲得第三名;2014 年參加了美國國家物理奧林匹克競賽 (USAPhO) 并進入半決賽,在 2018 年登上了“30 under 30”的榜單。
Alexandr Wang 的履歷非常亮眼,但大家對他的評價褒貶不一。他非常聰明、自信,能力強,善于維護外部關系,花費大量時間與硅谷關鍵人物建立關系。
他也十分擅長 branding 和 marketing,塑造很好的個人形象和企業形象,有觀點認為 Scale 與其他競對的差異性主要來自于 Alex 的宣傳炒作,為公司帶來了大量訂單。
但或許是因為年紀太小的緣故,Alex 管理公司的經驗相對欠缺,公司內部管理較為糟糕,很多人才流失或不愿加入 Scale,企業內部也存在各類矛盾。我們在幾位離職高管訪談中聽到了非常負面的評價,但也在不少員工訪談中感受到部分員工對 Alex 發自內心的欣賞。
團隊整體方面,Scale 整體執行力非常強,工作節奏和企業文化非常激進,偏好招頂級院校的應屆畢業生,聰明、勤奮、執行力強、肯加班,Scale 的“卷”在硅谷非常有名。
四、競爭
Scale 的競爭對手包括:公司內部自建的數據標注團隊;谷歌、微軟和亞馬遜等科技大廠的數據標注服務;數據標注創業公司。
1. 類型一:公司內部自建的數據標注團隊
由于某些數據比較敏感,有的公司會選擇內部自建數據標注團隊,作為 Scale 等外包方案的補充。例如 Airbnb 使用內部數據標注產品來標記隱私數據,并用于公司內部的機器學習模型,但是對于不敏感的數據,Airbnb 通常會外包給第三方供應商進行標注。原因有三:
- 第三方供應商做數據標注可以比 Airbnb 內部自建團隊更便宜;
- 第三方供應商具有靈活性,可以根據 Airbnb 的需求靈活調整;
- 數據標注并不是 Airbnb 的重點業務,第三方供應商的工具可以更準確高效地完成標注。
2. 類型二:谷歌、微軟和亞馬遜等科技大廠
對于 Scale 而言,這些科技巨頭既是客戶,也是競爭對手。谷歌、亞馬遜、微軟等科技大廠比其他任何供應商都具有優勢,因為規模效應的存在以及頭部公司擁有廣泛的產品集合。例如,Scale 在 AWS 上處理和標注數據,如果客戶想把 Scale 標注的數據儲存在 S3 中,需要給 Scale 開通訪問權限,再由 Scale 將標注好的數據放入客戶的 S3 存儲空間中,這一系列操作會造成額外的成本。
但如果客戶數據本來就存儲在谷歌、亞馬遜和微軟的云平臺上,并使用他們的數據標注產品和服務,則無需進行訪問授權、移動數據等步驟。
此外,微軟、亞馬遜、谷歌等科技大廠都希望客戶能夠在一個平臺解決所有問題、采購他們的所有產品和服務,因此會在一攬子產品中,針對某個單一產品給一些折扣,甚至直接提供免費的工具,這會對 Scale 造成競爭壓力。但微軟等科技大廠大多只提供軟件和工具,不提供人力服務,導致客戶必須自己承擔人力工作。而 Scale 提供人工標注數據以及其他的人力服務,在與科技大廠競爭中也具備一定的獨特優勢。
3. 類型三:數據標注創業公司
如 Dataloop、SuperAnnotate、Labelbox、Snorkel、V7、Appen 等。
Snorkel
Snorkel 提供了大量模板來讓用戶創建標注任務,也提供了托管服務。Snorkel 與 TensorFlow、Kubernetes 和 DAS 都有很好的集成。
Snorkel 和 Scale 都是數據標注領域較大的供應商,有專家認為 Snorkel 未來不會在與 Scale 完全相同的賽道中,但兩者都會有不錯的增長。相比 Scale,Snorkel 的優勢在于更專注于文本和 NLP,以及成本較低,所以用戶如果只是處理文本數據,一般會選擇 Snorkel 而不是 Scale。Snorkel 的劣勢在于視頻、圖像、地圖等處理能力非常有限。
SuperAnnotate
SuperAnnotate 是數據標注行業重要的供應商之一。功能豐富,允許用戶以 Python 等格式提取不同的標簽,使用 SQL 對圖像進行大量搜索,并將 SQL 與數據庫合并。
相比 Scale,SuperAnnotate 的優勢在于醫療行業和工作流程。在醫療方面,SuperAnnotate 符合 HIPAA 標準,而 Scale 并不符合。SuperAnnotate 在創建工作流方面能力更強,比如提供指令,在此方面,Scale 正在追趕,但并沒有達到 SuperAnnotate 的水平。但整體來看,SuperAnnotate 的劣勢在于標注質量不及 Scale。
Labelbox
Labelbox 的商業模式與 Scale 略有不同,Labelbox 是給用戶提供平臺,用戶可以選擇自己進行數據標注或使用其他服務,但客戶需要采用 Labelbox 平臺作為內部數據標記工具。Labelbox 通過美國國防部安全審查,也與各種組織展開合作,例如,Labelbox 與 GCP 是合作伙伴關系,正在推動 GCP 云和谷歌云。
五、當前結論與判斷
1.為什么看好
(1)數據標注外包需求確定數據標注外包需求明顯,給創業公司很大的發揮空間
一方面,從客戶角度考慮,數據標注對于 AI 公司的員工而言屬于臟活累活,會占用他們大量的時間,分散他們在算法等核心環節上的注意力,從主觀角度看他們不愿意把時間花在標注上。
另一方面,從 ROI 角度考慮,大部分的數據標注工作對標注員的要求并不高,即美國的工人可以完成的工作肯尼亞的工人也可以完成,且質量差別不會很大。
因此,如果不是特別隱私的數據、或不需要類似 RLHF 場景的語義理解等其他能力,通過第三方交由低成本國家和地區的勞動力來完成標注工作 ROI 是更高的。因此,數據標注外包的需求十分明顯,創業公司長期有機會。
(2)數據標注賽道的頭部玩家,頭部效應、品牌效應強
Scale 是數據標注賽道的絕對的頭部玩家,如果我們認為人工標注和“自動化+人工”的標注方式在未來 5-10 年內會長期存在,那么目前來看 Scale 會一直保持領先。從最真實的客戶和訂單來看,美國的 enterprise 客戶大多只認可 Scale 作為他們的第三方數據標注服務商,Scale 的客戶可以說是美國 AI 各細分賽道的皇冠上的明珠,擁有最好的客戶 base。
Scale 的銷售團隊在 pitch enterprise 客戶時,所遇到的競爭對手幾乎只有“大廠內部自建的團隊”這一個解決方案,幾乎沒有遇到其他創業公司。
只有在 SMB 市場或面向非頭部企業的銷售中會遇到其他創業公司。頭部效應和品牌效應非常明顯。關于品牌效應還可以補充一個觀點,有客戶說到這樣一句話:“Scale 和其他數據標注公司就像 iPhone 和安卓的關系?!盨cale 品牌效應的形成也離不開 Alex 本人及團隊極強的 PR 和 marketing 能力。
(3)規模效應已顯現
數據標注賽道有規模效應。客戶對數據標注的關注點主要在“質量”和“效率”兩個方面,由于數據標注不是高技術含量的工作,因此經驗對質量和效率的提升就起到關鍵作用。這里的經驗又包括工人標注數據的經驗,以及 Scale 對整套流程和體系的管理經驗。
經驗一定程度上也與規模和數量有很大聯系,規模越大,標注的數據量越多,經驗就越成熟、越豐富,標注數據的質量和效率就越高。
作為賽道的頭部玩家,以及與 enterprise 客戶合作,Scale 的訂單量及數據量與其他競對相比要大不少,再加上 Scale 在每波趨勢剛剛興起的時候,都能快速進入新興領域,更早地獲得“經驗”,后續企業競對便很難追上。
另一方面,Scale 將人工標注的經驗沉淀為自動化的解決方案,在行業發展早期采用人工標注的方式,當行業成熟時已經能夠訓練出適配特定領域數據的自動化標注模型,變成“自動化+人工”的解決方案,大大提升效率。訂單量和數據量足夠大也能夠更快速和高效地優化標注模型。因此,Scale 的規模效應非常明顯。
(4)創始人與團隊綜合實力和執行力強
關于 Alex 在團隊部分也有所介紹,一位非常聰明、激進、好勝心強的年輕人,且 Alex 不僅在技術方面有很強的天賦,在商業方面也有很強的能力,比如運營、品牌、營銷、銷售、社交能力等等,綜合實力強勁。Scale 團隊綜合能力也非常優秀,尤其是運營能力,對數據標注整套流程和體系的管理。
Scale 的流程與管理體系、經驗管理效果和效率都明顯優于其他競對企業,包括如何管理數據工人、如何給他們分工、如何進行激勵或懲罰、如何檢查質量、如何將數據交到客戶手中、如何服務客戶、又如何根據客戶反饋重新標注數據提升標注質量等等,整個鏈路非常復雜,Scale 的高材生們能夠把整套流程 handle 好,每一個環節都極其高效、流暢、準確。
而 Alex 也在很多事情上親力親為,或親自監督。團隊綜合素質和執行力非常強。
2. 為什么不看好
(1)企業管理風險創始人與團隊既是亮點也是風險
如團隊部分所說,我們對創始人和團隊進行 reference 后發現大家對 Alex 的評價十分極端且割裂,欣賞 Alex 的人覺得他是全能天才少年,不欣賞 Alex 的人又覺得 Alex 在公司管理方面存在非常大的問題。
這可能是我們最近兩年的研究中遇到的第一個 reference 結果如此割裂的項目。企業管理和企業文化方面,Scale 給年輕人足夠大的發展機會和發展空間、足夠快速和清晰的上升的機會、足夠多的激勵,但同時在處理老員工的關系上存在很多問題,因此這其中存在較大的沖突與矛盾。
此外,Scale 高強度的工作、激進的管理方式,也導致了嚴重的人才流失,或是讓很多人才在選擇公司的時候就望而卻步。我們認為企業管理與企業文化是 Scale 最大的 risk。
需求和增長風險數據標注需求受具體行業周期影響大,當每波 AI 趨勢爆發的時候,就會有一次極其陡峭的增長,但當行業發展趨于穩定或趨于成熟后,增長曲線將開始平緩,直到下一波大趨勢的爆發,需求和增長波動較大。
并且 Scale 多為項目制,項目的數量、周期、穩定程度和訂單金額都有很大的不確定性,較難預測。數據標注業務本身重人力,靠堆人完成標注工作,屬于施工隊生意,短期內人效較難提升,也難有持續復利。
另一方面,Scale 團隊一直在努力尋找第二增長曲線,在 MLOps、LLM tool、Generative AI 等方面均有涉及,但目前從結果看差強人意,依然沒有找到第二條穩定的增長曲線。如果長期依靠數據標注業務,天花板將受限。如果想象空間和穩定的增長不存在,那么公司將來到二級市場將承擔低估值的風險。
(2)供給端風險
Scale 此前布局供給端的國家和地區近年人力成本上漲速度快,最典型的是菲律賓等東南亞地區,菲律賓勞動力價格上漲后,Scale 也很少再到菲律賓招人。
供給端成本上漲,Scale 的毛利空間受擠壓,而毛利是否穩定上升也是公司上市后投資者最看重的標準之一,如果毛利下降是非常不利的信號。除此之外,供給端招聘流程的規范性和穩定性也是我們關心的問題。
最后補充一個觀點,我們認為 Scale 是觀察 AI 行業機會的絕佳的生態位,一旦行業有新動向 Scale 都能很快捕捉到信號,并快速推出相應的數據標注產品,且公開可見。Scale 的產品創新值得持續關注。
作者:拾象;公眾號:海外獨角獸(ID:unicornobserver)
本文由 @海外獨角獸 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信存儲空間服務。
專業透徹分析,關注這個業態,也未來技術業務板塊轉型的重點