AI行業應用:數據編織助力AI應用訓練突破

2 評論 11140 瀏覽 41 收藏 16 分鐘

#本文為人人都是產品經理《原創激勵計劃》出品。

雖然現在AI大模型很火,每個企業都想分一杯羹,但是過程中涉及到的算法、數據等不是輕而易舉就能實現的。其中,數據的傳輸和管理是個大問題。本文圍繞AI應用訓練的瓶頸展開敘述,對AI訓練難點進行總結并結合IDC分析報告,得出“數據”是最大瓶頸的結論,并針對該問題思考解決策略。

一、產品背景

“最近身邊再次響起了討論AI的聲音,與前兩年對AI持觀望態度不同,很多人都說隨著ChatGPT應用,AI時代真的來了,產品、運營同學們都在忙著了解什么是ChatGPT、什么是Stable Diffusion等等,但是算法工程師卻在瘋狂頭疼,瘋狂抱怨,領導要求他們盡快搞出大模型,盡快提升算法模型指標,服務業務,路過算法組聽到張工和胡工的以下的對話:

張工:胡哥,你的模型訓練的怎么樣了???

胡工:哎,一言難盡,沒數據啊,好不容易跟業務部門提了數據,他們不是收集不上來,就是收集上來的數據各式各樣,沒法用???

張工:誰不是呢,我這邊也是,最近客戶的圖片,視頻加起來10多個T,讓我們自己傳,光來回導數據就耽誤了我們組好長時間。

胡工:你說要是公司能搞個數據平臺,讓我們快速獲取數據多好啊,日常把數據收集管理好,用的時候就省事多了?!?/p>

聽到以上的對話,我靈機一動,最近基于數據編織想法給客戶做的數據管理平臺不就剛好可以解決他們問題嘛,于是我趕緊給他們做了詳細的產品介紹,講述下如何通過“數據編織”的設計理念建設數據管理平臺幫助用戶突破AI在應用訓練中的數據瓶頸。

二、AI訓練應用難點

除去人員主觀問題外,我們將AI應用訓練的客觀難點進行總結,可以概括為以下三點:

高質量數據:算法訓練想取得好的效果,首要條件是高質量數據,但是如何獲取高質量數據,存在如下困難:

  • 數據多樣性:數據存在結構化/非結構化數據,格式有多,不同系統提供的數據缺少統一標準。
  • 數據分布:很多業務數據多是離散存儲,缺少統一的數據管理平臺,在應用訓練前,獲取數據艱難。
  • 數據標注:即時獲取到數據,但是大量業務數據在被應用前,都需要標注,標注耗時耗力。

高效算力:指訓練模型時,通常需要大量算力,同時如何將算力高效發揮成為難點

  • 隨時大模型逐步推廣,模型體量越來越大,對算力的需求也迅速遞增。
  • 當數據存儲離散時,對數據的訪問將變慢,即時有集群算力,當無法并行時,算力將無法高效應用。

成熟框架:指算法應用需要成熟穩定,擴展性強的算法框架

  • 應用框架:目前國內外深度學習算法框架眾多,對于算法研究(Pytorch)、工業應用(Tensorflow)需要選擇不同的框架。
  • 數據轉換:由于框架不同、使用語言不同,即時有準備好的高質量數據也需要快速適配不同語言和訓練框架。

小結:從AI應用訓練的3個難點分析,都與數據有關,所以如果能解決數據問題,可有效助力AI應用訓練突破瓶頸。

三、數據是否是AI應用的瓶頸?

雖然從應用側總結出數據是AI應用訓練的瓶頸,但是到底有多少用戶這么認為呢?需要用一份數據來說明。

人工智能應用的主要挑戰排名

人工智能模型開發過程中,投入多少工作量用于數據準備

注:數據來源于IDC統計報告

從數據統計可以看出,其中有29%的用戶認為人工智能的應用缺少訓練和測試數據,85%的用戶認為至少花費了一半以上的工作量用于準備數據。

小結:既然數據被證實確實是AI應用的瓶頸,那么就可以考慮從數據尋找切入點,以提供統一標準、快速訪問的大批量的高可用數據源為定位開展產品規劃。

四、產品設計

在尋找到以數據為切入點后,思考如何建設數據類的產品,根據上述的分析,可以發現要在我們的產品中解決3個數據類問題:

  • 問題1:數據存儲,盡可能不改變源數據的存儲位置,最大化降低數據存儲的成本。
  • 問題2:快速訪問,從早期的數據查詢最好變成數據推理,快速搜索所需數據。
  • 問題3:統一標準,將復雜的數據進行統一規范,便于應用。

對以上問題,本次在傳統數據管理平臺基礎上采用“數據編織+知識圖譜”的理念進行變革設計。其中各個問題的突破點如下:

  • 問題1:基于數據編織思想進行設計
  • 問題2:基于知識圖譜思想進行設計
  • 問題3:基于統一的數據平臺對外提供服務

接下來是產品的詳細設計,從產品定位、應用架構、差異化競爭力和建設路徑展開介紹。

1. 產品架構

1)產品定位

以數據編織思想提供知識圖譜式的數據管理平臺,服務于需要高質量數據的客戶。

注:雖然主要目標是解決AI應用訓練的數據瓶頸,但是從產品規劃角度,我們將用戶場景擴大,但凡需要數據服務的都是該產品的目標用戶。

2)產品應用架構

從數據層到產品應用層,我們設計如下的產品架構:

數據層:支持接入不同種類數據類型,以及結構化數據和非結構化數據,AI訓練的數據類別較多,尤其是多模態應用更需要多種類型的數據。

存儲層:針對數據的離散性,要支持數據在不同位置的存儲,從云上數據到本地數據都需要支持接入。

數據管理平臺:本次需要設計的核心產品,主要包括四塊:

  1. 數據治理:傳統的數據管理平臺均具備的通用模塊,提供數據分析、清洗和規則定義等功能。
  2. 數據安全:同樣的屬于傳統模塊,提供跟數據安全相關的功能,如數據脫敏、數據安全傳輸等。
  3. 數據虛擬化存儲&分布式緩存:此處即是利用數據編織思想對來自不同平臺的數據進行網格化編織形成一張數據視圖,同時僅虛擬化存儲數據的邏輯信息,不做元數據的遷移和復制,降低存儲成本;但是為了能夠快速獲取數據,在設計中提供分布式緩存,將訪問頻繁的數據做緩存,提高AI算法訓練對數據的I/O速度和并行性,最大化提高算力集群效率。
  4. 知識圖譜:將清洗好的數據,定義好規則好,按照知識圖譜三元組的形式進行存儲,對外以知識圖譜的形式提供查詢服務,知識圖譜有利于進行搜索的推理,可以通過某個實體數據關聯到另一個實體數據,比如查詢電影視頻數據,可以搜索“人在囧途”,通過演員“王寶強”和“徐崢”就會關聯出“泰囧”,通過關聯推理查詢可以幫助用戶在平臺中快速抽取到所需數據。

數據服務:在設計完平臺后,需要預留出對外服務的出口,從產品的定位出發,以toB客戶為主,所以既要考慮可視化服務、也要提供API類的服務。

  • API/SDK服務:面向有技術能力的公司或者用戶,比如本文想解決的AI訓練應用瓶頸,就可以通過將AI平臺直接集成數據平臺的API服務,獲取需要的數據,將清洗好的數據用于模型訓練。注:一般AI訓練平臺需要標注后的數據,所以可以先將標注平臺接入,再直接數據傳輸給AI訓練平臺。
  • 可視化查詢:除了考慮技術層面對接,當然還要考慮業務用戶在平臺查詢數據,下載數據等行為,比如產品經理、運營經理,他們需要依賴平臺自身提供的可視化查詢,檢索并下載數據后,導入其他業務平臺進行加工生產,其中可視化查詢采用圖譜結構,以天眼查的樣式為參考,通過搜索某個數據,同時將關聯數據呈現,便于用戶推理查詢。

圖注:天眼查截圖僅用于學習參考

2. 商業化

產品一旦落地,商業化是不可獲取的,所以在產品規劃階段需要將商業化方向先考慮清楚,從以下3個關鍵方面考慮:

1)售賣內容

針對B端客戶,我們提供兩類售賣內容,包括“數據管理平臺”標品和“技術方案”。

  • 標品:面向無數據管理平臺的用戶,用戶只需要買入我們的標品,將數據接入,即可在業務中應用,做到即開即用。
  • 技術方案:經過數字化轉型大潮的影響,不少的B端企業客戶或多或少都會有自己的數據管理平臺,所以toB的另一個售賣點就是售賣成熟的技術方案,對企業現有的產品進行改造升級,此時,我們需要基于“數據編織+知識圖譜”設計思路對客戶產品從底層到服務層進行改造。

2)售賣方式

B端產品常見的兩種售賣模式“渠道合作”和“直銷”,在本產品中也采用這些方式。

  • 渠道合作:選中兩類渠道合作,一類是地市的代理,由他們在地方進行推廣;一類是ISV模式,找到有技術能力的總集代理,將數據管理平臺與他們的產品合作,可以優勢互補,對外一起推廣。
  • 直銷:通過舉辦產品發布會、廣告推廣、跑客戶等手段進行產品直接銷售。

3)差異化優勢

既然是基于新的設計思路打造的數據管理平臺,那么在產品銷售過程中,就需要體現出與傳統數據管理平臺的差異化優勢,才能后來居上,吸引用戶,我們可以概況為以下3個優勢點:

  • 數據編織:該產品是采用數據編織的思想進行數據管理,采用數據虛擬化存儲,降低數據物理存儲成本;同時 通過數據緩存的方式降低AI應用訓練時獲取數據的訪問時延。
  • AI能力:與傳統數據平臺通過各種條件檢索的方式不同,在本產品中直接通過知識圖譜視圖的形式呈現,用戶可以僅輸入某個簡單條件,系統即可返回相關的數據關系拓撲,實現“數據找人”。
  • 成熟標品:雖然可以賣技術方案,但是如果沒有成熟的標品終究不好打動客戶,所以與傳統廠商賣大而全的數據管理平臺不同,我們賣“小而精”的一站式智能數據管理平臺。

3. 建設路徑

產品的成熟還需要有持續的建設路徑,在本產品建設過程中,立足“項目打磨產品”,分兩個2個大的階段進行建設。

  • 項目交付,技術沉淀:通過承接1/2個私有化的數據類項目,在項目中沉淀數據編織和知識圖譜的建設思路,實現技術沉淀。
  • 產品落地,品牌推廣:從實際項目中抽象出產品,并迭代落地,帶產品建設后,做品牌化,并對外推廣。

五、結論

本文圍繞AI應用訓練的瓶頸展開敘述,對AI訓練難點進行總結并結合IDC分析報告,得出“數據”是最大瓶頸的結論,并針對該問題思考解決策略。

以數據編織和知識圖譜的理念進行產品變革設計,從產品定位、產品架構、應用場景等角度詳細介紹了一款“數據找人”的智能化數據管理平臺,同時還介紹了產品后續的商業推廣思路及建設路徑,對有數據應用場景的客戶,如AI訓練平臺,數據標注平臺,甚至是傳統數據管理產品需要改造升級的客戶可以提供幫助。

后續我們會進一步探索將數據編織的思路擴大到模型并行訓練的實際過程中,尋求更多的數據高效化的可行性。

專欄作家
Eric_d,人人都是產品經理專欄作家。關注AI、大數據等領域,擅長需求分析、產品流程和架構設計等,日常喜歡徒步。

本文為人人都是產品經理《原創激勵計劃》出品。

本文原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 考慮向量數據庫嘛兄弟

    來自北京 回復
    1. 謝謝提醒,這塊之前沒考慮到,更多考慮的Clickhouse,如果考慮某些業務場景,向量數據庫確實有優勢

      來自江蘇 回復