GPT奇點賦能大數據行業,不只是寫SQL還有……——以數據全生命周期視角為例
2023年,超級大模型GPT3、GPT4熱浪席卷全球,它的出現,為數字化建設領域帶來了一次“重生”的契機。當“類人思考”出現后,哪些可以被“加速”、被“繞過”、被“替代”呢?本文作者圍繞數據場景下的GPT應用,做了詳細的拆解,一起來看一下吧。
1995年,尼古拉斯·尼葛洛龐帝宣布“數字化時代已經到來”,隨之而來的是,數字化成為各行業大力投入建設的基礎設施。其中,以互聯網為代表的天生具有數字化屬性的行業,一直是引領技術創新的風向標,這就包括應用人工智能技術(AI)——超級工具為各行各業提高生產效率和效能。數據與AI之間,是互為促進,相輔相成,有機融合的關系。
當時間來到2023年,超級大模型GPT3、GPT4熱浪席卷全球(Generative Pre-Trained Transformer,即生成式預訓練Transfomer模型,是一種基于互聯網的、可用數據來訓練的、文本生成的深度學習模型,可以在海量通用數據上進行預先訓練,能大幅提升AI的泛化性、通用性、實用性)。
它的出現,為數字化建設領域,帶來了一次“重生”的契機,作為從業者的我們嘗試應用GPT4等AGI能力,為企業內部的數字化建設做一次“刷新”,當“類人思考”出現后,哪些可以被“加速”、被“繞過”、被“替代”。截止目前,已有GPT的49種應用,其中兩項是跟數據場景有關。下面,我們將圍繞數據場景下的GPT應用,做更細粒度的拆解。
一、數據的生命周期
1. 用數據時,遇到的問題
業務高速發展帶動數據需求高漲,這與數據部門的應接能力之間存在博弈,這是擺在非天生數字化屬性的行業的一道難題。理想中,業務需要的數據都有,都能找到,可以支持各種維度的解析和創新。而現實是,能用的數據有限(A),很多已經建設出來的數據,大家不認識,不敢用(B),多個雷同數據存在使得校對該用哪一個耗時耗力。很多沉睡數據,已經過時,占用著存儲空間(D),使得數據存儲成本連年上漲。缺失重要數據,需要排期開發(C)。
2. 數據生命周期
數據產生于業務各環節中,部分在online的業務系統中,另一部分散落在offline(比如,工廠),要將散落在各處的數據做好采集(人工錄入、掃碼、RFID),確保必要數據進入業務數據庫中。之后,針對想做分析的數據,可以放入大數據平臺的數倉中,通過數據集成工具,將結構化、非結構化多源異構數據匯聚到ODS層。根據數據建模方法,數據開發工程師做DWD和DWS層的加工建設,供業務的數據分析師使用(ADS層),做報表、配看板、提數等。
為進一步提高數據消費效率,通過復用數據API的模式打通最后一公里,降低各系統分別對接的成本。針對一次性,或者長期不用的冷僵數據,做歸檔和刪除處理,騰出寶貴的存儲空間和計算資源。這套大數據平臺,涉及平臺管理能力,以及資產管理模塊。而數據治理則橫跨業務系統到數據平臺的全生命周期中。
3. 人、貨(數據)、場
大數據環境下的人貨場,跟電商場景中的人貨場有兩點相似,其一,都需要一個存儲貨物的地方——“倉庫”。大數據環境下叫數據倉庫。其二,都需要傳輸,大數據環境下叫“加工”。與實體的貨物相比,數據具有兩個特殊的屬性,使得,它的存儲和運輸,要比電商場景更為復雜。這兩個屬性是,“權限等級”、“體積變化”。
數據有等級之分,高敏感的數據,需要做更嚴格的權限管控,以確保消費安全。體積變化,是指經過一系列的加工(刪除delete、drop、修改alter、增加insert、創建create等),數據的整體體積會發生變化(變大or變?。?。這使得存儲or加工計算都需要具備彈性的能力,能包容、承托住數據的這些變化。貨物的流通VS數據的流通,使得我們還要考慮繼承的問題,跨系統的繼承、權限繼承、表/字段血緣繼承。這些因素,使得虛擬場景下的“人、數、場”比實體中的“人、貨、場”更為復雜。
基于上章節提及的數據生命周期,我們拆解了每個環節中,人是誰,在做什么事兒,繼而數據會發生怎樣的變化(體積變大變小,定義更迭)。為了更為清晰的展示這些環節中人的角色,我們將他們逐一做了定義,共9個角色,1數據生產方、2數據擁有者(將數據采集到業務數據庫中)、3數據消費方(想用數據作分析,接入數倉)、4數據開發工程師、5數據分析師、6終端的小白用戶。過程中,在數倉范圍內,有7資產管理者,有8大數據平臺的開發者和管理員。在整個數據生命周期范圍內,有9數據治理專家。每個角色,都有其要執行的動作,均簡要繪制在圖上,具體不再贅述。
數據方面,圖中標注了離線和實時兩種數倉結構,具體的數倉介紹,網絡上各種專家分享,內容翔實且精彩,不再贅述。
二、GPT介入后數據生命周期發生的變化
【前提】GPT打通大數據平臺的數倉(即要添加企業專有知識 ,才能提升準確度,讓GPT在企業內部用起來,提醒,這些信息數據的交換要在安全允許的范圍內進行),以獲取準確的元數據信息,這樣在用戶輸入自然語言時,GPT能懂,并返回符合企業數據結構特征的結果。其次,GPT還具有coding的能力,所以當它跟企業內部各個系統打通后,還可以擴展能力,代替人,執行某些既定操作。下面,我們以大數據環境中,6個常見環節,GPT是如何輔助人類的逐一做拆解。
1. 數據集成(聚)
GPT協助提效ETL:
- Extract-Transform-Load:抽?。╡xtract)轉換(transform)加載(load)
- 目前的ETL工具較成熟(如:Kettle、Datastage、Informatica),數據開發人員可以通過輸入和點擊關鍵信息,自動生成調度任務,對于沒有ETL工具的公司需要使用GPT。
2. 數據開發&建模(養)
1)GPT代寫SQL做數據建模和開發
【前提】將表的元數據信息導給 ElasticSearch,結合 GPT 與 ElasticSearch 服務,提高 SQL 生成結果的準確性。
2)GPT代為配置數據質量監控告警
【前提】GPT跟數據質量模塊、調度模塊、email、飛書等系統打通。
- 第一步: 輸入文字,讓GPT找到目標表(支持一次訪問多張表);
- 第二步:頁面呈現目標表(表頭、部分數據),確認準確;
- 第三步:輸入文字,針對這些表,計算,比過往12個月自身波動絕對值最大值還高的指標,高亮標識出來,并給出字段名稱;
- 第四步:輸入文字,針對這些指標,做日常監控,計算超過比例,針對波動率大于等于5%的指標(基于經驗,大于歷史1年波動絕對值最大值超過5%的,判定為數據異常),email通知該表開發負責人、下游任務創建者、消費方,某些指標可能出現異常,請關注;
【結論】GPT介入后,可以不做前端質量規則配置平臺,并節約配置質量規則的人力投入。
3. 資產管理(治)
GPT代做冷僵數據歸檔和刪除:
【前提】GPT跟調度模塊、資產管理模塊、email、飛書等系統打通。
- 第一步:輸入文字,找到半年以上冷僵數據(未有動銷,讀、寫、查詢過的表);
- 第二步:輸入文字,確認這些表,是否有配置跑批任務;
- 第三步:輸入文字,讓GPT給這些表的創建者發送email郵件or飛書提醒,一周后,將自動刪除這些冷僵數據,若需要保留,請盡快跟資產治理管理員取得聯系(此為舉例,實際工作中,細節落實時,會更復雜些);
- 第四步:輸入文字,讓GPT執行刪除冷僵數據的操作;
【結論】GPT介入后,可以不做前端冷僵數據歸檔和刪除平臺,可以節約配置冷僵數據定時刪除規則的人力投入。
4. 平臺管理(管)
GPT代建權限申請流程:
【前提】GPT跟低代碼流程中心、大數據權限管理模塊打通。
- 第一步:當人們通過輸入文字,問GPT,尋找某張表時,看過元數據信息,確保是目標表,此時,若用戶沒有權限,可以請GPT幫忙做權限申請;
- 第二步:GPT根據該表的敏感等級,及審批要求。向申請人的直屬老板、表的開發負責人、業務負責人、安全管理員逐層發起申請,過程中,某個環節可隨時增加審批節點;
- 第三步:審批結束后,是通過還是駁回,GPT都會通過飛書oremail,or站內,GPT與人的交互端口,即時向申請者反饋信息;
【結論】GPT介入后,可以不做繁雜的定制化的權限審批流程,可以由安全與業務同學達成一致后,給GPT輸入自然語言,形成審批流,以此節約研發人力投入。
5. 數據分析(用)
GPT代做“自助提數”:
【前提】1、與權限(行列權限和加解密),安全審計能力打通。2、打通元數據,確保GPT生成SQL時,對表、字段的描述跟數倉保持一致,可以直接使用。
第一步:輸入文字,找目標表(支持一次訪問多張表)?!袄缥蚁氩樵傾表,在P條件下的x、y、z字段,可以直接輸出SQL語句。當然,經過預訓練,或者在數據源僅有一張表的情況下,描述話語甚至可以更加簡略。在訓練輸入了多張表結構后,也可以支持關聯分析?!?/p>
第二步:嘗試在原有SQL的基礎上修改一些條件“保留23年第一季度的結果”。
第三步:嘗試增刪改查表或者對表中數據進行更新“幫我把價格表中的用戶單價上調10%”。
第四步:嘗試,將SQL翻譯為自然語言,以助于幫助了解SQL。
備注:以上是以EverSQL產品舉例。
雖然GPT能快速撰寫高質量的SQL,但是對于不能接受任何誤差的數據場景,準確理解業務需求,并關聯到所需的表和字段,需要一定的預訓練以提高準確度??焖儆柧欸PT提升特定場景匹配能力,會成為分析師核心競爭力之一。
【結論】GPT介入后,可以不做自助提數的前端平臺,特別是拖拉拽的平臺,直接用SQL取數能力即可,可以降低寫SQL的門檻,可以節約用SQL配置模版的人力投入。針對復用場景,直接將“prompt”保存下來,只要有權限訪問,即可復用。
6. BI看板(用)
GPT生成“圖表”:
【前提】GTP跟圖表生成工具打通。
- 第一步:同2.1第一步
- 第二步:同2.1第二步
- 第三步:輸入文字,告知要哪些行、哪些列,生成柱狀、餅狀、折線圖等
【結論】GPT介入后,快速支撐業務的臨時性看板需求(自助),可以節約數據分析師配置看板人力投入(只做長期高頻BI看板,針對臨時性的業務需求,特別是緊急的,無需排隊等待,業務小白可以讓GPT制作)。
7. 業務應用(用)
- GPT支持搜索
- 元數據查詢
- 數據查找
- 找圖、找表
【結論】GPT介入后,后續甚至是語音輸入,即可,無需碼字,在移動端調取數據會更加方便,很適合銷售門店等offline無PC電腦的場景。
基于以上建設,大數據場景下向數字孿生方向的發展加快了步伐。美國國防部、微軟在工業化等數字孿生場景中(模型建設、場景設計),均引入生成式AI。智能問答、語音交互獲取數據將會實現。
受作者領域認知深度所限,及技術無時無刻不在更新迭代,業界對GPT、AutoGPT、AGI、即時AI……的衍生應用必定是珠零錦粲。無法在一篇中盡現全貌,未來可能會徹底推翻當下的種種嘗試而不得知。能為大家帶去一點點新的啟發,以深感欣慰。文中難免有紕漏或不準確的地方,歡迎大家批評指正。撰寫中參考網絡上各位同仁的最新觀點,拿來主義為打招呼,還望見諒。若有任何建議或意見,歡迎聯系作者探討。
關鍵詞:Chat GPT、生成式AI、AIGC、LLM、AGI、SQL、大數據、數據開發、數據建模、自助取數
參考資料:
https://baike.baidu.com/item/GPT/62908731?fromModule=lemma_search-box
https://baijiahao.baidu.com/s?id=1761984800865030846&wfr=spider&for=pc
作者:shucay,佳琪,童,alan,伯敖
本文由@shucay 授權發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
寫的不錯。有思維高度。辛苦了