思考總結:領域知識圖譜平臺構建與業務應用【指北】
編輯導語:如今,領域圖譜的應用范圍非常廣泛,也有越來越多的企業、機構希望通過搭建領域知識圖譜,開發上層業務圖應用,實現智能分析決策。本篇文章詳細介紹了領域知識圖譜平臺的構建和應用,一起來看看。
一、圖譜平臺簡要介紹
領域圖譜的典型應用場景有國防、金融、公安、工業等。從行業滲透情況上看,領域知識圖譜最早用于公安、國防等政府部門,隨后在金融行業,如銀行、保險、基金等得到更大規模的應用,并逐漸拓展至能源、醫療、零售等行業。
知識圖譜可分為構建和應用兩大部分。
對于圖構建,主要用戶是企業信息化部門、科技部門的技術人員,但在實際的圖構建過程中需要與業務人員進行需求梳理與溝通;
對于圖應用,主要用戶是業務人員,與圖譜平臺在行業落地的應用場景相對應,例如銀行主要是風控、營銷、審計等業務的人員,公安是負責刑偵、經偵、緝毒等工作的人員。
1. 圖譜平臺搭建背景
當下市場環境,各領域、行業對于數據應用需求日漸強烈,越來越多的企業、機構計劃建立起數據之間的關聯,希望通過搭建領域知識圖譜,開發上層業務圖應用,實現智能分析決策。
在建設圖譜應用的過程中,會發現數據來源廣、規模大、標準不統一等一系列數據問題,伴隨業務場景構建復雜、變化快、建模難、復用性低等。此時,圖譜平臺作為一種領域圖譜構建及應用工具,其便捷性與提效降本能力顯現出來。
2. 圖譜平臺定義
圖譜平臺是基于企業內外部的海量多源異構數據,提供完整的圖譜構建與應用流程,實現數據抽取、數據融合、圖構建、圖可視化研判、圖計算、圖分析、圖挖掘、圖模式匹配等,并提供各類圖應用輸出方式以及圖業務場景,助力企業快速完成圖譜的一站式應用,深度挖掘數據之間的關聯價值,賦能數字化轉型。
圖譜平臺不僅僅是一個技術平臺(工具),應該有機集成各種圖譜技術,匯集各種知識,包括常識性知識與領域行業知識;良好的人機交互體驗,使平臺具備一定的流暢性與實用性;并且具備知識服務能力及多行業遷移能力。
3. 圖譜平臺建設目標
領域圖譜,面向某一行業或特定領域,用戶是業內相關人員,用來輔助復雜的分析或研判,支持應用與決策,對準確率、性能要求較高。因此,圖譜平臺要有完備的工具、便捷的操作和深度的應用性。
圖譜平臺的建設目標首先是降低圖譜的構建門檻,讓圖譜可以被普通客戶消費的起;沉淀圖譜技術與行業應用能力,快速構建知識圖譜并支撐各行業應用能力。
圖譜平臺的使命是促進知識圖譜的行業落地,因此,集成各種圖譜工具模塊,積累各行業本體和知識,積累各種應用經驗,提高圖譜構建效率,降低圖譜應用門檻。
領域圖譜平臺離開行業落地是沒有生命力的,平臺并非憑空設計,而是在實戰中不斷抽象、不斷完善,在行業應用中實現完美的技術與業務融合。
4. 圖譜平臺業務目標
搭建圖譜平臺,一方面,實現業務數據的一站式存儲、管理、查詢和挖掘,提高決策的準確性及完整性;另一方面,實現業務應用知識沉淀與前置,將圖譜理念輸入到業務策略中。
實現對多源異構數據的融合、轉換、計算與存儲,并基于知識圖譜平臺開發上層的業務應用。從功能規劃和應用設計上以金融風控為例,圖譜平臺一般提供兩方面能力:
- 一方面,為機構用戶提供企業統一視圖、智能關系查詢、負面輿情提醒等信息聚合類應用,以滿足業務發展中貸前背景調查、貸中授信審批、貸后動態監控等多場景風控需求。
- 另一方面,通過隱性集團派系識別、授信集中度統計、黑名單關聯等應用實現合規性風險的深度挖掘和集中展示,滿足穿透式監管的需要。
圖譜平臺實現外部數據與業務數據的融合,推出更多應用場景,包括企業信息查詢、關聯關系查詢、動態輿情監控、隱性集團授信集中度分析、異常擔保關系識別、黑名單關聯分析、擔保圈鏈識別、隱性資金鏈路等,助力實現數據價值深度挖掘。
通過建設圖譜平臺,實現自動信息整合與業務知識挖掘。
一方面,節省了在信息搜尋、梳理關系工作上耗費的人力及時間,實現業務工作的降本增效。
另一方面,加強數據洞察與數據價值變現,為業務決策提供有力的工具支持與策略指引。
二、領域圖譜平臺應用方法論
在圖譜平臺如何構建一個業務場景圖應用,以金融行業為例,進行簡要方法介紹。我們將整個步驟拆解成9個關鍵步驟,包括:業務理解、本體設計、關鍵數據分析、數模映射、數據入圖、圖可視化、圖分析/挖掘、圖指標/模型和圖輸出方式,接下來對該9個關鍵步驟進行詳細拆解。
1. 業務理解
首先確定主要使用的業務部門和業務目標,以及展示要求、性能要求、更新要求等等。若業務部門沒有相關經驗,則需要根據以往的經驗結合當前客戶的業務目標來引導對于圖應用的具體想法和思路。
有了圖應用的想法和思路便可分析現有數據情況,需要的數據內容、數據接入形式、數據來源、數據體量、數據更新機制和要求。
數據是一切之本,有了數據便可構思本體設計,設想所需的數據屬性、關系等計算需求,如:確定實體及屬性、關系及屬性、事件及屬性,確定計算哪些隱形屬性和關系,設計計算規則和策略。
2. 本體設計
本體設計是圖應用中的重中之重,一切的圖展示、圖計算、圖分析、圖挖掘、圖模式匹配的基礎在圖構建,而圖構建的核心是本體設計(本體設計的方法論本次不做過多贅述,后面單寫一篇)。
設計好本體,便可根據本體進行相應的實體抽取、關系抽取、事件抽取,實體抽取需確定實體的種類、實體的唯一標識、實體的普通屬性等,關系抽取需確定關系的種類、關系的主體和客體、關系的屬性等,事件抽取需要確定事件的種類、事件的主體和客體、事件的屬性等;此處所進行的本體均為后續的圖應用做準備,需全面、細致的考慮。
3. 關鍵數據分析
對于關鍵數據的分析直接決定圖應用的質量。因此,需要對數據的特征進行嚴格的分析,如:是否唯一標識、是否多值、是否空值、是否錯誤數據、是否標準統一、是否特殊字符等等;
評估完成數據特征就需要根據圖應用要求對數據進行加工,數據加工即清洗、融合、解析、識別、轉化等,對入圖數據的質量制定一個好的標準。
4. 數據映射
數據映射即將需要入圖的數據與本體進行一一對應,涉及表的映射、屬性字段的映射、字段的治理規則等,根據映射關系和治理規則自動或手動從原始數據治理成圖譜需要的數據格式,做好入圖前的準備。
5. 數據入圖
數據入圖就是將與本體映射完成的數據導入圖數據庫,此步驟需要對數據賦權、規定數據入圖的任務流、數據導入的方式、以及數據更新方式。
數據賦權即對數據源權限授權和管理;數據入圖任務流需要對ETL任務流進行設計、對任務事件進行管理,使數據按照既定策略進行任務執行;
數據導入方式,可對不同級別的數據進行不同的導入方式,小批量數據可進行頁面可視化導入,對于大批量數據進行接口批量導入,此處用作測試驗證和生產環境不同需求來定;
最后便是數據的更新方式,更新方式包含兩種即全量覆蓋更新和實時增量更新,導入方式與具體的業務強掛鉤,如實時反欺詐就需要實時增量更新,隱性集團派系識別可使用全量覆蓋,此處的更新方式不固定,以實際情況作為判斷依據。
6. 圖可視化
圖可視化是圖應用的重要組成部分,支撐圖展示、圖分析、圖研判,既然是圖可視化,就需要一些圖操作功能,例如:圖查詢、圖展開(圖查詢方式,單實體關系展開、單實體對多實體關系展開、批量實體關系展開、多實體對多實體關系展開)、實體類型外觀編輯、關系類型外觀編輯、屬性值高級篩選、屬性值高級過濾、圖查詢語句使用、圖圖示化分析工具欄、實時查詢計算、各種圖布局、時序分析、路徑分析、實體操作、地理空間分析、關系展開合并、2D&3D切換等等;
作為行業知識圖譜平臺,支撐行業場景庫的圖可視化也非常必要,如:反欺詐團伙展示、擔保圈、擔保鏈、企業集團關聯關系、資金網絡關系、組合風險傳導。
7. 圖分析/圖挖掘
圖分析圖挖掘以圖拓撲結構為基礎,再圖結合圖算法、業務場景策略、圖推理方式、圖計算引擎對圖特征及場景結果進行計算。常用的圖算法類型有:中心性衡量、節點特征發現、社團檢測、特殊結構發現、路徑查找等,結合具體的業務場景需求,對圖場景數據集進行計算;
業務場景挖掘需要結合業務識別經驗和業務識別規則,對圖場景進行分析挖掘,并對分析結果、挖掘結果進行展示,并且可在分析、挖掘結果的基礎上進行二次拓展,對嚴格滿足業務規則結果的入庫,對疑似滿足業務規則的進行結果人工研判。業務場景常用的也需要一些圖推理,如:描述邏輯推理、規則推理、以及分布式表示推理。
當然所有的圖計算、圖分析、圖挖掘都要在分析挖掘引擎之上進行,常用的計算引擎有兩類:實時計算引擎、批量計算引擎,此處不做過多贅述。大規模圖搜索、圖數據的代表節點評價、圖數據的社區劃分、圖數據的向量嵌入,基于圖的推薦、節點預測、關系預測等實際應用對圖計算引擎性能提出了更高的要求。
8. 圖指標/圖模型
對于圖的分析、挖掘離不開對應的業務指標和模型,例如事件規則庫、指標庫、畫像特征庫、模型庫以及圖模式匹配庫;以金融風控來說:
事件指標庫有識別規則、風險事件、預警規則、資金事件、關聯規則,指標庫有業務經營指標、關聯風險指標、擔保風險指標等;
畫像特征庫有社區畫像特征庫、擔保風險特征庫、關聯關系特征庫等;
模型庫有傳導路徑模型、預警模型、風險計量模型、風險事件傳染、圖譜特征分析、預警計算、風險傳導、中介度、風險擴散度、風險匯聚度、網絡影響度、風險大小分布、風險密度分布等。
還有一定程度的圖模式匹配需求,如:資金流轉鏈路、資金回流、隱性資金流轉線索,以及擔保圈中的循環型擔保、融資型擔保、平臺型擔保、循環擔保等等,并且可支持自定義的圖模式匹配
9. 圖輸出方式
按照如上的圖應用類型,圖譜平臺需要提供與之對應的輸出方式,向業務賦能;常用的圖譜平臺賦能方式可以總結為以下4種類型:
- 業務系統嵌入,把圖分析、圖挖掘結果嵌入到業務系統當中,當查詢到某一業務節點時,可打開對應業務場景的圖譜展示。
- 接口傳參調用,當業務系統有新增時通過接口傳入圖項目數據集當中進行實時計算或批量計算,計算完成后通過接口返回。
- 獨立平臺提供,圖譜平臺作為獨立的圖一體化平臺,提供圖構建、圖展示、圖分析、圖挖掘、圖推理等服務。
- 內部數據源,將各種圖數據指標、圖特征計算完成之后,推送至數倉、業務系統、決策引擎或其他業務系統等進行調用。
三、數據處理能力
1. 入圖數據處理能力
圖譜平臺跟大數據平臺一樣,需要處理各種格式的數據,對入圖數據進行加工。對于結構化數據,圖譜平臺跟大數據平臺有重合功能,區別在于,圖譜平臺需要通過本體來建立數模映射關系,并將數據庫數據以本體為標準集成形成知識網絡,數據庫則通過表結構對數據進行集成。
對非結構化數據,圖譜平臺與大數據平臺則有本質的差異。大數據平臺一般將文本、圖像、視頻等非結構化數據存入數據庫或加索引,通過關鍵詞檢索,一般有對文本的分類、聚類、打標簽、命名實體識別,但不具備或者具有比較弱的圖譜構建能力,最多基于圖數據庫做圖數據的導入。
圖譜平臺最好與大數據平臺進行隔離,形成高內聚低耦合的大數據平臺與圖譜平臺,圖譜平臺只進行入圖數據格式的處理及加工,大數據平臺對數據進行治理、統一標準,治理完成之后輸入圖譜平臺。
2. 非結構化數據處理能力
據IDC調查報告:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。據報道指出:平均只有1%-5%的數據是結構化的數據。
面向非結構化數據,提供易用的可視化標注模塊來滿足實體標注、實體關系標注、事件標注、實體屬性標注等多種標注任務,并盡可能地支持多人協同標注、以篇為維度的標注、以標注實體/關系/屬性類型的標注等多種標注形式是圖譜平臺不可獲缺的能力。
對于非結構化數據源,先進行基于本體約束的結構化抽取,形成三元組,然后再進行結構化映射。結構化數據的映射,自身已結構化,涉及到的抽取操作更多是工程和產品上的,需要考慮操作易用性、數據安全性和完備性。
非結構化數據接入模塊所體現出來的是極具門檻性的,“非結構化抽取能力”,即常說的“實體識別、實體關系抽取、事件要素、事件關系抽取”能力,包括抽取模型設計、抽取模型實施以及抽取模型評測等幾個方面。
非結構化數據,由于存在從非結構化到結構化的過程,是整個環節中最為關鍵的部分,這個部分是產生數據誤差、引入噪聲最有可能的一步,抽取規則選擇不當或者抽取模型性能達不到要求,后續步驟便很難走通。
四、圖譜平臺應用展望
1. 功能趨勢
起初,圖譜平臺偏向基礎圖構建、圖展示和圖研判,隨著業務應用的深入,業務人員發現圖展示和圖研判的路徑非常多,對于獲得正確結果的路徑很長,并且極有可能出錯。
這對于圖譜平臺的應用和大規模的推廣極其不利,因此,隨著應用的深入,圖譜平臺逐漸向智能化、簡單話方向探索,將業務策略、業務規則直接融入平臺,利用圖計算引擎,快速獲得結果,在圖挖掘、圖模式匹配等的基礎進行判定和二次研判。
此后,相信圖譜平臺智能化、便捷化、自動化的能力會越來越高。
2. 成本趨勢
當前的圖譜構建和應用高度依賴于人工,雖然圖譜平臺具備部分自動化構建功能,但為了同時保證效率、準確性以及可解釋性,主流的圖譜平臺構建和應用方式為人工和自動化的結合。
未來,隨著圖譜平臺的自動化程度越來越高,圖譜的構建和應用成本將大幅降低,依賴人工的程度也將降低,可大幅提高分析決策效率。
3. 行業趨勢
目前,各行業對知識圖譜平臺認可度的提高,圖譜平臺正在領域內拓展開來,目前公安、國防、金融、電商、團購、教育等行業依托圖譜實現業務的智能分析與決策。
未來圖譜將在醫療、能源、電力等更多知識密集型行業落地,發揮巨大價值,建設或購買圖譜平臺成為各行業實現智能分析與決策的重要環節,相信日后會有更多的行業應用案例和產品應用案例展露。
本文由 @阿拉燈神丁 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!