6個方面分析:知識圖譜的價值和應用

Amy
5 評論 88478 瀏覽 87 收藏 22 分鐘

知識對于人工智能的價值就在于,讓機器具備認知能力和理解能力。構(gòu)建知識圖譜這個過程的本質(zhì),就是讓機器形成認知能力,理解這個世界。

一、知識圖譜無處不在

說到人工智能技術(shù),人們首先會聯(lián)想到深度學習、機器學習技術(shù);談到人工智能應用,人們很可能會馬上想起語音助理、自動駕駛等等,各行各業(yè)都在研發(fā)底層技術(shù)和尋求AI場景,卻忽視了當下最時髦也很重要的AI技術(shù):知識圖譜。

當我們進行搜索時,搜索結(jié)果右側(cè)的聯(lián)想,來自于知識圖譜技術(shù)的應用。我們幾乎每天都會接收到各種各樣的推薦信息,從新聞、購物到吃飯、娛樂。

個性化推薦作為一種信息過濾的重要手段,可以依據(jù)我們的習慣和愛好推薦合適的服務,也來自于知識圖譜技術(shù)的應用。搜索、地圖、個性化推薦、互聯(lián)網(wǎng)、風控、銀行……越來越多的應用場景,都越來越依賴知識圖譜。

二、知識圖譜與人工智能的關系

知識圖譜用節(jié)點和關系所組成的圖譜,為真實世界的各個場景直觀地建模。通過不同知識的關聯(lián)性形成一個網(wǎng)狀的知識結(jié)構(gòu),對機器來說就是圖譜。

形成知識圖譜的過程本質(zhì)是在建立認知、理解世界、理解應用的行業(yè)或者說領域。每個人都有自己的知識面,或者說知識結(jié)構(gòu),本質(zhì)就是不同的知識圖譜。正是因為有獲取和形成知識的能力,人類才可以不斷進步。

知識圖譜對于人工智能的重要價值在于,知識是人工智能的基石。機器可以模仿人類的視覺、聽覺等感知能力,但這種感知能力不是人類的專屬,動物也具備感知能力,甚至某些感知能力比人類更強,比如:狗的嗅覺。

而“認知語言是人區(qū)別于其他動物的能力,同時,知識也使人不斷地進步,不斷地凝練、傳承知識,是推動人不斷進步的重要基礎?!?知識對于人工智能的價值就在于,讓機器具備認知能力。

而構(gòu)建知識圖譜這個過程的本質(zhì),就是讓機器形成認知能力,去理解這個世界。

三、圖數(shù)據(jù)庫

知識圖譜的圖存儲在圖數(shù)據(jù)庫(Graph Database)中,圖數(shù)據(jù)庫以圖論為理論基礎,圖論中圖的基本元素是節(jié)點和邊,在圖數(shù)據(jù)庫中對應的就是節(jié)點和關系。用節(jié)點和關系所組成的圖,為真實世界直觀地建模,支持百億量級甚至千億量級規(guī)模的巨型圖的高效關系運算和復雜關系分析。

目前市面上較為流行的圖數(shù)據(jù)庫有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于關系型數(shù)據(jù)庫,一修改便容易“牽一發(fā)而動全身”圖數(shù)據(jù)庫可實現(xiàn)數(shù)據(jù)間的“互聯(lián)互通”,與傳統(tǒng)的關系型數(shù)據(jù)庫相比,圖數(shù)據(jù)庫更擅長建立復雜的關系網(wǎng)絡。

圖數(shù)據(jù)庫將原本沒有聯(lián)系的數(shù)據(jù)連通,將離散的數(shù)據(jù)整合在一起,從而提供更有價值的決策支持。

四、知識圖譜的價值

知識圖譜用節(jié)點和關系所組成的圖譜,為真實世界的各個場景直觀地建模,運用“圖”這種基礎性、通用性的“語言”,“高保真”地表達這個多姿多彩世界的各種關系,并且非常直觀、自然、直接和高效,不需要中間過程的轉(zhuǎn)換和處理——這種中間過程的轉(zhuǎn)換和處理,往往把問題復雜化,或者遺漏掉很多有價值的信息。

在風控領域中,知識圖譜產(chǎn)品為精準揭露“欺詐環(huán)”、“窩案”、“中介造假”、“洗錢”和其他復雜的欺詐手法,提供了新的方法和工具。盡管沒有完美的反欺詐措施,但通過超越單個數(shù)據(jù)點并讓多個節(jié)點進行聯(lián)系,仍能發(fā)現(xiàn)一些隱藏信息,找到欺詐者的漏洞,通常這些看似正常不過的聯(lián)系(關系),常常被我們忽視,但又是最有價值的反欺詐線索和風險突破口。

盡管各個風險場景的業(yè)務風險不同,其欺詐方式也不同,但都有一個非常重要的共同點——欺詐依賴于信息不對稱和間接層,且它們可以通過知識圖譜的關聯(lián)分析被揭示出來,高級欺詐也難以“隱身”。

凡是有關系的地方都可以用到知識圖譜,事實上,知識圖譜已經(jīng)成功俘獲了大量客戶,且客戶數(shù)量和應用領域還在不斷增長中,包括沃爾瑪、領英、阿迪達斯、惠普、FT金融時報等知名企業(yè)和機構(gòu)。

目前知識圖譜產(chǎn)品的客戶行業(yè),分類主要集中在:社交網(wǎng)絡、人力資源與招聘、金融、保險、零售、廣告、物流、通信、IT、制造業(yè)、傳媒、醫(yī)療、電子商務和物流等領域。在風控領域中,知識圖譜類產(chǎn)品主要應用于反欺詐、反洗錢、互聯(lián)網(wǎng)授信、保險欺詐、銀行欺詐、電商欺詐、項目審計作假、企業(yè)關系分析、罪犯追蹤等場景中。

那相比傳統(tǒng)數(shù)據(jù)存儲和計算方式,知識圖譜的優(yōu)勢顯現(xiàn)在哪里呢?

(1)關系的表達能力強

傳統(tǒng)數(shù)據(jù)庫通常通過表格、字段等方式進行讀取,而關系的層級及表達方式多種多樣,且基于圖論和概率圖模型,可以處理復雜多樣的關聯(lián)分析,滿足企業(yè)各種角色關系的分析和管理需要。

(2)像人類思考一樣去做分析

基于知識圖譜的交互探索式分析,可以模擬人的思考過程去發(fā)現(xiàn)、求證、推理,業(yè)務人員自己就可以完成全部過程,不需要專業(yè)人員的協(xié)助。

(3)知識學習

利用交互式機器學習技術(shù),支持根據(jù)推理、糾錯、標注等交互動作的學習功能,不斷沉淀知識邏輯和模型,提高系統(tǒng)智能性,將知識沉淀在企業(yè)內(nèi)部,降低對經(jīng)驗的依賴。

(4)高速反饋

圖式的數(shù)據(jù)存儲方式,相比傳統(tǒng)存儲方式,數(shù)據(jù)調(diào)取速度更快,圖庫可計算超過百萬潛在的實體的屬性分布,可實現(xiàn)秒級返回結(jié)果,真正實現(xiàn)人機互動的實時響應,讓用戶可以做到即時決策。

五、知識圖譜的主要技術(shù)

5.1 知識建模

知識建模,即為知識和數(shù)據(jù)進行抽象建模,主要包括以下5個步驟:

  1. 以節(jié)點為主體目標,實現(xiàn)對不同來源的數(shù)據(jù)進行映射與合并。(確定節(jié)點)
  2. 利用屬性來表示不同數(shù)據(jù)源中針對節(jié)點的描述,形成對節(jié)點的全方位描述。(確定節(jié)點屬性、標簽)
  3. 利用關系來描述各類抽象建模成節(jié)點的數(shù)據(jù)之間的關聯(lián)關系,從而支持關聯(lián)分析。(圖設計)
  4. 通過節(jié)點鏈接技術(shù),實現(xiàn)圍繞節(jié)點的多種類型數(shù)據(jù)的關聯(lián)存儲。(節(jié)點鏈接)
  5. 使用事件機制描述客觀世界中動態(tài)發(fā)展,體現(xiàn)事件與節(jié)點間的關聯(lián),并利用時序描述事件的發(fā)展狀況。(動態(tài)事件描述)

5.2 知識獲取

從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進行知識提取,形成知識存入到知識圖譜,這一過程我們稱為知識獲取。針對不同種類的數(shù)據(jù),我們會利用不同的技術(shù)進行提取。

從結(jié)構(gòu)化數(shù)據(jù)庫中獲取知識:D2R。

難點:復雜表數(shù)據(jù)的處理。

從鏈接數(shù)據(jù)中獲取知識:圖映射。

難點:數(shù)據(jù)對齊。

從半結(jié)構(gòu)化(網(wǎng)站)數(shù)據(jù)中獲取知識:使用包裝器。

難點:方便的包裝器定義方法,包裝器自動生成、更新與維護。

從文本中獲取知識:信息抽取。

難點:結(jié)果的準確率與覆蓋率。

5.3 知識融合

如果知識圖譜的數(shù)據(jù)源來自不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)源,在系統(tǒng)已經(jīng)從不同的數(shù)據(jù)源把不同結(jié)構(gòu)的數(shù)據(jù)提取知識之后,接下來要做的是把它們?nèi)诤铣梢粋€統(tǒng)一的知識圖譜,這時候需要用到知識融合的技術(shù)(如果知識圖譜的數(shù)據(jù)結(jié)構(gòu)均為結(jié)構(gòu)化數(shù)據(jù),或某種單一模式的數(shù)據(jù)結(jié)構(gòu),則無需用到知識融合技術(shù))。

知識融合主要分為數(shù)據(jù)模式層融合和數(shù)據(jù)層融合,分別用的技術(shù)如下:

  1. 數(shù)據(jù)模式層融合:概念合并、概念上下位關系合并、概念的屬性定義合并。
  2. 數(shù)據(jù)層融合:節(jié)點合并、節(jié)點屬性融合、沖突檢測與解決(如某一節(jié)點的數(shù)據(jù)來源有:豆瓣短文、數(shù)據(jù)庫、網(wǎng)頁爬蟲等,需要將不同數(shù)據(jù)來源的同一節(jié)點進行數(shù)據(jù)層的融合)。

由于行業(yè)知識圖譜的數(shù)據(jù)模式通常采用自頂向下(由專家創(chuàng)建)和自底向上(從現(xiàn)有的行業(yè)標準轉(zhuǎn)化,從現(xiàn)有高質(zhì)量數(shù)據(jù)源(如百科)轉(zhuǎn)化)結(jié)合的方式,在模式層基本都經(jīng)過人工的校驗,保證了可靠性,因此,知識融合的關鍵任務在數(shù)據(jù)層的融合。

5.4 知識存儲

圖譜的數(shù)據(jù)存儲既需要完成基本的數(shù)據(jù)存儲,同時也要能支持上層的知識推理、知識快速查詢、圖實時計算等應用,因此需要存儲以下信息:三元組(由開始節(jié)點、關系、結(jié)束節(jié)點三個元素組成)知識的存儲、事件信息的存儲、時態(tài)信息的存儲、使用知識圖譜組織的數(shù)據(jù)的存儲。

其關鍵技術(shù)和難點就在于:

  1. 大規(guī)模三元組數(shù)據(jù)的存儲;
  2. 知識圖譜組織的大數(shù)據(jù)的存儲;
  3. 事件與時態(tài)信息的存儲;
  4. 快速推理與圖計算的支持。

5.5 知識計算

知識計算主要是在知識圖譜中知識和數(shù)據(jù)的基礎上,通過各種算法,發(fā)現(xiàn)其中顯式的或隱含的知識、模式或規(guī)則等,知識計算的范疇非常大,這里主要講三個方面:

  1. 圖挖掘計算:基于圖論的相關算法,實現(xiàn)對圖譜的探索和挖掘。
  2. 本體推理:使用本體推理進行新知識發(fā)現(xiàn)或沖突檢測。
  3. 基于規(guī)則的推理:使用規(guī)則引擎,編寫相應的業(yè)務規(guī)則,通過推理輔助業(yè)務決策。

5.6 圖挖掘和圖計算

知識圖譜之上的圖挖掘和計算主要分以下6類:

  • 第一是圖遍歷,知識圖譜構(gòu)建完之后可以理解為是一張很大的圖,怎么去查詢遍歷這個圖,要根據(jù)圖的特點和應用的場景進行遍歷;
  • 第二是圖里面經(jīng)典的算法,如最短路徑;
  • 第三是路徑的探尋,即給定兩個實體或多個實體去發(fā)現(xiàn)他們之間的關系;
  • 第四是權(quán)威節(jié)點的分析,這在社交網(wǎng)絡分析中用的比較多;
  • 第五是族群分析;
  • 第六是相似節(jié)點的發(fā)現(xiàn)。

5.7 可視化技術(shù)

目前兩個比較常見的可視化工具是:D3.js和ECharts。

  • D3.js:全稱Data-Driven Documents,是一個用動態(tài)圖形顯示數(shù)據(jù)的JavaScript庫,一個數(shù)據(jù)可視化工具,它提供了各種簡單易用的函數(shù),大大方便了數(shù)據(jù)可視化的工作。
  • ECharts:是一款由百度前端技術(shù)部開發(fā)的,同樣基于Javascript的數(shù)據(jù)可視化圖標庫。它提供大量常用的數(shù)據(jù)可視化圖表,底層基于ZRender(一個全新的輕量級canvas類庫),創(chuàng)建了坐標系、圖例、提示、工具箱等基礎組件,并在此上構(gòu)建出折線圖(區(qū)域圖)、柱狀圖(條狀圖)、散點圖(氣泡圖)、餅圖(環(huán)形圖)、K線圖、地圖、力導向布局圖以及和弦圖,同時支持任意維度的堆積和多圖表混合展現(xiàn)。

六、知識圖譜的應用

知識圖譜的應用場景很多,除了問答、搜索和個性化推薦外,在不同行業(yè)不同領域也有廣泛應用,以下列舉幾個目前比較常見的應用場景。

6.1 信用卡申請反欺詐圖譜

6.1.1 欺詐手法

銀行信用卡的申請欺詐包括個人欺詐、團伙欺詐、中介包裝、偽冒資料等,是指申請者使用本人身份或他人身份或編造、偽造虛假身份進行申請信用卡、申請貸款、透支欺詐等欺詐行為。

欺詐者一般會共用合法聯(lián)系人的一部分信息,如電話號碼、聯(lián)系地址、聯(lián)系人手機號等,并通過它們的不同組合創(chuàng)建多個合成身份。比如:3個人僅通過共用電話和地址兩個信息,可以合成9個假名身份,每個合成身份假設有5個賬戶,總共約45個賬戶。假設每個賬戶的信用等級為20000元,那么銀行的損失可能高達900000元。

由于擁有共用的信息,欺詐者通過這些信息構(gòu)成欺詐環(huán)。

一開始,欺詐環(huán)中的賬戶使用正常,欺詐者會進行正常的購買、支付和還款行為,這種行為稱為“養(yǎng)卡”?!梆B(yǎng)卡”了一段時間后,信用額度會有所增加,隨著時間推移會增長到一個讓欺詐者相對“滿意”的額度。

突然有一天欺詐環(huán)“消失”了,環(huán)內(nèi)成員都最大化地使用完信用額度后跑路了。

6.1.2 知識圖譜解決信用卡申請反欺詐問題

使用傳統(tǒng)的關系數(shù)據(jù)庫,來揭露欺詐環(huán)需要技術(shù)人員執(zhí)行一系列的復雜連接和自連接,而且查詢構(gòu)建起來非常復雜,查詢效率低、速度慢且成本高。

知識圖譜產(chǎn)品利用圖數(shù)據(jù)庫的天然優(yōu)勢,直接將銀行欺詐環(huán)節(jié)可能涉及的所有有用的數(shù)據(jù)字段:如申請?zhí)?、賬戶、身份證、手機、地址、家庭電話、聯(lián)系人、設備指紋等設計成圖譜的節(jié)點,定義好圖譜所需的所有節(jié)點和節(jié)點屬性后,定義兩兩節(jié)點間的關系。

如:申請?zhí)柟?jié)點與設備指紋節(jié)點相連構(gòu)成“申請設備”關系,人節(jié)點與地址節(jié)點相連構(gòu)成“申請人地址”關系。

根據(jù)業(yè)務上設計好的圖譜進行建圖,建圖后,用戶可以直接在關聯(lián)圖譜平臺上,輸入某個節(jié)點值查詢節(jié)點的關聯(lián)信息,如:輸入某個黑手機號,看其關聯(lián)5層范圍內(nèi)的涉及到的申請人信息,看該節(jié)點是否與其他節(jié)點關聯(lián)成欺詐環(huán),看節(jié)點與歷史的黑節(jié)點間是否有過關聯(lián)等等。

用戶可借助知識圖譜產(chǎn)品,在貸前防御風險,貸中進行關聯(lián)分析找出可疑點,控制風險,貸后進行風險把關,讓損失降到最低。

6.2 企業(yè)知識圖譜

目前金融證券領域,應用主要側(cè)重于企業(yè)知識圖譜。企業(yè)數(shù)據(jù)包括:企業(yè)基礎數(shù)據(jù)、投資關系、任職關系、企業(yè)專利數(shù)據(jù)、企業(yè)招投標數(shù)據(jù)、企業(yè)招聘數(shù)據(jù)、企業(yè)訴訟數(shù)據(jù)、企業(yè)失信數(shù)據(jù)、企業(yè)新聞數(shù)據(jù)等。

利用知識圖譜融合以上企業(yè)數(shù)據(jù),可以構(gòu)建企業(yè)知識圖譜,并在企業(yè)知識圖譜之上利用圖譜的特性,針對金融業(yè)務場景有一系列的圖譜應用,舉例如下:

(1)企業(yè)風險評估

基于企業(yè)的基礎信息、投資關系、訴訟、失信等多維度關聯(lián)數(shù)據(jù),利用圖計算等方法構(gòu)建科學、嚴謹?shù)钠髽I(yè)風險評估體系,有效規(guī)避潛在的經(jīng)營風險與資金風險。

(2)企業(yè)社交圖譜查詢

基于投資、任職、專利、招投標、涉訴關系以目標企業(yè)為核心向外層層擴散,形成一個網(wǎng)絡關系圖,直觀立體展現(xiàn)企業(yè)關聯(lián)。

(3)企業(yè)最終控制人查詢

基于股權(quán)投資關系尋找持股比例最大的股東,最終追溯至某自然人或國有資產(chǎn)管理部門。

(4)企業(yè)之間路徑發(fā)現(xiàn)

在基于股權(quán)、任職、專利、招投標、涉訴等關系形成的網(wǎng)絡關系中,查詢企業(yè)之間的最短關系路徑,衡量企業(yè)之間的聯(lián)系密切度。

(5)初創(chuàng)企業(yè)融資發(fā)展歷程

基于企業(yè)知識圖譜中的投融資事件發(fā)生的時間順序,記錄企業(yè)的融資發(fā)展歷程。

(6)上市企業(yè)智能問答

用戶可以通過輸入自然語言問題,系統(tǒng)直接給出用戶想要的答案。

6.3 交易知識圖譜

金融交易知識圖譜在企業(yè)知識圖譜之上,增加交易客戶數(shù)據(jù)、客戶之間的關系數(shù)據(jù)以及交易行為數(shù)據(jù)等,利用圖挖掘技術(shù),包括很多業(yè)務相關的規(guī)則,來分析實體與實體之間的關聯(lián)關系,最終形成金融領域的交易知識圖譜。

在銀行交易反欺詐方面,可以從從身份證,手機號、設備指紋、IP等多重維度對持卡人的歷史交易信息進行自動化關聯(lián)分析,關聯(lián)分析出可疑人員和可疑交易。

6.4 反洗錢知識圖譜

對于反洗錢或電信詐騙場景,知識圖譜可精準追蹤卡卡間的交易路徑,從源頭的賬戶/卡號/商戶等關聯(lián)至最后收款方,識別洗錢/套現(xiàn)路徑和可疑人員,并通過可疑人員的交易軌跡,層層關聯(lián),分析得到更多可疑人員、賬戶、商戶或卡號等實體。

6.5 信貸/消費貸知識圖譜

對于互聯(lián)網(wǎng)信貸、消費貸、小額現(xiàn)金貸等場景,知識圖譜可從身份證、手機號、緊急聯(lián)系人手機號、設備指紋、家庭地址、辦公地址、IP等多重維度對申請人的申請信息,進行自動化關聯(lián)分析,通過關系關系并結(jié)合規(guī)則,識別圖中異常信息,有效判別申請人信息真實性和可靠性。

6.6 內(nèi)控知識圖譜

在內(nèi)控場景的經(jīng)典案例里,中介人員通過制造或利用對方信息的不對稱,將企業(yè)存款從銀行偷偷轉(zhuǎn)移,在企業(yè)負責人不知情的情況下,中介已把企業(yè)存在銀行的全部存款轉(zhuǎn)移并消失不見。通過建立企業(yè)知識圖譜,可將信息實時互通,發(fā)現(xiàn)一些隱藏信息,尋找欺詐漏洞,找出資金流向。

相關閱讀

什么是關聯(lián)圖譜?

 

作者:Amy,公眾號:Amy的風控產(chǎn)品記(Amy_fkcpj),旨在與同行交流關聯(lián)圖譜(知識圖譜)和風控領域產(chǎn)品。

本文由 @Amy 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 公眾號搜不到

    來自北京 回復
    1. 公眾號是 惜時mulan ,可惜文章跟這里的一樣。。

      來自廣東 回復
  2. 請問怎么轉(zhuǎn)行知識圖譜產(chǎn)品經(jīng)理啊

    回復
    1. 需要對圖技術(shù)比較了解哈 可以閱讀相關書籍再考慮是否真正感興趣

      回復
  3. 好厲害

    回復