知識圖譜是什么?
知識圖譜最開始是Google為了優化搜索引擎提出來的,推出之后引起了業界轟動,隨后其他搜索公司也紛紛推出了他們的知識圖譜。知識圖譜發展到今天,不僅是應用在搜索行業,已經是AI的基礎功能了。那到底知識圖譜是什么?有什么能力?怎么應用?這就是本文想要討論的內容。
01 什么是知識圖譜
1. 定義
官方定義:知識圖譜是一種基于圖的數據結構,由節點(point)和邊(Edge)組成,每個節點表示一個“實體”,每條邊為實體與實體之間的“關系”,知識圖譜本質上是語義網絡。
實體指的可以是現實世界中的事物,比如人、地名、公司、電話、動物等;關系則用來表達不同實體之間的某種聯系。
由上圖,可以看到實體有地名和人;大理屬于云南、小明住在大理、小明和小秦是朋友,這些都是實體與實體之間的關系。
通俗定義:知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關系網絡,因此知識圖譜提供了從“關系”的角度去分析問題的能力。
2. 可視化表現
如果我們在百度搜索“周杰倫的老婆”的時候,搜索結果不是周杰倫,而是直接返回了昆凌的信息卡片,為什么呢?
因為底層知識圖譜已經有了周杰倫和昆凌是夫妻關系,所以可以理解到你要找的是昆凌,而不是周杰倫,這也說明了知識圖譜有理解用戶意圖的能力。
02 知識圖譜構建的關鍵技術
知識圖譜構建的過程中,最主要的一個步驟就是把數據從不同的數據源中抽取出來,然后按一定的規則加入到知識圖譜中,這個過程我們稱為知識抽取。
數據源的分為兩種:結構化的數據和非結構化的數據。
結構化的數據是比較好處理的,難點在于處理非結構化的數據。而處理非結構化數據通常需要使用自然語言處理技術:實體命名識別、關系抽取、實體統一、指代消解等。
我們先來看下把這段文字變成知識圖譜的方式表達的結果:
上圖左邊的文案就是一個非結構化的文本數據,就需要經過一系列的技術處理,才能轉化為右邊的知識圖譜。具體是怎么實現的呢,接下來一一討論。
1. 實體命名識別
提取文本中的實體,并對每個實體進行分類或打標簽,比如把文中“1984年12月30日”記為“時間”類型;“克利夫蘭騎士”和“邁阿密熱火”記為“球隊”類型,這個過程就是實體命名。
2. 關系抽取
關系抽取是把實體之間的關系抽取出來的一項技術,其中主要是根據文本中的一些關鍵詞,如“出生”、“在”、“轉會”等,我們就可以判斷詹姆斯與地點俄亥俄州、與邁阿密熱火等實體之間的關系。
3. 實體統一
在文本中可能同一個實體會有不同的寫法,比如說“LBJ”就是詹姆斯的縮寫,因此“勒布朗詹姆斯”和“LBJ”指的就是同一個實體,實體統一就是處理這樣問題的一項技術。
4. 指代消解
指代消解跟實體統一類似,都是處理同一個實體的問題。比如說文本中的“他”其實指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出這些代詞,都指的是哪個實體。
指代消解和實體統一是知識抽取中比較難的環節。
03 知識圖譜的存儲
知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲;另一種是基于圖數據庫的存儲。
1. RDF
RDF一個重要的設計原則是數據的易發布以及共享,另外,RDF以三元組的方式來存儲數據而且不包含屬性信息。
2. 圖數據庫
圖數據庫主要把重點放在了高效的圖查詢和搜索上,一般以屬性圖為基本的表示形式,所以實體和關系可以包含屬性。
3. RDF和圖數據庫的主要特點區別
關于知識圖片的存儲方式的內容比較專業,且沒有實際操作過比較難理解,所以我就不在此展開討論了,大家簡單知道知識圖譜有這么一項內容就行,若有需要的可以自行研究下。
下面我們把重點放在知識圖片在金融領域的一些應用。
04 知識圖譜在金融領域的應用
知識圖譜在各行各業中的應用是比較普及的,并且有很重要的地位。下面我們跟大家一起討論的是知識圖譜在金融領域的一些應用,希望能通過這些例子給大家一點啟發。
1. 反欺詐
假設銀行要借錢給一個人,那要怎么判斷這個人是真實用戶還是欺詐的呢?
我們需要以人為核心,展開一系列的數據構建,比如說用戶的基本信息、借款記錄、工作信息、消費記錄、行為記錄、網站瀏覽記錄等等。把這些信息整合到知識圖譜中。從而整體進行預測和評分,用戶欺詐行為的概率有多大。當然這個預測是需要通過機器學習,得到一個合理的模型,模型中可能會包括消費記錄的權重、網站瀏覽記錄的權重等等信息。
2. 不一致性驗證
比如說不同的兩個借款人,卻填寫了同一個電話號碼,那說明這兩個人中至少有一個是可疑的了,這時就需要重點關注了。
更復雜點的,可能需要知識圖譜通過一些關系去推理了。比如說“借款人”跟小明和小秦都是母子關系,按推理的話小明跟小秦應該是兄弟關系,而在知識圖譜上顯示的是朋友關系,就有可能有異常了,因此也需要重點關注。
3. 客戶失聯管理
如果借款人失聯了,通過知識圖譜,是不是可以聯系他的朋友,或兄弟,甚至是兄弟的妻子,去追蹤失聯人。
因此在失聯的情況下,知識圖譜可以挖掘更多失聯人的聯系人,從而提高催收效率。
4. 知識推理
如上左圖(注意這里的箭頭方向),小秦是大秦的兒子,大秦是老秦的兒子,從這這樣的關系,我們就可以推理出,小秦是老秦的孫子,這樣就能使知識圖譜更加完善了。
如上左圖,小明在騰訊上班,小秦也在騰訊上班,從這樣的關系,我們可以推理出,小明和小秦是同事關系。
推理能力其實就是機器模仿人的一種重要的能力,可以從已有的知識中發現一些隱藏的知識。當然這樣的能力離不開深度學習,而隨著深度學習的不斷成熟,我相信知識圖譜的能力也會越來越強大。
在此就介紹完了知識圖譜的一些簡單知識,在寫這篇文章的同時,也參考了很多業界優秀大佬的文章,感謝各位大佬的無私分享。
參考文章
- 《淺談知識圖譜基礎》_我偏笑_NSNirvana
- 《“知識圖譜”項目,需產品經理考慮的幾點問題》_博斌_20190218
- 《【知識圖譜】項目前期產品經理需要做哪些準備》_Jasmine
- 《知識圖譜的應用》_惠普大數據李文哲
- 《干貨 | 從零到一學習知識圖譜的技術與應用》_李文哲
- 《知識圖譜及其變種在行業實踐中的應用與思考》_中興-陳虹
本文由 @Jimmy 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
感謝大佬科普!
寫的很通俗易懂
感謝科普
感謝老的分享的干貨
感謝大佬分享
能介紹下知識圖譜在機器人對話領域中的應用嗎?
學習了,感謝分享!
好頂贊!