知識圖譜的本體模型設(shè)計和ER模型設(shè)計的區(qū)別

3 評論 22091 瀏覽 48 收藏 9 分鐘

本體的概念最早起源于哲學(xué)領(lǐng)域, 指的是對客觀存在系統(tǒng)的解釋和說明。這句話出現(xiàn)在了幾乎所有系統(tǒng)介紹知識圖譜和本體的材料里。在很長一段時間里,以為這是一句廢話,現(xiàn)在對這句話有了更多的體驗。

一、前言

知識圖譜的本體涉及很多具體概念,如:實體、關(guān)系、對象節(jié)點(資源)、數(shù)據(jù)節(jié)點(字面量)等。

所以向別人解釋什么是本體時需要耗費非常多的精力,巴拉巴拉拋出一大堆概念,最后對方可能沒聽懂,或者聽懂了但是人家根本就不關(guān)注這些細(xì)節(jié)。所以針對不同的聽眾可以有完全不同的說法。

當(dāng)對方是市場人員或者客戶,和對方提到”本體“兩個字,僅僅是為了說明知識圖譜構(gòu)建工程需要做哪些事情。

比如:我們需要三周時間進(jìn)行業(yè)務(wù)梳理和本體構(gòu)建。

那么無論如何也繞不過什么是本體,要解釋為什么要耗費這么長時間去構(gòu)建本體。這種時候可以說的非常粗略:“本體是一個數(shù)據(jù)模型,這個模型用以約束知識圖譜數(shù)據(jù)的組織方式”。

當(dāng)時對方是技術(shù)人員或者產(chǎn)品人員,可以說:“本體可以理解為關(guān)系型數(shù)據(jù)庫的ER模型”。

ER模型即“Entity-relationship model”,其實本體也是這兩個概念,實體和關(guān)系。本體把名詞概念稱作一個實體,一個實體是一個節(jié)點,各個概念之間的聯(lián)系稱作關(guān)系,一條關(guān)系是兩個相關(guān)節(jié)點之間的連線。

本體就是定義哪些名詞概念成為實體節(jié)點和定義實體間關(guān)系的模型。如果對方是個Coder,也可以說本體模型類似類圖,表達(dá)類與類之間的關(guān)系。

本體的一個實體就是一種類,本體的實例節(jié)點就是類的實例對象。本體的關(guān)系就是表達(dá)類之間的關(guān)系,當(dāng)然本體的關(guān)系類型比類圖的關(guān)系類型要多的多。

所以本體設(shè)計和傳統(tǒng)的數(shù)據(jù)庫或者數(shù)倉設(shè)計一樣,需要強依賴于業(yè)務(wù)流程和業(yè)務(wù)需求。剛剛接觸知識圖譜和本體的時候,我曾錯誤的將本體設(shè)計和ER設(shè)計等同起來,甚至為了簡便直接將ER模型當(dāng)作本體模型使用。

本篇文章將會分享相關(guān)經(jīng)驗,通過舉個小例子來討論下本體設(shè)計和關(guān)系型數(shù)據(jù)庫ER圖的區(qū)別。

本體和知識圖譜的構(gòu)建流程可以查看本人在本站之前的文章進(jìn)行交流:

知識圖譜在風(fēng)控的應(yīng)用

二、場景舉例

拿私募基金業(yè)務(wù)為例,有如下簡化版的數(shù)據(jù)結(jié)構(gòu)。

私募基金管理人和其相關(guān)的股東、聯(lián)系人、實際控制人、員工。根據(jù)相關(guān)規(guī)定:基金管理人的法律主體被限定為公司或合伙企業(yè),自然人被排除在外。

基金管理人通常都會設(shè)定為公司形式,尤其是有限責(zé)任公司形式。其中股東和實際控制人可以為自然人,也可以為法人。

員工和聯(lián)系人為自然人,一家私募基金管理人對應(yīng)一個聯(lián)系人和實際控制人,對應(yīng)多個股東和公司員工。一個法人或自然人可以同時為股東和實際控制人,一個自然人可以同時作為一家私募基金管理人的員工和聯(lián)系人。

三、本體設(shè)計

如果我們直接把ER模型轉(zhuǎn)化成本體模型,再直接依據(jù)該本體進(jìn)行數(shù)據(jù)映,可以得到相應(yīng)的圖譜如下。

該圖譜最大的問題在于:同一個人或者同一家公司會有多個節(jié)點,換句話說沒有做節(jié)點融合。

如上圖所示:有兩個相同的自然人節(jié)點——”趙某“,兩個相同公司節(jié)點——“北京XX科技有限公司”。

這對于知識圖譜的大部分應(yīng)用場景來說是不合理的,在同一個圖譜中,同一個實例不能屬于兩種類型,不能成為兩個節(jié)點。

所以上述的知識圖譜應(yīng)該如下:

為什么同一個實例不能有不同的節(jié)點呢?從應(yīng)用的角度,在更加復(fù)雜從的關(guān)系中,很難發(fā)現(xiàn)關(guān)鍵節(jié)點和業(yè)務(wù)關(guān)注的關(guān)系結(jié)構(gòu)。

將上述關(guān)系以未作節(jié)點融合的圖譜進(jìn)行展示,仍舊很難發(fā)現(xiàn)多個節(jié)點之間存在的關(guān)系。

根據(jù)上述描述,如果采用進(jìn)行實體融合后的圖譜,則可以非常容易的發(fā)現(xiàn)該圖譜中存在穿刺投資、持股方和被持股方擁有相同的聯(lián)系人等結(jié)構(gòu)。

所以由以上的圖譜倒推得到一個更加合理的本體模型如下:

總結(jié)

”本體的概念最早起源于哲學(xué)領(lǐng)域, 指的是對客觀存在系統(tǒng)的解釋和說明“——這句話出現(xiàn)在了幾乎所有系統(tǒng)介紹知識圖譜和本體的材料里。

在很長一段時間里,本人也以為這是一句廢話。現(xiàn)在對這句話有了更多的體驗:

什么是客觀世界,就是一個實例就只有一個。我作為一個自然人只有一個,所以反應(yīng)在圖譜里也只能有一個節(jié)點。但是我是作為”人“存在,還是作為“男人”存在,還是作為“員工”存在,是依賴于特定范圍的業(yè)務(wù)需要。結(jié)合知識圖譜的發(fā)展史,

知識圖譜起源于語義網(wǎng)絡(luò)和網(wǎng)絡(luò)鏈接,本體的目標(biāo)史對數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行定義,使得圖譜支持?jǐn)?shù)據(jù)融合以及便于機器理解和展示。

本體模型的設(shè)計和其他數(shù)據(jù)模型的設(shè)計類似,沒有一個絕對正確的設(shè)計,只能說哪個模型更加合理。

從以往經(jīng)驗看來:一個合理的本體模型大概要滿足以下幾點要求:

  • 有效地支撐業(yè)務(wù)的分析和決策。
  • 正確一致地展示數(shù)據(jù)信息。
  • 擁有廣泛的適用性,易于添加新的節(jié)點類型和關(guān)系

 

作者:Eric ,數(shù)據(jù)產(chǎn)品經(jīng)理。金融大數(shù)據(jù)方向,知識圖譜工程化。

本文由 @Eric_Xie 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 自然人,還是企業(yè)法人都可以抽象為當(dāng)事人,一切關(guān)系都可以用協(xié)議表示

    來自北京 回復(fù)
  2. 前輩您好 我目前也在做知識圖譜產(chǎn)品 目前在百度實習(xí) 您方便加個微信嗎 看到您的文章很想多跟您交流 感謝 我的微信號是lixx9503 謝謝

    回復(fù)
    1. 建議你看看
      @南風(fēng)追憶 的關(guān)于圖譜的

      來自福建 回復(fù)