知識(shí)圖譜發(fā)展的難點(diǎn)&構(gòu)建行業(yè)知識(shí)圖譜的重要性

5 評(píng)論 23438 瀏覽 96 收藏 14 分鐘

知識(shí)圖譜又稱為科學(xué)知識(shí)圖譜,在圖書情報(bào)界稱為知識(shí)域可視化,或知識(shí)領(lǐng)域映射地圖,用來顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及他們互相之間的關(guān)系。

一、概述

盡管人工智能依靠機(jī)器學(xué)習(xí)和深度學(xué)習(xí)取得了快速進(jìn)展,但這些都是弱人工智能,對(duì)于機(jī)器的訓(xùn)練,需要人類的監(jiān)督以及大量的數(shù)據(jù)來喂養(yǎng),更有甚者需要人手動(dòng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)記,對(duì)于強(qiáng)人工智能而言,這是不可取的。要實(shí)現(xiàn)真正的類人智能,機(jī)器需要掌握大量的常識(shí)性知識(shí),以人的思維模式和知識(shí)結(jié)構(gòu)來進(jìn)行語言理解、視覺場(chǎng)景解析和決策分析。

二、什么是知識(shí)圖譜

百度百科定義:知識(shí)圖譜又稱為科學(xué)知識(shí)圖譜,在圖書情報(bào)界稱為知識(shí)域可視化,或知識(shí)領(lǐng)域映射地圖,用來顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及他們互相之間的關(guān)系。

乳腺癌知識(shí)圖譜

三、為什么需要知識(shí)圖譜

  1. 知識(shí)圖譜把復(fù)雜的知識(shí)領(lǐng)域及知識(shí)體系通過數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制顯示出來,表示該領(lǐng)域的發(fā)展動(dòng)態(tài)及規(guī)律,為該領(lǐng)域的研究提供全方位、整體性、關(guān)系鏈的參考。
  2. 知識(shí)圖譜是智能社會(huì)的重要生產(chǎn)資料,如果把人工智能比作一個(gè)“大腦”,那么深度學(xué)習(xí)是“大腦”的運(yùn)轉(zhuǎn)方式,知識(shí)圖譜則是“大腦”的知識(shí)庫,而大數(shù)據(jù)、GPU并行計(jì)算和高性能計(jì)算等支撐技術(shù)就是“大腦”思維運(yùn)轉(zhuǎn)的支撐。
  3. 知識(shí)圖譜是真實(shí)世界的語義表示,其中每一個(gè)節(jié)點(diǎn)代表實(shí)體連接節(jié)點(diǎn)的邊則對(duì)應(yīng)實(shí)體之間的關(guān)系異構(gòu)數(shù)據(jù)通過整合表達(dá)為知識(shí),圖的表達(dá)映射了人類對(duì)世界的認(rèn)知方式,知識(shí)圖譜非常適合整合非結(jié)構(gòu)化數(shù)據(jù)從零散數(shù)據(jù)中發(fā)現(xiàn)知識(shí),從而幫助組織機(jī)構(gòu)實(shí)現(xiàn)業(yè)務(wù)智能化。

四、知識(shí)圖譜的誕生

當(dāng)你對(duì)陌生領(lǐng)域進(jìn)行學(xué)習(xí)時(shí),無法把握要點(diǎn)及整體框架,以至于檢索效率低、入門無道時(shí),知識(shí)圖譜應(yīng)運(yùn)而生。

自2012年5月,Google將知識(shí)圖譜應(yīng)用到其搜索引擎,以提升其搜索服務(wù)能力,將各種渠道收集而來的相關(guān)信息展示在搜索結(jié)果旁的信息框中,以結(jié)構(gòu)化模塊形式提供給用戶。

主要從三個(gè)方面提升了其搜索效果:

  1. 語言的多義性,展示差異化結(jié)果,縮小搜索范圍。
  2. 信息的關(guān)聯(lián)性,理解總結(jié)信息間的關(guān)聯(lián),理解事物的相關(guān)性。
  3. 體系的廣泛性,構(gòu)建完整的知識(shí)體系,發(fā)現(xiàn)新的事實(shí)或新的聯(lián)系,促進(jìn)一系列全新的搜索查詢。

google知識(shí)圖譜展示

五、知識(shí)圖譜的原理

知識(shí)圖譜以結(jié)構(gòu)化數(shù)據(jù)處理,運(yùn)用三元體,點(diǎn)、線、面的方式表示本體之間的關(guān)系,利用關(guān)系來組織所有的對(duì)象(實(shí)體),形成有向圖結(jié)構(gòu)。所謂知識(shí),指的是點(diǎn)或邊對(duì)應(yīng)的信息。

知識(shí)圖譜以語義分析技術(shù)為基礎(chǔ),以模型為核心,基于數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡(luò)、NLP框架語義理解等智能處理技術(shù)對(duì)輸入的字、詞、篇章進(jìn)行多層次、多維度的信息分析,提供可遠(yuǎn)程調(diào)用的實(shí)體抽取、關(guān)系抽取和屬性抽取等算法服務(wù)接口能力。達(dá)到構(gòu)建多領(lǐng)域知識(shí)圖譜平臺(tái),服務(wù)不同行業(yè)和應(yīng)用場(chǎng)景。

知識(shí)圖譜相關(guān)技術(shù)

構(gòu)建知識(shí)圖譜是一個(gè)迭代更新的過程,根據(jù)知識(shí)獲取的邏輯,每一輪迭代可分為三個(gè)階段:

  1. 信息抽?。?/strong>從各種類型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá);
  2. 知識(shí)融合:在獲得新知識(shí)之后,需要對(duì)其進(jìn)行整合,以消除矛盾和歧義,比如:某些實(shí)體可能有多種表達(dá),某個(gè)特定稱謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等;
  3. 知識(shí)加工:對(duì)于經(jīng)過融合的新知識(shí),需要經(jīng)過質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分加入到知識(shí)庫中,以確保知識(shí)庫的質(zhì)量。

知識(shí)圖譜技術(shù)架構(gòu)

六、知識(shí)圖譜的發(fā)展方向

“純粹的通用型人工智能沒有任何意義,人工智能未來的方向一定是行業(yè)化?!?/p>

因此行業(yè)知識(shí)圖譜的構(gòu)建顯得尤為重要,首先,構(gòu)建行業(yè)知識(shí)圖譜系統(tǒng)應(yīng)以海量數(shù)據(jù)匯聚融合、快速感知和認(rèn)知、強(qiáng)大的分析和推理、自適應(yīng)與自優(yōu)化和行業(yè)智能決策為導(dǎo)向。

下面介紹一下通用知識(shí)圖譜行業(yè)知識(shí)圖譜構(gòu)建的區(qū)別:

通用知識(shí)圖譜以互聯(lián)網(wǎng)開放數(shù)據(jù)為基礎(chǔ),如維基百科或社區(qū)眾包為主要來源,逐步擴(kuò)大規(guī)模。以三元組事實(shí)型知識(shí)為主,較多的面向開放域的Web抽取,對(duì)知識(shí)抽取的質(zhì)量有一定容忍度,以知識(shí)融合提升數(shù)據(jù)質(zhì)量,應(yīng)用領(lǐng)域主要在搜索和問答方面,對(duì)推理要求較低。如:百度、谷歌、雅虎等等

行業(yè)知識(shí)圖譜以領(lǐng)域或企業(yè)內(nèi)部的數(shù)據(jù)為主要來源,通常要求快速擴(kuò)大規(guī)模,構(gòu)建行業(yè)壁壘,知識(shí)結(jié)構(gòu)更加復(fù)雜,通常包含本體工程和規(guī)則型知識(shí)。知識(shí)抽取的質(zhì)量要求很高,較多的依靠從企業(yè)內(nèi)部的結(jié)構(gòu)化、非結(jié)構(gòu)化以及半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聯(lián)合抽取需要依靠人工進(jìn)行審核校驗(yàn),來保證質(zhì)量。通常需要融合多來源的領(lǐng)域是數(shù)據(jù)擴(kuò)大規(guī)模的有效手段。應(yīng)用形式更加全面,除搜索問答外,還包括決策分析、業(yè)務(wù)管理等,并對(duì)推理的要求更高,并有較強(qiáng)的可解釋性要求。主要領(lǐng)域有電商、金融、農(nóng)業(yè)、安全、醫(yī)療等等

面向行業(yè)知識(shí)譜圖系統(tǒng)構(gòu)建

大數(shù)據(jù)的采集分析和計(jì)算力已經(jīng)不再是阻礙,難點(diǎn)在于算法背后的知識(shí)圖譜構(gòu)建。實(shí)際中,企業(yè)數(shù)據(jù)和業(yè)務(wù)變化靈活,因此數(shù)據(jù)源、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)內(nèi)容隨時(shí)會(huì)發(fā)生變動(dòng),對(duì)業(yè)務(wù)的理解以及對(duì)數(shù)據(jù)的解讀也隨之發(fā)生變化。因此,建立實(shí)時(shí)敏捷、靈活可擴(kuò)展、智能自適應(yīng)的動(dòng)態(tài)知識(shí)圖譜尤為重要。

七、行業(yè)知識(shí)圖譜的重要性

由于IT時(shí)代的快速發(fā)展,形成了數(shù)據(jù)的聚集。促進(jìn)了正在來臨DT時(shí)代,數(shù)據(jù)與算法作為基礎(chǔ)為知識(shí)圖譜的構(gòu)建提供了新的可能性,而知識(shí)圖譜作為AI的支撐基礎(chǔ),雖然發(fā)展緩慢,卻是人工智能的必經(jīng)之路。由于其在語義搜索、智能問答、數(shù)據(jù)分析、自然語言處理、視覺理解、物聯(lián)網(wǎng)設(shè)備已展現(xiàn)出越來越大的價(jià)值。

比如:上一篇文章中提到的基于語音對(duì)話系統(tǒng)構(gòu)建的機(jī)器人,要想機(jī)器人好玩有趣,就需要建立通用知識(shí)圖譜,使機(jī)器人具有強(qiáng)大的邏輯,了解人與人關(guān)系,人與物的關(guān)系,人的屬性、物的屬性,理解人類世界的關(guān)系鏈,靈活應(yīng)對(duì)用戶的各種聊天需求,使機(jī)器具有類人智能。而行業(yè)知識(shí)圖譜則幫助用戶解答關(guān)于行業(yè)的任務(wù)型需求,輔助用戶決策,反向幫助人類學(xué)習(xí)。

如今,人工智能屬于發(fā)展初期,主要以技術(shù)驅(qū)動(dòng)行業(yè)發(fā)展,屬于拿著錘子找釘子的時(shí)期,企業(yè)在以行業(yè)+AI為核心的同時(shí),也應(yīng)重視行業(yè)+知識(shí)圖譜。因?yàn)槲磥砑夹g(shù)肯定不是公司的核心競(jìng)爭(zhēng)力,而多年積累的行業(yè)數(shù)據(jù)才是壁壘。數(shù)據(jù)養(yǎng)育AI,AI反哺數(shù)據(jù)。

行業(yè)知識(shí)圖譜在很多領(lǐng)域已經(jīng)有了很好的應(yīng)用。

例如:天眼查、企查查的企業(yè)知識(shí)圖譜,數(shù)據(jù)包括:企業(yè)基礎(chǔ)數(shù)據(jù)、投資關(guān)系、任職關(guān)系、企業(yè)專利數(shù)據(jù)、企業(yè)招標(biāo)數(shù)據(jù)、企業(yè)招聘數(shù)據(jù)、企業(yè)訴訟數(shù)據(jù)、企業(yè)失信數(shù)據(jù)、企業(yè)新聞數(shù)據(jù);

企業(yè)知識(shí)圖譜

利用知識(shí)圖譜融合以上數(shù)據(jù),制作企業(yè)知識(shí)圖譜,并在企業(yè)知識(shí)圖譜之上利用圖譜特性,針對(duì)金融業(yè)務(wù)場(chǎng)景做一系列應(yīng)用。

(1)企業(yè)風(fēng)險(xiǎn)評(píng)估

基于企業(yè)基礎(chǔ)信息、投資關(guān)系、訴訟、失信等多維度關(guān)聯(lián)數(shù)據(jù),利用圖計(jì)算等方法構(gòu)建科學(xué)、嚴(yán)謹(jǐn)?shù)钠髽I(yè)風(fēng)險(xiǎn)評(píng)估體系,有效規(guī)避潛在的經(jīng)營(yíng)風(fēng)險(xiǎn)與資金風(fēng)險(xiǎn)。

(2)企業(yè)社交圖譜

基于投資、任職、專利、招標(biāo)股、涉訴關(guān)系以目標(biāo)企業(yè)為核心向外層擴(kuò)散,形成一個(gè)網(wǎng)絡(luò)關(guān)系圖,直觀立體展現(xiàn)企業(yè)關(guān)聯(lián)。

(3)企業(yè)掌權(quán)人

基于股權(quán)投資關(guān)系尋找持股比例最大的股東,最終追溯至自然人或國(guó)有資產(chǎn)管理部門。

(4)企業(yè)關(guān)聯(lián)路徑

基于股權(quán)、任職、專利、招標(biāo)股、涉訴關(guān)系形成的網(wǎng)絡(luò)關(guān)系中、查詢企業(yè)之間的最短路徑,衡量企業(yè)之間的關(guān)系密切度。

(5)企業(yè)的發(fā)展歷程

基于企業(yè)知識(shí)圖譜中的投融資事件的時(shí)間順序,記錄企業(yè)的發(fā)展歷程。

(6)企業(yè)信息的智能問答

用戶通過語音輸入,系統(tǒng)通過語音輸出給用戶想要的答案。

就寫這么多,希望能帶給各位一些思考。關(guān)于醫(yī)療知識(shí)圖譜、金融知識(shí)圖譜、農(nóng)業(yè)知識(shí)圖譜的應(yīng)用場(chǎng)景請(qǐng)自行查詢吧。

 

本文由 @阿拉燈神丁 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖作者提供

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 為什么不算呢? ??

    來自北京 回復(fù)
  2. 我也是搞知識(shí)圖譜的,能否留個(gè)微信號(hào)一起交流下?

    來自北京 回復(fù)
    1. dandan-sbb

      來自北京 回復(fù)
  3. 企業(yè)的知識(shí)圖譜可以是企業(yè)員工根據(jù)崗位運(yùn)營(yíng)提供“圖譜點(diǎn)“或者圖譜信息根據(jù)他們上級(jí)收集整理來匯總至我們參考下一步戰(zhàn)略,或者某些項(xiàng)目的風(fēng)險(xiǎn)性受益性決定是否這么做能帶來受益,謝謝,雖然沒耐心看完,但我突然這么想到這個(gè)點(diǎn)

    回復(fù)
    1. ???沒怎么看懂你想表達(dá)什么觀點(diǎn) ?? 知識(shí)圖譜的數(shù)據(jù)主要就是公司內(nèi)部數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù))、從我網(wǎng)上爬取得公開數(shù)據(jù)(非結(jié)構(gòu)化數(shù)據(jù))、第三方機(jī)構(gòu)數(shù)據(jù)(半結(jié)構(gòu)化數(shù)據(jù)),做知識(shí)圖譜肯定是為了優(yōu)化公司服務(wù)內(nèi)容,賦能行業(yè),做知識(shí)圖譜肯定是業(yè)務(wù)需要知識(shí)圖譜,不能為了做知識(shí)圖譜而做知識(shí)圖譜,這樣是沒有意義的。如果只是對(duì)關(guān)系有一定需求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫也是可以做的,就不用花費(fèi)巨資采用知識(shí)圖譜的圖數(shù)據(jù)庫來做。如果沒有解決你的問題,歡迎進(jìn)一步交流。

      來自北京 回復(fù)