AI技術(shù)分支——淺談知識圖譜

4 評論 17598 瀏覽 61 收藏 9 分鐘

知識圖譜從字面上看,可以拆分為知識+圖譜,是指將需要的知識數(shù)據(jù)(結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù))以圖譜的形式進(jìn)行展示,這種簡單的過程也是知識圖譜的構(gòu)建過程。

1. 什么是知識圖譜

知識圖譜屬于AI領(lǐng)域的是一個(gè)分支,很多人覺得它和CV(計(jì)算機(jī)視覺),ASR(語音識別),以及NLP(自然語言處理)一樣都是特指的某一項(xiàng)技術(shù),其實(shí)這么理解并不準(zhǔn)確,它應(yīng)該算是多種技術(shù)融合后的一種綜合型技術(shù)。

知識圖譜的歷史最早要追溯到2012年,由google公司提出主要用于提升搜索引擎的檢索效率,但隨著其發(fā)展其背后更深刻意義,遠(yuǎn)不僅是提高檢索效率這么簡單,而是整個(gè)搜索引擎結(jié)構(gòu)的整體轉(zhuǎn)型:將傳統(tǒng)基于關(guān)鍵字的搜索模型轉(zhuǎn)向基于語義的搜索升級。

如今針對知識圖譜的技術(shù)方案已被國內(nèi)外多家搜索引擎公司所采用,如:美國的微軟必應(yīng),中國的百度、搜狗等,都在在短短的一年內(nèi)紛紛宣布了各自的“知識圖譜”產(chǎn)品,足以看出這革新對整個(gè)搜索引擎界的整體影響。

但現(xiàn)在這項(xiàng)技術(shù)的應(yīng)用并不僅拘泥于搜索引擎領(lǐng)域范圍,很多的數(shù)據(jù)分析軟件,CRM系統(tǒng)也開始采用基于知識圖譜的模式去處理數(shù)據(jù),從而去深入發(fā)現(xiàn)數(shù)據(jù)更大的價(jià)值。

知識圖譜從字面上看,可以拆分為知識+圖譜,這樣我們就可以理解:將需要的知識數(shù)據(jù)(結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù))以圖譜的形式進(jìn)行展示,這種簡單的過程也是知識圖譜的構(gòu)建過程。

2. 知識圖譜中的“知識”

說到知識,就是將數(shù)據(jù)中有價(jià)值的內(nèi)容加以提煉,數(shù)據(jù)我們每天都會接觸,如系統(tǒng)產(chǎn)生的數(shù)據(jù)、客戶數(shù)據(jù),甚至一些非結(jié)構(gòu)化的網(wǎng)絡(luò)數(shù)據(jù)。

但是數(shù)據(jù)不等同于知識,其中結(jié)構(gòu)化的數(shù)據(jù)其實(shí)還好,因?yàn)樵诖鎯χ蹙鸵呀?jīng)對要存儲的數(shù)據(jù)進(jìn)行了相應(yīng)的設(shè)計(jì),所以入庫的數(shù)據(jù)基本都是有價(jià)值的數(shù)據(jù)。

但相比于結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)就顯示更加復(fù)雜,目前分布在互聯(lián)網(wǎng)上的知識常常以分散、異構(gòu)、自治的形式存在,另外還具有冗余、噪音、不確定、非完備的特點(diǎn),清洗并不能解決這些問題,因此從這些知識出發(fā),通常需要融合和驗(yàn)證的步驟,來將不同源不同結(jié)構(gòu)的數(shù)據(jù)融合統(tǒng)一,以保證知識的一致性。

把大量的知識匯聚存儲起來就成為了知識庫。

知識庫構(gòu)建流程:,從大量數(shù)據(jù)中提取有價(jià)值的數(shù)據(jù)作為有效支持,將知識內(nèi)容進(jìn)行整合入庫,從而構(gòu)建數(shù)據(jù)庫。

3.?知識應(yīng)用“圖譜”構(gòu)建

知識圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念,因此知識整理進(jìn)行入庫時(shí),對應(yīng)的知識內(nèi)容都會轉(zhuǎn)為實(shí)體(eneity)概念,每個(gè)實(shí)體上都會標(biāo)示一個(gè)唯一ID,并且每個(gè)對象屬性值(attribute-value)用來刻畫實(shí)體的內(nèi)在特性,而關(guān)系(relation)用來連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián)。

因此,將無數(shù)實(shí)體以對應(yīng)關(guān)系的形式進(jìn)行存儲,知識圖譜亦可被構(gòu)建成一張巨大的網(wǎng)絡(luò)圖。

其中上述提到的實(shí)體、關(guān)系、屬性,在存儲之前都需要采用RDF方式對其進(jìn)行結(jié)構(gòu)化聲明,即需要事先定義一套標(biāo)準(zhǔn)的schema在抽取數(shù)據(jù)之前做預(yù)備工作,由于是標(biāo)準(zhǔn)的schema,所以不管是抽取結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù),內(nèi)容都是適用的。

除了三元素定義,另外知識圖譜領(lǐng)域還有一個(gè)三元組的概念。

如下圖:

我們以搜索:“姚明的妻子是誰?”這句話為例,其對應(yīng)結(jié)果三元組規(guī)則為{實(shí)體:姚明,關(guān)系:配偶,實(shí)體:葉莉},

而當(dāng)我們改以搜索:“葉莉今年多大?”進(jìn)行檢索,其對應(yīng)結(jié)果三元組規(guī)則為{實(shí)體:葉莉,屬性:age,屬性值:34},

4.?整體架構(gòu)與核心功能點(diǎn)

(1)實(shí)體抽取

指的是從原始語料中自動(dòng)識別出命名實(shí)體,由于實(shí)體是知識圖譜中的最基本元素,其抽取的完整性、準(zhǔn)確率、召回率等將直接影響到知識庫的質(zhì)量。因此,實(shí)體抽取是知識抽取中最為基礎(chǔ)與關(guān)鍵的一步。

(2)實(shí)體對齊

實(shí)體對齊也稱為實(shí)體匹配或?qū)嶓w解析,主要是用于消除異構(gòu)數(shù)據(jù)中實(shí)體沖突、指向不明等不一致性問題,可以從頂層創(chuàng)建一個(gè)大規(guī)模的統(tǒng)一知識庫,從而幫助機(jī)器理解多源異質(zhì)的數(shù)據(jù),形成高質(zhì)量的知識。

(3)知識推理

知識推理則是在已有的知識庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識,從而豐富、擴(kuò)展知識庫。在推理的過程中,往往需要關(guān)聯(lián)規(guī)則的支持。由于實(shí)體、實(shí)體屬性以及關(guān)系的多樣性,人們很難窮舉所有的推理規(guī)則,一些較為復(fù)雜的推理規(guī)則往往是手動(dòng)總結(jié)的。

對于推理規(guī)則的挖掘,主要還是依賴于實(shí)體以及關(guān)系間的豐富同現(xiàn)情況。知識推理的對象可以是實(shí)體、實(shí)體的屬性、實(shí)體間的關(guān)系、本體庫中概念的層次結(jié)構(gòu)等。知識推理方法主要可分為基于邏輯的推理與基于圖的推理兩種類別。

(4)知識更新

根據(jù)知識圖譜的邏輯結(jié)構(gòu),其更新主要包括模式層的更新與數(shù)據(jù)層的更新。模式層的更新是指本體中元素的更新,包括概念的增加、修改、刪除,概念屬性的更新以及概念之間上下位關(guān)系的更新等。

其中,概念屬性的更新操作將直接影響到所有直接或間接屬性的子概念和實(shí)體。通常來說,模式層的增量更新方式消耗資源較少,但是多數(shù)情況下是在人工干預(yù)的情況下完成的,例如:需要人工定義規(guī)則,人工處理沖突等。因此,實(shí)施起來并不容易。

5.?知識圖譜應(yīng)用

知識圖譜為互聯(lián)網(wǎng)上海量、異構(gòu)、動(dòng)態(tài)的大數(shù)據(jù)表達(dá)、組織、管理以及利用提供了一種更為有效的方式,使得網(wǎng)絡(luò)的智能化水平更高,更加接近于人類的認(rèn)知思維。

目前,知識圖譜已在智能搜索、深度問答、社交網(wǎng)絡(luò)以及一些垂直行業(yè)中有所應(yīng)用,成為支撐這些應(yīng)用發(fā)展的動(dòng)力源泉。

如下是總結(jié)的一些知識圖譜的應(yīng)用場景:

愿你我共勉~

 

作者:慕涵,知識圖譜類產(chǎn)品經(jīng)理,愛思考、愛分享,希望與每一位朋友互相交流自己的心得體會~

本文由 @慕涵 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 確實(shí)是淺談哦,哈哈

    來自北京 回復(fù)
  2. 我也是知識圖譜類產(chǎn)品,交個(gè)朋友。你微信多少^_^

    回復(fù)
    1. 這么晚才看到:grin: ,lijinwei6033,有機(jī)會多討論~

      來自北京 回復(fù)
    2. 我也是從事這一塊的親

      來自北京 回復(fù)