【知識圖譜系列01】初識知識圖譜:了解基礎原理、應用與價值

1 評論 5281 瀏覽 46 收藏 9 分鐘

編輯導語:“無知識圖譜,不AI”,知識圖譜一直是AI領域不可不談的話題,各大公司都在搭建各自領域的知識圖譜,還有許多靠做知識圖譜起家的獨角獸公司。那么知識圖譜到底是什么?它為什么會被大家熱衷?它與傳統的數據庫存儲數據的方式有何不同?讓我們一起看看吧。

一、知識圖譜是什么?

如字面意思,知識圖譜可以拆解為“知識”和“圖譜”去理解。

知識,是人們在改造世界的實踐中所獲得的認識和經驗的總和。

圖譜,是一種強調鏈接的存儲方式。

知識圖譜其實就是存儲及表達知識的一種方式。

但一個知識的儲存方式為什么會被單獨提出來?甚至被Google作為一項技術項目單獨提出來?

首先得了解知識在認知中起到的作用。

其實在Google之前,知識圖譜的前身:語義網絡早在1960年代就被提出,當時是作為知識表示的一種方法被提出,主要應用于自然語言理解領域(讓機器能夠理解語言)。

【知識圖譜入門】初識知識圖譜

知識圖譜演化的重要節點

正如人去理解一段話所表達的意思時,也用到了知識,比如“阿偉手上拿著剛發布的蘋果”,這句話要能被正確理解,離不開對應的知識,至少得知道蘋果除了是吃的,還可以是個手機牌子。

也就是說知識圖譜起源是為了讓機器更好的理解語言,通過建立起知識庫,這種方法企圖讓機器擁有更多的“知識點”,能進行更多的聯想及推理,對信息的理解更到位。

【知識圖譜入門】初識知識圖譜

知識圖譜在人工智能中充當“記憶”的角色

知識的作用不僅限于文本,對圖片也一樣。

解讀出的感受是又油又土十分好笑,這其中也運用了知識聯想,聯想了演員在社交媒體中的人設形象,當前的表情及動作,聯想了發圖者與自己的關系,于是會心一笑。

二、為什么是圖譜?

為什么演化到目前階段,是通過圖譜去存儲知識,而不是傳統數據庫?

我認為有兩點:

第一是因為圖譜的存儲結構足夠簡單,圖譜通過“三元組”存儲知識,即頭實體、關系,尾實體組成;

比如:蘋果手機是蘋果公司旗下的產品,抽象成知識表達的三元組即是:

【知識圖譜入門】初識知識圖譜

幾乎所有的能通過符號表示的知識都能用這個結構進行儲存。

第二是因為互聯思維的普及,在強調萬物互聯的時代,圖譜這種注重鏈接的存儲方式能串聯不同領域的知識,從而挖掘其中關系隱藏的價值。

三、知識圖譜有什么用?

目前知識圖譜應用主要有兩個大方向:

1. 輔助語言理解

知識圖譜在輔助語言理解方面起的作用有:

實體消歧:對文中提到的多義詞進行精準判斷,如上文提到的蘋果案例。

指代消解:對文中的代詞做出解釋,如他和它。

其中代表性的應用如下:

(1)搜索

傳統搜索只提供對網頁的搜索(紅框部分),圖譜提供了對事物本身的描述,讓結果更直觀,更符合查詢的語義。

【知識圖譜入門】初識知識圖譜

圖譜搜索效果展示

(2)問答

垂直領域的問答系統會涉及到許多專業知識面的問題,舉個保險行業的例子:

比如當客戶問到:“xx保險能不能保障脊髓灰質炎?”

知識圖譜可以通過結合保險領域知識與醫療知識進行推理,從而給出精準答案。

【知識圖譜入門】初識知識圖譜

知識推理簡化示意圖

2. 輔助大數據分析

圖譜可以結合各類領域的知識,打造領域型的知識圖譜,目前在大數據分析方面,工業落地主要應用如下:

(1)推薦

知識圖譜中包含了豐富的關聯性,可以為推薦系統提供部分信息來源;比如常見的推薦有電影推薦、音樂推薦。

加入圖譜推薦的好處主要是可解釋性強,能基于設定好的推薦路徑進行精準推送。

比如小丁喜歡聽《艾米莉》,《艾米莉》的樂隊是回春丹,那么同個樂隊的歌可以作為推薦。

【知識圖譜入門】初識知識圖譜

(2)風控

圖結構能非常好的與SNA(社交網絡分析)理論相結合,對團伙欺詐這類型的風險能起到非常好的挖掘作用;如洗錢行為可以綜合多筆交易、企業信息等看是否出現資金匯集等。

圖的優勢在于能跨多度計算,能挖出埋藏較深度的風險關系,比起傳統的偵察手段對團伙作案的風險能摸查得更全面。

三、無圖譜,不AI?

這句話在現階段,大家當pr稿理解就好了,事實上很多的AI落地應用,并沒有用到知識圖譜,知識圖譜本身也存在著相當多的局限。

1. 工業落地視角

至少在目前階段,許多項目中知識圖譜的平替方案有很多,比如風控場景,通過傳統的數據分析也能抓出許多問題案件;問答場景,搭建簡單的問答知識庫比直接建立知識圖譜效率更高,投入更小。

究其原因還是在于這項技術需要非常大的資源投入,需要大量的具有豐富業務知識的專家,圖算法專家等。

實際的工業落地項目中,幾乎有70%的時間投入在圖譜數據的獲取、清洗、結構化上,而像知識框架的建設、圖應用只占了不到30%的時間。

2. 技術視角

上文提到,知識圖譜的三元組形式能表示幾乎所有的符號型知識,即能被很好表達的顯性知識,但現實中存在著很多知識是隱性的,比如一項技能,彈鋼琴光知道樂理但沒有熟練的指法也不行。

且知識圖譜對于數據的結構化程度要求十分之高,但現實中大部分業務數據是非結構化的,如何將非結構化數據轉為結構化,而這是一道還沒有被解決的業界難題,是NLP的瓶頸。

四、結語

對每項新技術,我們應看到技術未來的發展空間,同時也要看到技術在當下的局限性。

保持對技術的理解、思考與反思,才能將技術真正落地。

 

本文由 @產品哲思 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 寫的很好,希望能看到后續內容

    來自浙江 回復