AI知識圖譜技術(shù)的實際應(yīng)用

4 評論 13258 瀏覽 79 收藏 11 分鐘

本文主要講知識圖譜中對相關(guān)AI技術(shù)及NLP自然語言理解(NER/ER/CR/RE),在愛奇藝產(chǎn)品中的應(yīng)用,enjoy~

國際研究咨詢公司Gartner調(diào)查指出,根據(jù)人工智能技術(shù)成熟曲線,有86%的人工智能技術(shù)尚未進(jìn)入成熟期,但AI技術(shù)中也有非常成熟的AI技術(shù),例如:CV(人臉識別、體態(tài)識別等)、計算機(jī)聽覺,MIC拾音提取音素等。

本文主要講知識圖譜中對相關(guān)AI技術(shù)及NLP自然語言理解(NER/ER/CR/RE)在愛奇藝產(chǎn)品中的應(yīng)用。

一、需求:AI知識圖譜技術(shù)應(yīng)用的業(yè)務(wù)場景

我們看一個視頻常常會在視頻的旁邊看到猜你喜歡,偶爾可能也會在視頻上進(jìn)行彈幕討論一下視頻內(nèi)容,或者在看視頻的過程中會看到與視頻中某個內(nèi)容相關(guān)的小廣告飄出,還有為了看視頻充值而咨詢一下人工智能客服,又或者智能醫(yī)療,或者網(wǎng)上快速獲得貸款的背后的金融智能風(fēng)控等等。

總結(jié)下來AI知識圖譜的商業(yè)應(yīng)用需求場景如下:視頻推薦,AI鑒黃、廣告精準(zhǔn)推薦、金融風(fēng)控、教育(智能排課/監(jiān)播體系/手寫體)、醫(yī)療、投資等等。

二、概念:知識圖譜的前世今生

知識圖譜前世:

根據(jù)維基百科獲得知識圖譜歷史即前世:知識圖譜2012年加入Google搜索,2012年5月16日正式發(fā)布,首先可在美國使用。知識圖譜除了顯示其他網(wǎng)站的鏈接列表,還提供結(jié)構(gòu)化及詳細(xì)的關(guān)于主題的信息。

其目標(biāo)是,用戶將能夠使用此功能提供的信息來解決他們查詢的問題,而不必導(dǎo)航到其他網(wǎng)站并自己匯總信息,即起始階段知識圖譜是Google的一個知識庫。

AI知識圖譜的今生個人見解:

傳統(tǒng)數(shù)據(jù)庫——>知識圖譜化,所有傳統(tǒng)低效率的數(shù)據(jù)表現(xiàn)形式(指:數(shù)據(jù)相關(guān)架構(gòu)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)表、數(shù)據(jù)庫)都會逐步轉(zhuǎn)向高效率的AI知識圖譜化。原因是AI知識圖譜才是用戶想要的數(shù)據(jù)可視化,怎么理解呢?

例如你搜索連詩路,是一個網(wǎng)頁那就是傳統(tǒng)數(shù)據(jù)庫展示的結(jié)果,如果搜索連詩路顯示上海路奇智能科技創(chuàng)始人,AI賦能AI重新定義產(chǎn)品經(jīng)理等暢銷書的作者,那么后者就是AI知識圖譜實現(xiàn)的數(shù)據(jù)可視化。

三、視角:知識圖譜處理視頻中鑒禁語&鑒黃的應(yīng)用流程

具體的業(yè)務(wù)問題是管理愛奇藝視頻直播中的禁用詞語和黃色視頻,首先確定了AI知識圖譜應(yīng)用范圍。

然后步驟流程如下:

1. 數(shù)據(jù)的收集 & 預(yù)處理

建立一個禁用語語料庫,這個禁用語可以有第三方語料庫供應(yīng)商提供,也可以自己建立,也可以在第三方語料庫的基礎(chǔ)上進(jìn)行迭代匹配使用。

在數(shù)據(jù)收集和處理階段會用到AI知識圖譜的命名實體識別NER技術(shù),也會用到關(guān)系抽取RE,實體統(tǒng)一ER、和指代消解ER等NLP的子技術(shù)。

原因是數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)及半結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化是指數(shù)據(jù)庫里的數(shù)據(jù),而我們遇到的大多數(shù)數(shù)據(jù)是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),例如數(shù)據(jù)庫不能直接存取的數(shù)據(jù)大多是非結(jié)構(gòu)化數(shù)據(jù)。

以上圖直播視頻圖為例,SS=手速,MS=秒射,而XD=胸大or兄弟?這里就需要AI知識圖譜中的NLP的指代消解ER技術(shù)來理解處理SS=手速,MS=秒射,然后判斷是否需要封鎖背后的ID,當(dāng)然做一款產(chǎn)品還要考慮封了以后的步驟,本文先不多說,日后再開篇撰寫。

2. 設(shè)計知識圖譜

關(guān)于知識圖譜的設(shè)計有很多原則,總體概述下來有:以理解業(yè)務(wù)原則、以可以分析為原則、以高效為原則、以含可拓展為原則、以其他規(guī)則為原則等等。

但是設(shè)計知識圖譜過程如下:

(1)需要哪些實體、關(guān)系和屬性?

連詩路與路奇是兩個實體,合伙人是一個屬性,智能是另外一個屬性,連詩路與暢銷書《AI賦能》是兩個實體,作者是一個關(guān)系屬性,還可能有2019年等等屬性。

例如下圖:

(2)哪些屬性可以做為實體,哪些實體可以作為屬性?

構(gòu)建ER實體關(guān)系圖的時候,有些屬性可以作為實體,有些實體可以作為屬性,在關(guān)系轉(zhuǎn)化中有兩條準(zhǔn)則如下:

  1. 作為屬性,不能再具有需要描述的性質(zhì)。屬性必須是不可分的數(shù)據(jù)項,不能包含其他屬性。
  2. 屬性不能與其他實體具有聯(lián)系,即E-R圖中所表示的聯(lián)系是實體之間的聯(lián)系。

3. 講知識圖譜存在知識圖譜數(shù)據(jù)庫中

存儲上要面臨存儲系統(tǒng)的選擇,但由于設(shè)計的知識圖譜帶有屬性,圖數(shù)據(jù)庫(區(qū)別于傳統(tǒng)數(shù)據(jù)庫SQL/MYSQL等)可以作為首選,但至于選擇哪個圖數(shù)據(jù)庫也要看業(yè)務(wù)量以及對效率的要求。

如果數(shù)據(jù)量特別龐大,則Neo4j很可能滿足不了業(yè)務(wù)的需求,這時候不得不去選擇支持準(zhǔn)分布式的系統(tǒng)比如OrientDB, JanusGraph等,或者通過效率、冗余原則把信息存放在傳統(tǒng)數(shù)據(jù)庫中,從而減少知識圖譜所承載的信息量。

通常來講,對于10億節(jié)點以下規(guī)模的圖譜來說Neo4j已經(jīng)足夠了。

四、應(yīng)用:愛奇藝智能客服奇小藝產(chǎn)品設(shè)計

1.?構(gòu)建奇小藝知識圖譜

根據(jù)實體、屬性兩個元素完成一個知識圖譜的構(gòu)建,步驟如下:?

  1. 根據(jù)知識領(lǐng)域?qū)υ贾R進(jìn)行分類,如充值類、賬號密碼知識等,以部分充值類知識為例,包括“充值入口在什么地方?”、“充值的客服官方電話號碼?”、“充值轉(zhuǎn)讓辦理業(yè)務(wù)需要什么資料?”、“充值辦理業(yè)務(wù)能不能退費?”等;
  2. 確定同類問題的實體,如步驟 1 中問題的實體為“充值”;
  3. 確定實體的屬性列表,如實體“充值”的屬性包括“官方入口地址”、“官方客服電話”、“服務(wù)內(nèi)容”等;
  4. 檢索實體的全部屬性,確定所有下級屬性,如屬性“服務(wù)內(nèi)容”的下級屬性包括“電影”、“禮物”等;
  5. 重復(fù)步驟 4 直至不存在下級屬性。

構(gòu)建知識圖譜如下圖所示:

2. 將奇小藝知識圖譜實例化

知識圖譜的實例化是指為知識圖譜中的實體和屬性設(shè)置條件、為屬性設(shè)置參數(shù)以及為實例設(shè)置標(biāo)準(zhǔn)答案的過程。一個知識圖譜可以有多個實例,每個屬性實例擁有一個標(biāo)準(zhǔn)答案。

實例化過程如下:

  1. 確定待實例化對象,如“充值”;
  2. 設(shè)置條件,完成對象的實例化,如條件為“奇秀右上角充值入口”,得到對象實例“奇秀充值鏈接”;
  3. 確定待實例化屬性,如“官方客服電話”;
  4. 設(shè)置參數(shù),完成屬性的實例化,如參數(shù)為“直播”,此時對象實例為“奇秀直播充值”,屬性實例為“直播充值”;
  5. 為屬性實例設(shè)置標(biāo)準(zhǔn)答案,如“010-xxxxxxxx”。

以上完成了一個實體及其屬性的實例化,同一個實體可擁有多個屬性實例,如對象實例“奇秀充值”的屬性實例可包括“電影”、“直播刷禮品”等。

3. 奇小藝智能問答

基于知識圖譜的答案搜索首先需要進(jìn)行中文分詞,根據(jù)中文分詞結(jié)果從知識庫中搜索匹配,實例化知識圖譜如下圖所示:

如上圖所示流程中,系統(tǒng)依次從分詞結(jié)構(gòu)中檢索實體、條件、屬性、參數(shù),確定實例化的屬性,并返回實例化屬性對應(yīng)的答案,完成答案搜索。

五、推薦AI知識圖譜相關(guān)的知識和學(xué)習(xí)的方法

首先是閱讀書籍和在實踐中學(xué)習(xí)的方法第一本是AI產(chǎn)品思維:

AI+時代產(chǎn)品經(jīng)理的思維方法

AI賦能:AI重新定義產(chǎn)品經(jīng)理》AI技術(shù)助力,AI技術(shù)落地產(chǎn)品賦能的案例及去哪里學(xué)的方法。非常暢銷,得到多位圈內(nèi)朋友推薦。

如果你想系統(tǒng)化入門AI產(chǎn)品經(jīng)理,掌握AI產(chǎn)品經(jīng)理的落地工作方法,戳這里>http://996.pm/7bjab

#專欄作家#

連詩路,公眾號:LineLian。人人都是產(chǎn)品經(jīng)理專欄作家,《產(chǎn)品進(jìn)化論:AI+時代產(chǎn)品經(jīng)理的思維方法》一書作者,前阿里產(chǎn)品專家,希望與創(chuàng)業(yè)者多多交流。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 看的我暈暈的,不知道自己有沒有看懂

    來自江蘇 回復(fù)
  2. 語言組織能力有待提高啊 ??

    來自北京 回復(fù)
    1. 看不懂表和庫和知識圖譜的語言語法吧?

      來自上海 回復(fù)
    2. 你這頭像放在這里真的是讓人不安分。 ??

      來自廣東 回復(fù)