產(chǎn)品經(jīng)理的知識圖譜應(yīng)用
知識圖譜對于產(chǎn)品經(jīng)理的工作有著很大的幫助,能夠建立更系統(tǒng)的設(shè)計流程,其應(yīng)用核心在于深刻理解業(yè)務(wù)。
一、什么是知識圖譜
1.1 知識圖譜的定義
知識圖譜概念開始由谷歌公司(Google)提出,為了提升搜索引擎返回的答案質(zhì)量,通過知識圖譜的構(gòu)建,去發(fā)現(xiàn)用戶查詢文本背后的語義信息,從而返回更準(zhǔn)確的信息。
我們以李小龍為例,如果不用知識圖譜,用戶搜索“李小龍的兒子是誰”時,只能通過關(guān)鍵詞搜索的方式分析網(wǎng)頁中關(guān)鍵詞包含“李小龍”“兒子”等關(guān)鍵詞的網(wǎng)頁。
但是,通過知識圖譜搜索,可以精確搜索出準(zhǔn)確答案,我們以搜狗搜索為例(見圖1.1-1):
圖1.1-1 搜狗搜索結(jié)果
我們在搜索“李小龍的兒子是誰”的時候,首先會對這個文本進行語義識別,識別出來一個實體“李小龍”一個關(guān)系“兒子”,然后通過關(guān)系圖譜就會精確查到實體與關(guān)系的指向(見圖1.1-2),最終完成精確的檢索。
通過知識圖譜的輔助,搜索引擎通過背后的語義分析,返回更加精確,并且是結(jié)構(gòu)化的數(shù)據(jù)。
圖1.1-2李小龍的關(guān)系圖譜
追本溯源知識圖譜起源于上世紀(jì)60年代的語義網(wǎng)絡(luò)。
語義網(wǎng)絡(luò)(Semantic Network),是一種以網(wǎng)絡(luò)格式表達人類知識構(gòu)造的形式。它是由結(jié)點和結(jié)點之間的弧組成,結(jié)點表示概念(事件、事物),弧表示它們之間的關(guān)系。
語義網(wǎng)絡(luò)是一種比較早的知識表達形式,它是一個帶標(biāo)示的有向圖,各個節(jié)點表示知識中的物體、概念、實物等,點與點之間的鏈接。
“誰是誰的什么”的指向性關(guān)聯(lián)關(guān)系,與語義網(wǎng)絡(luò)類似,在知識圖譜領(lǐng)域,是一些相互連接的實體以及屬性構(gòu)成。
所以,知識圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。
因此從數(shù)據(jù)角度來看,知識圖譜通過對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)進行處理、抽取、整合,轉(zhuǎn)化成“實體-關(guān)系-實體”(見圖1.1-3)的三元組,然后聚合大量知識,實現(xiàn)快速的響應(yīng)。
從應(yīng)用層面來看,知識圖譜是用來描述真實世界中存在的實體,以及他們之間的關(guān)系。
圖1.1-3 三元組案例
從不同視角,基于圖1.1-3的案例,我們來看一下知識圖譜在不同技術(shù)的理解。
從互聯(lián)網(wǎng)視角來看,跟文本之間的超鏈接一樣,通過圖譜建立數(shù)據(jù)之間的語義鏈接。比如,張三的妻子是李四,通過圖數(shù)據(jù)方式支持實體、實體之間的關(guān)系的檢索。
從自然語言處理的角度來看,如何從非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)中提取數(shù)據(jù),抽取其中的語義。比如,我們拿到張三的簡歷,簡歷上寫出生地是河北,通過提取規(guī)則來獲取到“張三”、“河北”這兩個實體,以及“籍貫”這個關(guān)系,并機構(gòu)化存儲起來。
從人工智能視角來看,如何利用知識圖譜來輔助理解人類的語言,并進行相應(yīng)關(guān)系的查詢和機器的推理。
1.2?知識圖譜的表示與存儲
我們了解了知識圖譜的概念,那么知識圖譜是如何存儲知識數(shù)據(jù)以及如何呈現(xiàn)出來的?作為產(chǎn)品經(jīng)理理解知識圖譜的表示與存儲對我們有什么意義呢?這些問題將在本章中進行解釋與回答。
1.2.1 知識圖譜的表示
所謂知識圖譜的表示,是指計算機通過何種方式來表達真實世界中包含的知識數(shù)據(jù)。
知識圖譜本質(zhì)上就是語義網(wǎng)絡(luò)的知識庫,因此我們可以簡單把知識圖譜的表示理解為多關(guān)系圖,基于向量空間學(xué)習(xí)的分布式知識表示。
我們知道圖是由點和邊來構(gòu)成的。那在知識圖譜中,用“實體”來表達圖中的點,用“關(guān)系”來表單不同點之間的聯(lián)系,例如圖1.1-3,其中的圓形的代表實體,點與點之間的連線是叫關(guān)系。
實體是現(xiàn)實世界中的事物,比如人名、地名、公司名、藥品名稱、專業(yè)知識概念、在某些場景下年齡、性別等都可以作為實體;關(guān)系是不同實體之間的真實聯(lián)系,比如李四是張三的妻子,張三的籍貫是河北等,里面的妻子、籍貫都是真實世界中的關(guān)系。
在現(xiàn)實世界社交網(wǎng)絡(luò)中,我們可以找到好多實體,比圖某某人、某某公司、某某人手機號、某某公司注冊地址等都可以作為實體數(shù)據(jù)。實體與實體之間的關(guān)系也不是一成不變的,比如人與工作崗位的關(guān)系,并不是一成不變的,是根據(jù)人的工作年限,努力程度,其工作崗位會有變動。因此人與工作崗位的關(guān)系中可以有曾任職、現(xiàn)任職等關(guān)系,案例看圖1.2-1。
圖1.2-1 某企業(yè)信用查詢APP關(guān)于企業(yè)關(guān)系的圖譜
從圖1.2-1中我們可以看到有如下“實體-關(guān)系-實體”:
- 某某企業(yè)與某某企業(yè)間的參股關(guān)系;
- 某某企業(yè)與某某人間的職位(總經(jīng)理、董事長、董事等)關(guān)系;
- 某某企業(yè)與某某人間的參股關(guān)系。
因此我們可以從圖中得知某某人、某某企業(yè)是實體;參股、總經(jīng)理、董事長、監(jiān)事等是關(guān)系。
知識圖譜處理表達的實體與實體間的關(guān)三元組是知識圖譜的核心。除此之外,可以表達實體的某些屬性,可以通過屬性圖來表達,比如某某人的出生日期、比如某某人的曾用名、比如某某人的介紹等。
因此,知識圖譜整體來說,是通過圖數(shù)據(jù)的形式,來表達實體與實體間的關(guān)系,實體的相關(guān)屬性的值。
1.2.2 知識圖譜的存儲
通過知識圖譜的表示,可以很直觀看到知識圖譜包含的知識數(shù)據(jù),對于理解知識圖譜的存儲有很好的促進作用。
知識圖譜主要有兩種存儲方式:
- 基于RDF的存儲;
- 基于圖數(shù)據(jù)庫的存儲。
由于RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息,圖數(shù)據(jù)庫一般以屬性圖為基本的表示方式,常用Neo4j。因此所以實體和關(guān)系可以包含屬性,能更容易表達現(xiàn)實的業(yè)務(wù)場景。
知識圖譜的原始數(shù)據(jù)類型一般來說有三類:
- 結(jié)構(gòu)化數(shù)據(jù):如關(guān)系數(shù)據(jù)庫;
- 非結(jié)構(gòu)化數(shù)據(jù):圖片、PDF、視頻、音頻、文本等;
- 半結(jié)構(gòu)化數(shù)據(jù):百科知識、JSON、XML等。
從以上數(shù)據(jù)中提取實體、關(guān)系、屬性以及屬性值。
做后臺產(chǎn)品經(jīng)理的,對關(guān)系型數(shù)據(jù)庫并不陌生,有人會問了,按照圖1.1-3不一定通過知識圖譜通過關(guān)系圖譜也可以達到效果了,比如建一個人員基本信息表,建一個用戶間家庭關(guān)系,也可以查詢到,如圖1.2-2。
圖1.2-2 二維表關(guān)系表示
那么,知識圖譜圖數(shù)據(jù)存儲方式到底跟關(guān)系型數(shù)據(jù)庫道理有什么區(qū)別呢?
其實,關(guān)系型數(shù)據(jù)存儲方式與圖數(shù)據(jù)存儲方式之間的作用不是非此即彼的,是相互配合使用的,根據(jù)不同的業(yè)務(wù)場景來使用。
圖數(shù)據(jù)多關(guān)系的建模,關(guān)系型數(shù)據(jù)庫是不同表之間的關(guān)系,如果關(guān)系太多對關(guān)系型數(shù)據(jù)庫并不是很友好。在圖數(shù)據(jù)庫中可以把籍貫、職業(yè)拆分出來一個關(guān)系。
不僅如此,如果我們把身份證號作為一個實體,那么姓名、曾用名等都可以查分出來一個關(guān)系,這個是關(guān)系型數(shù)據(jù)庫難以做到的。
因此。圖數(shù)據(jù)庫更加適用于通過實體的分析找到對業(yè)務(wù)有力的更多的關(guān)系。比如,我們把籍貫的地址可以拆出來多個關(guān)系,現(xiàn)居住地、曾居住地、出生地等,同樣一個實體(河北)其實可以拆出來三種關(guān)系來滿足不同業(yè)務(wù)場景。
因此,知識圖譜更加關(guān)注關(guān)系,更加關(guān)注一些隱含的關(guān)系、序時變動的動態(tài)關(guān)系。當(dāng)然,多關(guān)系的查詢圖數(shù)據(jù)的性能更好。
關(guān)系型數(shù)據(jù)庫更是對數(shù)據(jù)的記錄,更多適用于一些業(yè)務(wù)流程數(shù)據(jù),比如電商里面的訂單銷售數(shù)據(jù)、合同數(shù)據(jù)、結(jié)算數(shù)據(jù)等,能夠記錄、反應(yīng)、分析基本業(yè)務(wù)要求與場景。
而圖數(shù)據(jù)更多是配合業(yè)務(wù)要求,去輔助業(yè)務(wù),比如訂單銷售數(shù)據(jù)中記錄了用戶買的什么產(chǎn)品這一事實,我們可以通過統(tǒng)計功能做一些業(yè)務(wù)分析。
但是如果做一些個性化推薦工作,我們可以通過圖數(shù)據(jù)的方式,通過用戶信息和產(chǎn)品某些特性之間建立關(guān)系,可以為客戶提供個性化的推薦方案——也就是說圖數(shù)據(jù)存儲方式可以幫助系統(tǒng)實現(xiàn)推理的功能。
比如,姚明是一個籃球運動員,我們知道籃球運動員有一個屬性就是身材都比較高。當(dāng)你問系統(tǒng)姚明身高的時候,系統(tǒng)可以通過姚明與籃球遠動員的關(guān)系,通過籃球運動員的屬性來推理出姚明身高——這也是圖數(shù)據(jù)庫存儲數(shù)據(jù)應(yīng)用的一個最重要的作用。
1.2.3 理解知識圖譜的表示和存儲對產(chǎn)品經(jīng)理的意義
對于理解知識圖譜的表示和存儲對產(chǎn)品經(jīng)理最重要的意義就是根據(jù)業(yè)務(wù)需求,定義實體、關(guān)系、屬性以及屬性值。
做后臺產(chǎn)品經(jīng)理我們都知道,我們在設(shè)計產(chǎn)品功能的時候,有四個基本對象需要設(shè)計:
- 存儲數(shù)據(jù)的字段;
- 梳理業(yè)務(wù)的流程;
- 規(guī)則設(shè)計(業(yè)務(wù)規(guī)則、輸入規(guī)則、邏輯規(guī)則等);
- 頁面交互的設(shè)計。
其中字段設(shè)計是其中最基礎(chǔ)的部分,是我們后臺設(shè)計最核心的部分。
首先,我們設(shè)計后臺系統(tǒng)展現(xiàn)的表單信息來源于字段設(shè)計、業(yè)務(wù)流程中體現(xiàn)的業(yè)務(wù)信息載體是字段設(shè)計、規(guī)則設(shè)計中相關(guān)規(guī)則控制對象也是字段,因此設(shè)計好字段是后臺產(chǎn)品設(shè)計最基礎(chǔ)也是最核心的工作。
字段維度涉及如下維度:
- 字段所屬對象,就像后臺按照模塊分類一樣 ,字段也有所屬對象的分類,比如商品、用戶、訂單、結(jié)算單、提現(xiàn)單、紅包、獎勵券、客戶等,這些對象是字段承載的載體。
- 字段值類型,字段值類型常用的包括字符串(比較常用)、枚舉(審核狀態(tài)、是否項目等)、日期時間、浮點數(shù)(金額類型,定義小數(shù)點后位數(shù),小數(shù)點前位數(shù))、數(shù)字(正整數(shù)、是否可以為負等)。
- 字段是否必填,這個是指字段在寫入值的時候是必須有值的還是可以為空,比如新增一個商品,商品編碼、商品名稱是必填,商品關(guān)鍵字可以為空等。
- 字段值來源,字段值來源是指字段在寫入的時候來源于哪里,常見的包括以下幾種:來源于輸入(就是通過前段某一個頁面通過用戶輸入或是選擇獲取的值),系統(tǒng)自動生成(比如創(chuàng)建時間、業(yè)務(wù)編號等字段);來源于其他數(shù)據(jù)(比如訂單里面的商品編碼字段,就來源商品里面的商品編碼字段)。
- 字段值長度,字段值長度是存儲在數(shù)據(jù)庫中值的最長長度是多少,比如字符串類型,可以規(guī)定長度32位,這個一般根據(jù)業(yè)務(wù)需求制定的一個最長長度,便于開發(fā)設(shè)計表結(jié)構(gòu)。當(dāng)你的數(shù)據(jù)項很清晰的時候,對于開發(fā)人員的理解業(yè)務(wù)、設(shè)計都有很好的促進作用。
我們做任何功能的設(shè)計,對數(shù)據(jù)的設(shè)計永遠是第一步。
對知識圖譜也一樣,我們要明確出來儲存哪些實體,建立哪些關(guān)系,哪些是屬性,屬性值是什么。
比如,防欺詐系統(tǒng)中,如果發(fā)現(xiàn)兩個不同的用戶擁有了同一個手機號或是居住地址,并且兩者沒有任何家庭關(guān)系的時候,我們就認為這是一個具有欺詐行為的用戶(因為一般用戶和手機號是一對多的,手機號對用戶是一對一的,一個手機號不太可能給兩個用戶使用)。
這時我們會把手機號、姓名、身份證號、地域作為實體,然后建立聯(lián)系方式、身份信息隸屬、居住地、家庭關(guān)系等相關(guān)關(guān)系,通過手機號、姓名的聯(lián)系方式關(guān)系查詢一目了然。
因此,圖譜的使用也離不開產(chǎn)品經(jīng)理對業(yè)務(wù)的深入理解,在深入理解的前提下,正確識別實體、關(guān)系、屬性等圖數(shù)據(jù)基本存儲方式。對于開發(fā)對業(yè)務(wù)的理解、開發(fā)的設(shè)計也是有相同的促進作用。
所以,理解知識圖譜的存儲與表示,能更好幫助產(chǎn)品經(jīng)理定義知識圖譜,定義實體、關(guān)系、屬性以及屬性值。
1.3?知識圖譜構(gòu)建過程
我們了解了什么是知識圖譜,知識圖譜的數(shù)據(jù)機構(gòu)。
那下面我們簡單描述一下如何構(gòu)建知識圖譜,以及了解如何構(gòu)建知識圖譜對我們產(chǎn)品經(jīng)理有什么幫助。
1.3.1?知識圖譜的邏輯架構(gòu)
在了解知識圖譜構(gòu)建流程之前,我們先了解一下其邏輯架構(gòu)。
知識圖譜在邏輯上分為模式層和數(shù)據(jù)層:
- 模式層:是知識圖譜的核心,是構(gòu)建在數(shù)據(jù)層之上,也就是定義通用概念為實體、實體鍵的關(guān)系,也成構(gòu)建本體庫,也就是指的實體-關(guān)系-實體,實體-屬性-性值。
- 數(shù)據(jù)層:是知識圖譜的事實數(shù)據(jù),以相關(guān)事實為單位進行存儲,比如張三——妻子——李四;張三——出生年份——1985等。
1.3.2?知識圖譜構(gòu)建流程
知識圖譜的構(gòu)建是后續(xù)應(yīng)用的基礎(chǔ),知識圖譜確定了本體庫,就需要對知識圖譜的數(shù)據(jù)進行構(gòu)建。具體構(gòu)建過程包含3個階段:信息抽取、知識融合、知識加工。
1)信息抽取
從各種數(shù)據(jù)源中進行實體識別、關(guān)系識別,從而抽取實體、關(guān)系、屬性以及實體間的關(guān)系,屬性的值,完成本體的知識表達,具體可以參照前文關(guān)于知識庫的表達部分。
對于知識圖譜來說,數(shù)據(jù)源我們知道有結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)渠道一般是三種:
- 業(yè)務(wù)的關(guān)系數(shù)據(jù),這些數(shù)據(jù)通常包含在公司內(nèi)數(shù)據(jù)庫中;一般是結(jié)構(gòu)化數(shù)據(jù),或者是系統(tǒng)交互中Jison數(shù)據(jù),雖然沒有結(jié)構(gòu)化,但是仍然可以通過功能進行存儲,這種數(shù)據(jù)一般定義好本體庫可以直接使用;
- 網(wǎng)上公開發(fā)布的可以抓取的數(shù)據(jù),通常以網(wǎng)頁形式存在,這種一般要通過爬蟲技術(shù),通過本體庫相關(guān)關(guān)鍵詞進行數(shù)據(jù)的爬取并結(jié)構(gòu)化;
- 相關(guān)合同、文件等,比如一些保險合同、電子發(fā)票信息等;這種一般需要自然語言處理技術(shù),進行數(shù)據(jù)信息的結(jié)構(gòu)化提取。
信息的抽取是知識圖譜構(gòu)建的第一步,關(guān)鍵的點是:如何從數(shù)據(jù)源中自動抽取到實體、關(guān)系、以及屬性等機構(gòu)化技術(shù)。
實體抽取又稱為實體識別,就是從文本中自動識別出來命名的實體,它是信息抽取中最基礎(chǔ)的部分。
關(guān)系抽取就是進行語義的識別,抽取到實體間的關(guān)系,這個是信息抽取中最關(guān)鍵的部分,也是形成網(wǎng)狀知識結(jié)構(gòu)的基礎(chǔ)。
關(guān)系的識別運用到各種算法模型以及機器學(xué)習(xí)的方法,屬性抽取實現(xiàn)的是實體屬性的完整勾勒。
2)知識融合
主要是新知識的融合、整合、判別同義、近義、消除歧義、矛盾。
比如,某些實體數(shù)據(jù)在顯示世界中有多種表達方式,公司的注冊名稱、公司的簡稱等,要對這些知識進行同義融合,再比如某些特定的稱謂也許對應(yīng)著多個不同的實體。
知識融合包括兩部分:實體鏈接和知識合并。
- 實體鏈接:是指對于從文本中抽取得到的實體對象,將其鏈接到知識庫中對應(yīng)的正確實體對象的操作。一般是從知識庫中選中一些候選的對象,然后通過相似度將指定對象鏈接到正確的實體。流程如下:通過實體抽取獲取實體指稱項——通過實體消歧(解決同名實體歧義)和共指消解(多個指稱指向同一實體進行相應(yīng)的合并)——將實體指稱鏈接到知識庫對應(yīng)實體。
- 知識合并:從第三方知識庫產(chǎn)品或是已有的結(jié)構(gòu)化數(shù)據(jù)中進行知識的獲取,一般是合并外部知識庫和和合并關(guān)系數(shù)據(jù)庫,合并中要避免實體與關(guān)系的沖突問題,防止不必要的冗余。
3)知識加工
某些知識需要進行質(zhì)量評估,并且有些還需要人工介入與甄別,并進行數(shù)據(jù)修正,然后再將正確的數(shù)據(jù)加入到知識庫中,保證其中的質(zhì)量。
知識加工主要包含:本體構(gòu)建、知識推理和質(zhì)量評估。
我們從數(shù)據(jù)源中通過信息的抽取、實體、關(guān)系的識別,相關(guān)異常數(shù)據(jù)融合后,我們可以構(gòu)建本體庫了。
但是構(gòu)建完本體庫后,算是雛形搭建好了,有關(guān)系可能存在殘缺,這時候我們就可以運用推理技術(shù),完成進一步知識的發(fā)現(xiàn)。比如A是B的配偶,B是生活在C城市。如果我們從數(shù)據(jù)中沒有提取到A和C的關(guān)系,那我們可以通過配偶關(guān)系,推理出來A也生活在C。
質(zhì)量評估就是知識的可信度進行量化,對一些置信度比較低的知識進行舍棄。在處理過程中,人的參與也非常重要。
1.3.3?了解知識圖譜的構(gòu)建對產(chǎn)品經(jīng)理的意義
在知識圖譜構(gòu)建過程中,會綜合運用知識圖譜存儲技術(shù)、相似度算法模型、深度學(xué)習(xí)等技術(shù)方法,是不是只需要技術(shù)人員參與就可以了?
其實并不是。
相反,他需要產(chǎn)品經(jīng)理與技術(shù)人員更加深度的合作與交流,并且在整個圖譜的建設(shè)過程中都少不了產(chǎn)品經(jīng)理的參與;在某些圖譜建設(shè)過程中產(chǎn)品經(jīng)理還處于主導(dǎo)作用。
當(dāng)你打算構(gòu)建一個知識圖譜,僅僅只靠技術(shù)人員去構(gòu)建是不夠的,需要產(chǎn)品經(jīng)理做出業(yè)務(wù)定義,理解業(yè)務(wù)所需要的圖譜數(shù)據(jù),指明圖譜中哪些是實體,哪些是屬性,實體間有什么樣的關(guān)系,這些都是要由產(chǎn)品經(jīng)理定義好的。
并且在建設(shè)圖譜來看,需要產(chǎn)品經(jīng)理與技術(shù)人員之間更加深入的交流與配合,更加要求產(chǎn)品懂得技術(shù)的應(yīng)用流程。比如業(yè)務(wù)數(shù)據(jù)的提供、數(shù)據(jù)范圍的劃分,圖譜提取之后的驗證等。
每一步的構(gòu)建過程都需要產(chǎn)品經(jīng)理與技術(shù)人員的溝通,所以對于AI產(chǎn)品經(jīng)理很重要的一點:理解技術(shù),理解技術(shù)的應(yīng)用,參與到技術(shù)應(yīng)用過程中。
二、知識圖譜應(yīng)用
通過了解支持圖譜是什么,知識圖譜如何表示,知識圖譜的構(gòu)建過程之后,那么一個完整的知識圖譜是如何設(shè)計的呢?
主要包含以下步驟:
- 定義業(yè)務(wù)需求;
- 數(shù)據(jù)收集與處理;
- 圖譜數(shù)據(jù)的設(shè)計;
- 知識圖譜的存儲;
- 算法開發(fā);
- 應(yīng)用開發(fā)。
很多人都認為,構(gòu)建知識圖譜主要靠算法和開發(fā),但事實最重要的是對業(yè)務(wù)需求的理解以及圖譜數(shù)據(jù)的設(shè)計。
就像我們在做后臺產(chǎn)品設(shè)計的時候,數(shù)據(jù)庫表設(shè)計尤其關(guān)鍵,數(shù)據(jù)庫表設(shè)計的數(shù)據(jù)項與業(yè)務(wù)的深入理解是緊密聯(lián)系在一起的。
因此,設(shè)計知識圖譜跟我們產(chǎn)品經(jīng)理設(shè)計其他產(chǎn)品一樣:理解業(yè)務(wù),設(shè)計數(shù)據(jù)字段。
圖2-1借鑒李文哲對知識圖譜構(gòu)建理解
通過上圖我們知道,一個知識圖譜的構(gòu)建最重要的是業(yè)務(wù)理解、圖譜數(shù)據(jù)的設(shè)計,這恰恰是產(chǎn)品經(jīng)理需要主導(dǎo)的設(shè)計工作。
因此下文將重點介紹一下定義業(yè)務(wù)需求、數(shù)據(jù)收集與處理以及圖數(shù)據(jù)的設(shè)計。
2.1?定義業(yè)務(wù)需求
在知識圖譜中定義業(yè)務(wù)需求主要是兩方面:
1)要解決什么問題
這個跟咱們做前端、后臺產(chǎn)品經(jīng)理一樣,我們可以通過理解業(yè)務(wù)流程、數(shù)據(jù)字段的梳理、通過原型交互的實現(xiàn)來實現(xiàn)我們的業(yè)務(wù)需求。知識圖譜也一樣,圖譜也有上層應(yīng)用,比如問答機器人、個性化推薦等,通過一定應(yīng)用介質(zhì)實現(xiàn)需求的輸入和輸出。
2)解決這個問題,是否需要使用知識圖譜?
回答這個問題就是需要我們在設(shè)計需求的時候,我們通過什么樣的數(shù)據(jù)存儲就可以解決我們的業(yè)務(wù)需求。實際上有時候我們完成業(yè)務(wù)需求的時候,用關(guān)系型的數(shù)據(jù)庫就可以完成,那么我們也就不需要知識圖譜了。
什么樣的需求可以用知識圖譜呢?
要想解決這個問題,就需要我們深入理解數(shù)據(jù)的存儲方式,目前數(shù)據(jù)存儲的設(shè)計主要是關(guān)系型數(shù)據(jù)庫和知識圖譜型的數(shù)據(jù)存儲。因此了解需求所需要的數(shù)據(jù),以及數(shù)據(jù)的使用方式,是判定是否使用知識圖譜最好的方法。
知識圖譜對比關(guān)系型數(shù)據(jù)庫,最大的功能是數(shù)據(jù)間的多關(guān)系應(yīng)用,一般知識圖譜數(shù)據(jù)存儲方式解決的是多關(guān)系以及關(guān)系間的深度搜搜、對關(guān)系的查詢實時性要求、多樣化的數(shù)據(jù)以及數(shù)據(jù)孤島的問題。
當(dāng)然,處理關(guān)系深度需求需要知識圖譜之外,我們知道知識圖譜還有一個推理的作用,因此涉及到推理的需求也可以考慮知識圖譜。
2.1.1?關(guān)系需求
關(guān)系需求,就是說需求設(shè)計到數(shù)據(jù)間多關(guān)系的查詢,多關(guān)系的應(yīng)用,可以考慮知識圖譜。
那么,具體什么樣的關(guān)系可以通過知識圖譜呢?以下提供兩個思路給予借鑒:
1)某一數(shù)據(jù)存在與多實體產(chǎn)生關(guān)系
某一數(shù)據(jù)存在與多實體產(chǎn)生關(guān)系,是指某一項數(shù)據(jù)跟多個實體間有關(guān)系,這樣通過這一條數(shù)據(jù)的查找可以找到相關(guān)實體的數(shù)據(jù)。
比如,我們把一個年齡數(shù)據(jù)做成一個實體,實體是30周歲,張三年齡是30周歲,某一款產(chǎn)品試用范圍是10-50周歲;如果我們通過這個人的年齡查找這個產(chǎn)品,我們可以建立兩個實體間的關(guān)系,一個是人的年齡關(guān)系,一個是產(chǎn)品適用年齡關(guān)系,這樣就能很快查找到。
2)多實體間多關(guān)系查找實體
多實體間多關(guān)系查找實體,是指一個實體與另一個實體的時候,存在多個關(guān)系,通過多個關(guān)系去查找另一個實體。
比如,人、出生地、年齡之間有三個實體、兩個關(guān)系,某一款產(chǎn)品、售賣地區(qū)、適用年齡也是三個實體兩個關(guān)系;通過人的出生地、年齡實體數(shù)據(jù)以及關(guān)系,可以相應(yīng)查到這個售賣地區(qū)、適用年齡的某款產(chǎn)品。
因此我們可以發(fā)現(xiàn)知識圖譜能解決數(shù)據(jù)間多關(guān)系、深層次關(guān)系的實體查詢。
2.1.2?推理需求
知識圖譜不僅僅是根據(jù)關(guān)系的檢索,更大的核心用途是推理,發(fā)現(xiàn)圖譜中的隱藏關(guān)系,而不是發(fā)現(xiàn)新知識。
1)通過實體間的關(guān)系推理相關(guān)關(guān)系
通過多實體間的關(guān)系,可以推斷其他的關(guān)系,比如張三和李四之間是夫妻關(guān)系,王五是張三的領(lǐng)導(dǎo),王五居住在A城市,我們可以推論李四也居住在A城市。
2)通過實體間的關(guān)系推理相關(guān)屬性
通過多實體間的關(guān)系,實體的屬性值,可以推斷其實體的屬性值。這個與通過實體間的關(guān)系推論關(guān)系道理類似,也可以通過一個實體間的關(guān)系、根據(jù)實體的屬性推斷另一個實體的屬性。
在AI中涉及到推理的方法有很多,有基于邏輯的推理,有基于深度學(xué)習(xí)的推——這個就是基于圖譜的推理,也就是通過關(guān)系、屬性的因素做的推理。
2.2 數(shù)據(jù)的收集與處理
定義好業(yè)務(wù)需求,就得根據(jù)業(yè)務(wù)需求找相關(guān)的數(shù)據(jù)。
我們在知識圖譜的構(gòu)建過程中關(guān)于信息的提取,介紹過都可以用那些數(shù)據(jù),這里重點介紹我們在收集數(shù)據(jù)的時候如何跟技術(shù)同事配合。
2.2.1?結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)是知識圖譜最信賴的數(shù)據(jù),通常來自于我們業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),比如一些用戶畫像數(shù)據(jù)、銷售數(shù)據(jù)、合同數(shù)據(jù)、資源數(shù)據(jù)、財務(wù)數(shù)據(jù)等。
凡是已經(jīng)結(jié)構(gòu)化的關(guān)系型數(shù)據(jù),我們都可以結(jié)合業(yè)務(wù)的需求,來判定是否需要加入知識圖譜中,對于這些數(shù)據(jù)我們?nèi)绾翁峁┙o技術(shù)同事呢?
很簡單,我們通過EXCEL表就可以了,只要告訴結(jié)構(gòu)化數(shù)據(jù)中哪些需要寫入到圖譜中就可以了。
2.2.2?半結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)要考慮兩點:
- 在開發(fā)資源中沒有存儲在結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫中,但是存在Jison中的數(shù)據(jù),這些可以通過開發(fā)能力解析Jison中的數(shù)據(jù),結(jié)構(gòu)化到知識圖譜中;
- 通過數(shù)據(jù)爬蟲的方式,爬蟲工程師在網(wǎng)頁上爬去相關(guān)的數(shù)據(jù),這需要產(chǎn)品經(jīng)理指明爬取的網(wǎng)頁、網(wǎng)頁的哪些數(shù)據(jù)項、這些數(shù)據(jù)項拆分哪些字段,先形成結(jié)構(gòu)化數(shù)據(jù),然后在計入到知識圖譜中。
2.2.3?非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)主要是一些文檔、文件等,比如一些合同文件、文章、PDF文檔等,需要產(chǎn)品經(jīng)理明確好要提取這些文檔哪些知識、提取規(guī)則,在通過算法識別、提取、訓(xùn)練等提取成結(jié)構(gòu)化數(shù)據(jù),然后計入到知識圖譜中。
2.3?圖譜數(shù)據(jù)的設(shè)計
我們拿到了數(shù)據(jù),就要開始知識圖譜的設(shè)計了。設(shè)計知識圖譜不僅需要對業(yè)務(wù)有很深的理解,也需要考慮圖譜的實用性、高效性。
設(shè)計知識圖譜主要是設(shè)計知識圖譜的三元組,也就是哪些數(shù)據(jù)是實體、哪些數(shù)據(jù)是屬性、實體之間有什么關(guān)系。這個在設(shè)計過程中需要很深入的理解,要根據(jù)業(yè)務(wù)需求去設(shè)計。
在這里提一點:實體是數(shù)據(jù)不是一個類,比如產(chǎn)品不是實體,一個具體的產(chǎn)品名稱是一個實體;屬性也是一樣,是一個具體的值,比如性別不是屬性,男、女才是屬性值;只有關(guān)系是一個類,比如人的年齡,年齡就是一個關(guān)系。
除此之外,知識圖譜設(shè)計的藝術(shù)性還體現(xiàn)在,實體和屬性在不同業(yè)務(wù)要求下,可以有不同的定義。
有些實體可以作為屬性,有些屬性可以作為實體,也要具體看業(yè)務(wù)需求。比如,年齡數(shù)據(jù),如果不需要跟其他實體產(chǎn)生關(guān)系可以作為屬性;如果需要產(chǎn)生關(guān)系,就要作為實體。
在設(shè)計圖譜的時候,還要把握哪些數(shù)據(jù)是冗余的、不需要的。因此,作為產(chǎn)品經(jīng)理在做知識圖譜的設(shè)計的時候,最重要的就是這個三元組的設(shè)計。
本文由 @羅飛 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
語文,語言邏輯有待優(yōu)化
寫的很清晰呢
對于初步了解知識圖譜的概念非常有幫助,非常感謝!