知識圖譜在內容類產品中的應用
編輯導語:內容類產品若想提升用戶體驗,便需要提高內容品質,使用戶能夠方便快捷地獲取內容。那么,如何提升內容類產品的品質?本篇文章里,作者對當前內容類產品現狀做了簡要闡述,并對知識圖譜如何應用于內容類產品做了總結,一起來看一下。
一、前言
知識圖譜相信大家已經不陌生,已經大家比較熟知的一個詞匯了。最早知識圖譜是谷歌為了優化搜索引擎提出的一套理論體系。最常見的大家如果搜索“王健林的兒子是誰”,有了知識圖譜的加持,搜索引擎會直接告訴你答案是王思聰,而不是去檢索“王健林的兒子是誰”這句話。
如今的知識圖譜已經廣泛應用于各種智能場景。例如在金融領域反欺詐的應用,最常見的我們發現兩個不同的信貸客戶使用的竟然是同一個手機號,發現這類異常,我們再去進一步深挖原因,避免欺詐情況發生。
在NLP(Natural Language Processing,自然語言處理)中,知識圖譜常用于實體統一。正常的NLP如果沒有特殊配置,計算機一定是不理解“ICBC”就是指的是“中國工商銀行”。通過知識圖譜將“ICBC”都統一為“中國工商銀行”。
另外通過知識圖譜在指代消解中的應用,增加計算機對于文本理解的準確率。知識圖譜適用的領域還非常多,在此就不列舉了。
本文主要討論通過知識圖譜在內容類產品中的應用,提高內容類產品的品質,進而提升客戶滿意度與產品的競爭力。
二、我們的痛點
目前處于信息大爆炸的時代,我們每時每刻都接收大量信息。當我們在搜索引擎或是內容類應用去查看信息時,往往會給我們呈現許多與我們不相關的垃圾信息。有些信息是在內容創作階段,通過各種抄襲拼湊而生成文章,最后呈現給用戶結果雖然很多,但毫無價值,也提升了用戶的檢索成本。
相信大家在日常使用中,也有同感,當我們去搜索想要的信息時,往往會出來一大堆,信息過于分散,也不成體系。
我們需要有一種平臺,可以給我們提供相對比較純凈、權威的信息。我們的生活需要高品質,不論是物質生活還是精神生活。信息是我們精神生活的重要組成部分,同樣我們也需要有成體系的、有深度的內容出現。
三、目前現狀
目前內容類的應用很多。幾乎每個領域都有每個領域的核心內容供應商。比如自己查看產品相關文章,幾乎不會去使用搜索引擎檢索文章,而是到相應的產品網站去查看或檢索內容。主要是一種信任感。所以平臺內容的品質很重要。
通常內容創造,主要分為:OGC(Occupationally Generated Content, 職業生產內容)、PGC(Professionally Generated Content,專業人士輸出內容)和UGC(User Generated Content,用戶輸出內容)。一般OGC和PGC生成的內容品質較高,但畢竟人力有限,依賴UGC可以短時間內產生大量內容,但內容的品質不能保證,過多的垃圾內容,反而會降低內容平臺的權威性。
如何能提高內容數量的同時,又不影響內容的品質,這是內容類產品必然要考慮的一個問題。
四、知識圖譜如何應用于內容類產品
對于內容類產品,如果你是內容類產品的產品經理,需要制定一個關于你所負責的內容類產品的“北極星”指標,你會怎么制定?
是產品的DAU(Daily Active User,日活躍用戶)、MAU(Monthly Active User,月活躍用戶)還是ARPPU(Average Revenue Per Paying User,平均每付費用戶貢獻的收入)?
這些指標其實都可以人為去干預。就像是公交車總公司要求提升乘客上座率,結果公交車分公司為了提升上座率,減少了公交車的座位數,指標是達到了,但沒解決本質問題。
好的產品一定不是通過指標制定出來的。而是去發現本質的問題,解決最核心的問題。對于內容類產品而言,你的內容質量提升了,用戶在第一時間很方便找出他們需要的信息,覺得產品整個使用過程簡潔流暢,這就可以了。
所以內容類產品的“北極星”指標應該設定為:提升內容品質,增加優質內容數量。
內容品質上去了,瀏覽量自然就上來了。
如何提升內容類產品的品質?
結合個人多年實際工作經驗,我認為最主要有三點:
- 平臺的內容不能有重復。很明顯,用戶到一個平臺中,看到的都是一些重復的內容,肯定對這個平臺印象很差,就很難產生信任,就更不必說去推薦給其他人了。
- 平臺的內容不能有明顯的錯誤。內容類產品內容是其產品最為核心的競爭力。內容要確保其權威性,當用戶需要某些信息時,可以很自信地說,來源于XX平臺。這就要求平臺上的內容要很精準。
- 平臺的內容要方便獲取。用戶需要某些信息時,平臺可以很快速地響應用戶的訴求,節省用戶信息檢索成本。如何通過知識圖譜實現上述目標?
如上圖所示。我們可以按上圖所描述的框架進行內容類產品知識圖譜的構建。
我們知道,一般OGC和PGC的內容會有專門的人員進行校對和審核,而UGC的內容,平臺往往沒有非常多的人力去做這個事情。
目前內容類平臺,基于AI(Artificial Intelligence,人工智能)技術,主要是NLP技術,對于內容類的應用,主要是用于對非法內容的審核。而對于內容品質的管理——不冗余、準確且易獲取,就需要用到上述的知識圖譜框架來進行實現。
首先,我們對用戶發表的內容進行數據轉換與統一,因為用戶輸入的內容,可能是文字、聲音或是視頻。根據不同結構的數據統一轉換成結構化數據。
其次,我們對轉換與統一好的數據進行數據建模,并進行知識抽取。生成基本的知識體系。為后續的知識融合與計算奠定基礎。
再次,我們進行知識融合與計算。這一步是知識圖譜在內容類產品中的應用關鍵。在這個步驟中,我們可以發現平臺內冗余的內容信息。
例如,某一個用戶發表的內容在介紹月球,有如下知識圖譜信息(使用JSON表示):
{“實體名稱”:”月球”,”實體信息”:[{“英文名稱”:”moon”},{“分類”:”衛星”},{“公轉周期”:”約27.32天”},]}
如果另一個用戶發表的內容,抽象出來的圖譜信息和上一個用戶的知識圖譜內容是一樣的,基本我們可以判斷是一個冗余信息。只不過我們可以通過設定圖譜的權重進一步為內容進行打分。
正常情況下,用戶檢索內容的時候,更多的是希望獲得答案,比如提問“月亮的公轉周期是多少?”,我們只需要給用戶提供結果“約27.32天”就可以。
另外,在這個知識融合的過程,通過知識圖譜可以發現異常與錯誤的內容。
例如,圖譜中,我們已經定義地球是圓的,突然出來用戶的文章,說地球是方的。兩個內容,抽象出的“地球-形狀-圓形”與“地球-形狀-方形”,有明顯的不一致。就可以快速發現異常信息。經過人工與是計算機AI進一步進行對內容的處理,將優質的信息上浮,使劣質的信息下沉或消亡。
最后,就是知識圖譜的最終呈現。
用戶希望在平臺獲得某些內容時,我們除了直接為用戶提供其需要的答案外,我們還可以通過知識圖譜將結果內容進行關聯化展示,使用戶清晰地了解到內容以及答案的來龍去脈與因果關系,在內容的廣度和深度上服務于用戶。
五、小結
未來的互聯網會向著元宇宙(Metaverse)方向發展。在這里,就像是電影《黑客帝國》中所描述的場景,我們會通過腦機接口,在一個浩瀚的虛擬的時空中進行集合。在這個時空里,人將會同計算機無縫整合,AI也會達到前所未有的高度。
內容,本身就是一個虛擬世界。內容平臺,本身也是一個元宇宙的平臺。虛擬的世界,也是世界。內容平臺的內容,本身也會像是宇宙一樣,浩瀚無邊。
雖然說互聯網是開放的,但是我們與不能因為開放,而放棄對高品質內容的追求。正是因為開放,我們更要有一種機制來維護這個社區的健康有序發展。
而知識圖譜,將會是內容平臺中的一種隱形的規則,確保在內容平臺中,每個參與者所提供內容的嚴肅與高品質。這也是未來元宇宙健康蓬勃發展的關鍵。
#專欄作家#
王佳亮,微信公眾號:佳佳原創,人人都是產品經理專欄作家。中國計算機學會(CCF)會員,專注于互聯網產品設計理念分享。
本文原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
- 目前還沒評論,等你發揮!