知識圖譜:專治各種“撒幣”
技術正在努力把未來的幣,撒到現在的土壤里。
曾記得十幾天之前否?那時我們躊躇滿志的跨進了2018,滿懷著對未來的渴望和珍重……然后我們驚奇地發現,2018第一個火起來的詞叫“撒幣”…
不是我說啥,這可真出戲啊。
似乎一夜之間,直播答題和這個叫做”撒幣”的關鍵詞就火了。王思聰的沖頂大會、映客的芝士超人、花椒的百萬贏家,一時之間大佬們瘋狂爭當“大撒幣”,人民群眾則紛紛出頭相當被幣砸到的那個幸運兒。
當然了,不管這些平臺們如何“撒”,最終“幣”還是要回到他們自己口袋里的,畢竟做生意是為了賺錢,搞出來這么大場面當然是為了放后招,沒聽說過哪位出題讓人答是為了做慈善的。除非…除非AI化妝成選手,也來答個題,說不定能干到王思聰們沒幣可撒…
畢竟,答題也是講科學的對不對?
AI答題這件事其實也不新鮮,不信你百度輸入一個“長城有多長”之類的,馬上就會給你跳出來答案。這里就是用了AI的專業答題姿勢:知識圖譜。
借著直播答題的春風,今天講講知識圖譜的故事吧。雖然在機器視覺、語音交互等“網紅技術”面前,作為AI重要分支之一的知識圖譜似乎不那么出位。但是以應用度和腦洞指數來說,這個技術絕對當仁不讓。更重要的是,在“AI感知”通向“AI理解”的大路上,知識圖譜近乎是無法繞開的一道關卡。
更更重要的是——他能幫你答題啊……
知識圖譜是什么鬼?
知識圖譜這個概念被提出并不算太久,但是要追根溯源理解這個技術到底是玩什么的,那可能真要往上倒騰幾十年才行。
上世紀40年代,人工智能被提出之后,無數科學家們就開始琢磨,到底用什么方式能讓機器模擬出人的智慧呢?琢磨來琢磨去,人對于信息能夠進行關聯理解似乎是個路子。所謂信息關聯,就是人類在接受一個信息后,會把它放在記憶中進行歸納和調用。
比如說你打小認識了你三舅,絕不可能過幾年管他叫二哥…
利用這個思路,上世紀50年代末,學術界提出了語義網絡(semantic network)的設想,打算把數據進行結構化的處理,讓單個信息組合成有聯系、能共鳴的“知識”。今天我們用到的很多技術都來源于語義網絡,比如機器翻譯、自然語言處理等等,知識圖譜也是其中之一。
上世紀80年代,受到多方面刺激的地球人開始了一次AI復興運動,而這次運動的主角,就是各國開始打造專家系統和知識庫。那時候科學家們相信,如果把人類大量知識進行邏輯化關聯和語義網絡存儲,最終人類就能打造出全知全能,啥啥都懂的人工智能。
可惜好景不長,最終AI沒等類呢PC先來了,專家系統紛紛被棄置。但是海量知識構成的知識庫卻成為了寶物流傳了下來。
2002年,基于語義web技術和Freebase等優質知識庫,谷歌宣布推出了知識圖譜(Knowledge Graph)概念,并在2013年投入使用。所謂知識圖譜,實際上是建立在網頁百科知識庫基礎上,利用語義網絡進行知識關聯的技術。它可以用來幫助學術人員快速搜集和理解信息,也可以用來分析情報,辨別信息真偽。在產業端則為搜索、內容推薦和智能問答提供了基礎,成為今天AI領域不是十分熱門,卻也足夠強勢的一個技術類別。
如果說了這么多還沒明白,那就舉個直白的例子吧:
假如你這幾天很好奇一個叫PGone的詞為啥火了。然后你去搜索一下,結果給你推薦的詞是PGtwo、PGthree…那你就跟沒搜一樣。假如蹦出來兩個詞,一個是賈乃亮一個是地溝油,那么你就了然了嘛…
所謂的知識圖譜,就是讓智能體去理解知識之間網絡關系,并能主動以此提供服務的技術。
今天的知識圖譜專治各種“撒幣”
假如你以為本文到此就該結束了,那么你又錯了…
上文說了知識圖譜專治各種“大撒幣”行為,并不是隨便講講的。我們要知道,2002年知識圖譜技術假如跟王思聰剛一波正面,那是基本沒有勝算的。
這里有幾種可能:首先是假如你的知識庫是更新到前年的,人家問你PGone的嫂子是誰你怎么辦?或者人家不問你長城有多長,問你最長的墻有多長怎么辦?
在考教真人的直播答題過程中,可能面臨各種語言上的調整、提問方式的改變,以及加入最新信息。這都是幾年前基于單一結構知識庫的知識圖譜技術難以勝任的。
這就把知識圖譜難住了嗎?不能夠,畢竟為答題而生,必須要搞點新高度出來才行。
這項技術在近幾年間發生了重要變化,比如:
1. 大數據+機器學習帶來了史無前例的效率契機。
今天的AI復興,是建立在機器學習驅動大數據的基礎上的,知識圖譜也是如此。舉例來說,百度的知識圖譜技術,是建立在百度搜索和百度百科、百度問答等搭建起的最龐大中文信息庫之上,為百度醞釀知識圖譜提供了核心數據支撐。而在機器學習、深度學習領域的積累,則讓百度知識圖譜技術實現了及時化、逐步完善圖譜關聯強度和理解力提升。換句話說,百度這類AI巨頭掌握的知識圖譜技術,具有高度的即時性和成長性。往往網友不知道的,知識圖譜已經先知道了。
2. 語音交互成為啟動知識圖譜的新形式。
知識圖譜想要真的為人類所用,那么就不能是人類用固定方式去出發知識圖譜的模板。而應該是知識圖譜主動理解人類的語言和思維習慣,做到主動輸出服務。這就需要知識圖譜與語音交互緊密結合
3. 強語義理解能力成為關鍵。
能聽懂“長城有多長”,卻聽不懂“長城從東到西一共多少距離”的知識圖譜,顯然是知識沒譜。深度學習各種語意、語義、語序和方言的知識圖譜能力,也成為了目前知識圖譜技術的喚醒核心。
這幾種能力加持下,把知識圖譜偽裝成選手去搞點“撒幣”,顯然已經不算什么了…但是如果只干這點事,其實也蠻虧的。
撒出一個明天
無論是語音交互還是機器視覺,我們今天正在努力教會AI一件事,就是識別。可是,在識別之后呢?AI下一步要干什么?
識別的下一步當然是理解和處理,但如果想讓AI開啟這些能力,很多人都認為,知識圖譜的爆發將是AI下一步的必經之路。
今天知識圖譜的核心,在于通過數據生成可視化的知識鏈條,用鏈條形成網絡,利用網絡來進行預測、生成自動化,最終生成機器主動提供的智能化服務。
要知道,人類理解世界并不是基于一個個散亂的信息,而是基于信息背后的“知識”。
我們期待的知識圖譜技術,是通過這種技術的完善,把AI調整到主動輸出服務模式。經典計算階段是你想到的,電腦幫你做出來。而知識圖譜時代,是你想不到的,AI可以想到。
能做到這一步的AI技術,當然不會只滿足去答答題,做個直播。人家的使命是改變世界好不好?
其實,知識圖譜作為一種隱藏的后端技術,今天已經悄然布局在了我們的生活。比如我們今天在百度搜“李白寫過哪些飲酒詩?”,已經不是跳出來有這些關鍵詞的網站,而是直接跳出來你的答案,這背后就是知識圖譜即使已經解答了你的問題。
更重要的是,知識圖譜技術作為AI交互手段的必要觸達點,正在為其他AI產業提供幫助,比如智能處理、無人駕駛。
更遠的未來,或許是利用知識圖譜技術達成物聯網間的協作、人機交互的全新升級,那么最終所能抵達的,遠遠不是答題這一件小事而已。
所以,直播平臺上誰給誰撒幣,誰是大撒幣,其實也不是很重要了。真正重要的是,技術正在努力把未來的幣,撒到現在的土壤里。
作者:腦極體,微信公眾號:腦極體
本文由 @腦極體 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
應該是2012年 不是2002年 樓主應該是不小心寫錯了