技術,推動知識的迭代更新
歷史上每一次的知識大爆炸,后面都有技術的推動。那么,我們這一代的技術,要怎樣去運用解決未來的學習問題。
大家好,我叫楊溥,我是得到的首席數據科學家。在過去十年的時間里,我一直在做和人工智能相關的事情。
大家都知道,得到是一家知識服務公司,做課程、做電子書、做跨年演講。
去年,羅胖提了一個夢想——要建立一所為終身學習者服務的通識教育大學。然后,這個任務就交給了我們。
你可能要問:為什么建學校這件事,不是交給老師,也不是交給班主任,而是交給了我們程序員呢?
這是因為——歷史上的每一次知識大爆炸,都是靠背后的工程師來搞定的。
就像蔡倫造紙,古藤堡發明印刷術,他們給全世界帶來了知識。所以我現在的工作,就是要用我們這一代的技術,去解決未來的學習問題。
顯然,這一代的技術,必然離不開人工智能的支持。
說到人工智能,我們生活中已經隨處可見了,但是大家有沒有發現一些問題。比如:我打開外賣平臺點餐,系統在首頁上給我推薦了日餐,但事實上,我已經連續吃了5天的日餐了;再比如:我打開電商平臺購買了一件運動服,系統仍然會不停的給我推薦各種不同品牌的運動服,而實際上,為了下定決心去運動 ,我已經購買了6件運動服了。
這就是現在很多智能推薦系統和內容平臺的做法,它在根據我過往的行為,預測我的喜好,并不停的給我推薦類似的商品和內容。
作為一個從業者,我會問自己:“得到也要這樣做么?”
如果一個用戶在得到上,已經學習了長時間的《薛兆豐經濟學》,我們還應該反復的給他推薦經濟學的內容嗎?按照這種邏輯,他的首頁,可能永遠只會是這塊內容了。
類似這樣的人工智能方法,在學習領域并不能滿足需求。特別是得到用戶,是一群對未知有著強烈好奇心的人,他們的好奇心會驅使他們學習不一樣的內容。
所以,得到面臨的挑戰,是全新的。
今天,我想給大家分享的是一個內部稱做“得到大腦”的項目。
在上臺之前,我問過公司的法務,這個項目可以披露嗎?他們說:反正一時半會你也做不出來,隨便你。
一、“得到大腦”
什么是“得到大腦”呢?
得到大腦就是:期望通過技術的手段,來盡可能的改善大家的學習體驗——就像給我們的大腦,增加了一個外掛。
前段時間,我接待了一個得到的重度用戶,她給我詳細的介紹了 她在得到里的學習歷程:
最初她是被薛兆豐的經濟學課吸引了進來,學完經濟學之后,就想去學金融學。學金融學的時候,當看到非理性的股市時,就想去了解心理學對人決策的影響;之后,她又想去了解更底層的生命科學。她說她最近正在學習王立銘老師的課程,并且因為對生命產生了敬畏,已經在小本上列了下一步的計劃,那就是學習高爽老師的天文學。
你看,這個過程就有點像我們的學習過程——最開始只是黑暗中的一團小火苗,但是因為知識之間的互相關聯,從而變成了熊熊烈火,點燃了我們的探索之路。
這也正是終身學習和傳統的學校學習不一樣的地方:它不是一個線性的,越來越專業的學習,而是在不斷擴大你的知識范圍。
當然,剛才只是她一個人的探索路線,每個人的探索道路都會不一樣;但“探索”不是“搜索”,得到大腦的目標不是做一個更好的搜索引擎,而是去給每個用戶都展示一個“可以自由探索”的知識世界,幫助用戶完成自己的探索。
長期思考的人都知道:要想讓自己的認知能力突飛猛進,很多時候不是因為你搜集了多少信息,而是在你探索的時候。有個瞬間,你突然意識到了一個從來沒有想過的維度,知識和知識之間突然產生了化學反應。
所以,得到大腦第一步想要完成的,就是要借助機器的力量,給每個人配上一個學習助理,然后從各種維度,主動的幫你將所有相關的信息整合在一起,再傳達給你。
但是,新的問題又來了:
目前,以深度學習為主的人工智能技術,我們稱作為感知智能,它還無法完成這樣的工作。
接下來,我們需要達到認知智能的水平,也就是讓機器“能理解,會思考”,而知識圖譜就是認知智能中最核心的技術。
二、知識圖譜
知識圖譜這個概念,最早是在12年由谷歌提出來的,主要用來提升谷歌的語義搜索服務能力。今天,當你搜索一個問題,比如“C羅的生日”,它給出的不僅僅是關鍵詞匹配的結果,它還會給出具體的生日日期,C羅的百科介紹,甚至還有c羅在球隊中的統計資料。
現在,當有了知識圖譜,再結合虛擬現實的技術,我們就可以想象出未來學習的場景了。
比如,你想了解蘇東坡這個人。
你只需要一個入口,然后,你就可以跟著他的腳步,知道他哪一年走出四川,哪一年走進開封,哪一年被貶黃州,哪一年寫了《赤壁賦》;每一年遇到了什么樣的人,做了什么樣的事,寫了什么樣的詩詞。這每一個人、每一件事、每一首詩,過往的學者對它們做了什么樣的研究,寫出了什么樣的著作。你現在所在的地方,和蘇東坡當年待過的地方,相距有多遠。他的遺作,藏在了你身邊的哪一座博物館里……
過程中,你突然對曾經看不慣蘇東坡的王安石,產生了興趣,你可以繼續跳轉到他的視角,開啟新的知識探索。
你看,整個過程,你不是在學習蘇東坡,而是在代入蘇東坡。
好了,那這一系列的場景,它背后的知識圖譜是什么樣的呢?
圍繞著蘇東坡,我們從時間、空間、人物、作品等各種各樣的維度,構建了這樣的一張知識圖譜。
它類似于思維導圖,但是它具有更規范的層次結構,和更強大的知識表示能力。為了構造知識的基本框架,知識圖譜除了包含實體之外,還需要包括概念、屬性、關系這些信息。
因為人的認知過程,正是不斷用這些概念、屬性和關系去理解世界、解釋世界。
《福爾摩斯探案集》的作者亞瑟?柯南道爾有句名言:
“一個邏輯學家,不需要親眼見過或聽過大西洋和尼亞加拉大瀑布,他從一滴水中就能推測出它們。”
知識圖譜也是如此——它采集碎片化的信息和數據,然后按照標準化的方式加以整理,再將各種看似不相關,但背后有著共同聯系的信息關聯起來。
好了,確定完技術方向,下一步,我們該如何構建一個面向學習者的知識圖譜呢?
首先,需要確定知識圖譜的構建范圍。
顯然,在知識服務領域,我們將會圍繞“通識教育” 和 “學科教育”,去構建一個領域知識圖譜。
接下來,我們需要填充知識圖譜中的內容,主要是兩塊內容:
- 第一塊,是以“知識點”為中心的實體內容,比如一些專業術語、歷史人物、著作等等。
- 第二塊,就是這些知識點之間的關系內容。
這些內容需要借助大量的自然語言處理技術,甚至輔助一定的人工手段,從海量的結構化數據數據、非結構化的文本中挖掘出來。比如:對于知識點的挖掘,我們會用到“領域詞挖掘”、“命名實體識別”這些技術。
對于關系的挖掘,我們會用到“事件抽取”、“關系抽取”的技術。其中,“事件抽取”是從文本中抽取出重要的事件信息,比如:事件發生的時間、地點、人物、原因等等,然后再將這些信息 與 知識點相關聯。
知識圖譜中的知識,會按照前面的步驟不斷的進行擴充。這個過程,我們還會結合“知識融合”相關的技術,用來消除歧義信息,保證只有高質量的知識才可以進入圖譜。
當知識達到一定量級以后,就可以開始知識的探索之旅了。
三、學習路徑
事實上,借助“實體鏈接”的技術,機器就擁有了“理解”的能力。當你提出一個問題,問題中的信息就會和圖譜中的信息鏈接起來。接下來,你可以在其中任意的穿梭,發現一個又一個有興趣的關聯。這個過程,就像是今天你喜歡的逛商場、打游戲。
可更多的時候,當你面對一個新領域,我們是沒有明確目標的;尤其是當你學習的范圍越來越廣,涉及的領域越來越多的時候,你就越覺得自己無知,這也是學習最大的難題。
更高效的做法,不僅是要讓機器理解知識,還要能夠懂你、了解你,讓你知道先學什么、后學什么。
這也是為什么很多時候,當你想要快速的學習一個新的領域,你會找到這個領域中最專業的朋友進行溝通,因為他既懂專業知識,也懂你。
所以,得到大腦第二步想要做的事,就是著手研究,如何為學習者量身打造合適的學習路徑 。
首先,我們需要去挖掘知識的脈絡結構,比如:知識點的前后依賴關系、上下位關系、從簡單到復雜的遞進關系等等。
目前我們也正在和國內的高校團隊進行合作,目標是從高質量的圖書中挖掘出這些關系,并將這些關系按照一顆顆“知識樹”的形態來構建。
接著,就是在這顆知識樹上,找到用戶的定位。
一方面,對于老用戶,我們可以根據他的歷史閱讀記錄、搜索記錄,了解他對知識點的掌握情況,并映射到對應的知識樹中。
另一方面,對于新用戶,我們可以提供一些標簽入口,讓用戶自己選擇一些感興趣的領域,然后不斷收集他的行為記錄。
當用戶了解了自己的定位以后,學習上就可以更容易的進行取舍了。比如:哪些知識又是僅限于目前的了解就夠了的,哪些知識是必不可少的,哪些知識又是要繼續深入學習的。
所以,這就是“得到大腦”正在開展的兩個方向。未來,當你帶著問題來到得到,AI會為你找到問題相關的知識,并在小范圍內呈現給你。當你面對一個新的領域,不清楚 該學習什么的時候,AI會為你推薦合適的學習路徑。
你可能要問我,什么時候能用到這些東西,現在我還不能明確的告訴你。但我能明確的是:當你用上這些功能的時候,我們已經在探索更遠的方向了。
好了,剛才的那些技術細節,可能并不是很好理解,但是沒關系,實際上我想講的是:我們正在努力做的這件事,就是為了讓你的探索更自由。
謝謝大家。
本文為得到的首席數據科學家 楊溥在“得到3周年開放日”的分享,由得到APP授權發布
本文由 @得到 授權發布于人人都是產品經理,未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協議
- 目前還沒評論,等你發揮!