詳細解剖百度大腦
近日百度終于發布了讓人期待已久的百度大數據計劃,而本文重點解讀百度三層設計中(百度大腦,數據工廠,開放云)最頂層的設計,百度大腦計劃,讓我們來一次詳細的百度大腦解剖。
近日百度終于發布了讓人期待已久的百度大數據計劃,而本文重點解讀百度三層設計中(百度大腦,數據工廠,開放云)最頂層的設計,百度大腦計劃,讓我們來一次詳細的百度大腦解剖。
而該計劃究竟是什么讓我們來一次深入了解,必須從三層架構一層層解剖。
第一層:開放云
作為一個人類嬰兒,其第一件最重中之重的事情就是記憶,而記憶也是一切的發展前提。同樣,我們將百度人腦看成人腦的話,那么第一件事情,必然是存儲。人類沒有記憶就沒有關聯,也更不用提決策與創造,而人類之所以能夠在靈長類動物中立足,正是有著極大的可以存儲記憶的腦容量,那么機器要模仿人腦也必然要建立在擁有龐大的存儲能力之上才有可能,而百度也是在真正積累數據到一定程度后才開始該項目。
我們來看下百度存儲能力的發展過程:
四年前也就是2010年,百度的機器學習能力并不是很高,只擁有幾百臺的服務器,特征向量只有十萬。
兩年后也就是2012年,百度的單集群規模達到了幾十萬,已經完全能夠做到讓這些機器在同一時間做同一件事情,特征向量從十萬上升到兩百億!
而當在百度達到兩百億后機器學習就到達了一定瓶頸,就算特征向量增加到三百億,四百億,對機器學習的幫助并不是很大,而此時擁極強存儲能力的百度開始了在機器學習上的“深度學習”的分支發展,進而升級已有的人工智能大腦。
備注:看機器處理能力有兩個,第一個是看服務器規模,第二個是看特征向量大小。所謂特征向量簡單理解的話就是指將文本語音圖像視頻等內容轉化為機器能夠讀懂的一連串關鍵數據,數據越多,機器學習的就會越好,用戶的搜索結果就會越精確,對用戶的搜索體驗效果也會隨之上升,但對服務器的壓力也會相應加大。百度能夠僅用兩年時間從10萬直接飆升到200億,足以見得百度服務器技術實力的雄厚。
此外這一段并非只講存儲,同時也是在講百度大腦的發展,因為有了記憶就會發生關聯,進而產生決策,這是一個整體前進的過程。
第二層:數據工廠
作為一個人,要調取某部分的記憶,就會很自然的聯想到某個詞,某個畫面,某個音樂等等就能記起很多事情,比如當你聽老歌時,看到童年的玩具時,洶涌的記憶總會被調出來。
當然這是因為人類大腦的神經連接結構允許我們這樣去檢索,而機器是不允許的,數據存儲在硬盤上,機器想要找到某個數據,必須一個個訪問過去,機器沒有分類的概念,就像在圖書館中,機器是一個不會看分類的管理員,他要找某一本書時只能一本一本的找過去,十分笨拙。
也就是說,機器要想搜索什么內容時,必須有人來幫助它建立起分類,但最矛盾的就是,在錯綜復雜的語言結構中,我們很難為一個詞去下定義,比如當你在說“蘋果”這個詞的時候,你如何告訴機器他的分類?”蘋果”究竟是一個名詞,還是一個公司?而決定一個詞的意義的則是語境,也就是機器要依靠其他詞語的出現來為這個詞做模糊的定義,不能完全給它下死定義而是要根據環境來下,并且它還應當是動態的,不斷變化的。
也就是說這種搜索技術也依然要百度的大腦配合才能達到,對每一個詞的定義應該是一個庫,而這個庫中的每一個詞又都各自構成庫,百度的數據工廠所創造的算法,就是在這么一個數據之海中去為他們建立管理,然后去索引。
數據工廠相當于人腦中的記憶關聯過程:將某個詞同時與其他詞或是某個場景等等建立起動態關聯的過程。
第三層:百度大腦
人腦有了記憶,有了關聯之后就會進行決策,比如小孩子碰到開水,燙到了手下次就不會碰,就是因為記憶了開水和燙手的痛苦,并將這兩個記憶關聯在了一起,才有了下次不去碰開水的決策。而百度大腦就是在模仿這些行為,做記憶關聯之后的決策、行動、創造。
我之前關于開放云和數據工廠的分析完全是建立在搜索引擎之上,只是站在了百度對漢語能力的理解而已,而那時百度的人工智能也確實只是剛出生的嬰兒而已,只能在PC端爬行,但是當智能手機誕生,可穿戴智能設備的出現后,百度開始成為可以走路的嬰兒,此時百度大腦的智力已是高達兩歲的嬰兒水平。
從搜索引擎智能到硬件智能,這是一個平面到立體,二維到三維的過程。原因是以前百度搜集到的數據只能夠是PC端用戶的搜索行為,這之中充其量只有文字內容罷了,百度所能夠建立的僅僅只是語言理解,對用戶的輸入文字數據做不斷的處理與反饋,但是到了手機端,智能硬件端則完全變天,百度可以收集到的不僅僅只會是語言數據,更會收集到一整套的使用場景數據!
此時,百度從為用戶提供搜索結果的搜索引擎開始轉變為向用戶提供全方位解決方案的人工智能,想象力無窮。
那么,百度大腦將會如何模仿人類的感知,再到思考,以至于最后產生決策、生產、創造呢?
感知部分:
這里,我們還是先回看百度在PC時代的處理方式,百度通過海量的用戶輸入的相同信息,以及他們對網頁的排序進行的點擊,加上自身算法的種種規則,進而對搜索結果進行排序,將最優的結果前置于用戶面前。那么以此類推在移動時代,百度能做的則是,通過海量的用戶的發起行為,然后根據他們最后的選擇行為,再根據用戶的周邊環境場景,建立起強大的數據關聯,進而再為其決策。
而這里的感知則與PC時代完全不同,PC時代感知的只是某個詞匯數據,但是這里感知的有兩者:第一是用戶的交互數據,用戶對機器做了什么,說了什么,輸入了什么圖片,人工智能會將這些行為轉化為機器能夠理解的特征向量等數據輸入進機器。第二是物的數據,場景數據,比如用戶拍照中的場景,百度可以對其進行智能識別,判斷其在哪里,是在餐館還是在旅游途中等等,并也將這些場景轉化為機器能夠讀懂的特征向量等數據,讓二者進行一些必要的關聯。
當然這些收集行為和PC時代一樣都是匿名的,百度根本不在乎任何一個單用戶的信息,百度在乎的是群體的決策信息,并利用這些信息進行判斷后再為個體用戶作決策推薦。
思考部分:
同樣是類比于百度在PC時代的思考方式,百度拿到用戶搜索的數據,再拿到網站的數據后為語詞進行了相關性關聯,為其進行了群體模糊解釋,那么毫無疑問,百度會為其感知到的信息再次進行模糊解釋,將感知到的信息進行與其他感知的關聯處理,并且還會將之前已經在搜索引擎上積累的信息融合進來,進而為人類整體行為做出解釋,并為個人想要選擇做某些事情的時候提供最優方案。
就像嬰兒牙牙學語一樣,開始觀察周圍大人的說話與表情,并在自己的大腦中建立這一切的關聯性,開始嘗試學習大人說話的內容,并說出來。
決策、生產、創造部分:
同樣是類比于百度在PC時代的思考方式,百度所做的決策就是幫用戶提供最優的搜索結果,然后前置。那么也很好理解百度大腦在移動設備時代會如何幫助用戶決策,百度會根據各個已經在數據庫中已有的常規用戶行為場景,再為某個用戶提供具體的方案。
當百度大腦的思考過程執行完畢后,就完成了對某件事的動態理解,而理解完后就要去為用戶產生最優質的結果,并再根據用戶的反饋進行不斷調整。
就像嬰兒一樣,雖然還在牙牙學習,但是已經開始在用積木搭建自己的城堡了。
案例:
百度大腦最大價值在于幫助用戶利用大數據做好預測工作,舉一個最好的案例就是用百度大腦來預測城市熱度,目前百度根據海量的用戶行為(感知)已經可以預測出某個城市兩周后的旅游熱度(思考與創造),如果是景點的話可以預測兩天后的熱度。而這些預測也為用戶出行旅游提供了極大的參考價值。
結語:
百度在PC時代有過很多成就,但在移動智能設備上再次迎來全新的挑戰,在PC時代百度只需要解讀語言就夠了,但是在移動時代需要解讀的東西會更多,圖像識別,人臉識別,語音識別等等都是移動時代需要重新再深耕的新技術,并且用戶使用場景的復雜性要遠遠大于PC時代。但挑戰的同時也更藏著極大的機遇,這是一個從PC跨越到移動時代的人工智能大機遇,物聯網的日趨成熟必將導致人工智能真正的實用時代的來臨,這也是百度終于可以從二維上升到三維的機會,再加上百度已經在PC時代的人工智能的成熟的積累,繼續進化更像是理所當然的事情。
另外再說個題外話,這是不是意味著母體已經開始降臨了?
其實不太懂,到底什么作用?具體點
可以這樣理解嗎,百度大腦是做好移動端的人工智能化的搜索并提供參考性意見的系統嗎,相比于PC端的信息輸入,還需要增加情境輸入,對嗎,求大神指教