李彥宏:人工智能剛剛走到石器時代,但未來它會像電流一樣普遍
在過去的一兩年里,或許人工智能的消息刷遍了投投朋友們的朋友圈,AI不知何時開始占據(jù)了我們的手機、汽車以至于家庭?;蛟S你很少能聽到李彥宏講歷史、講產(chǎn)業(yè),實際上每個互聯(lián)網(wǎng)一線的企業(yè)家都是一名通曉古今的人,時髦的人工智能和歷史變遷怎么結(jié)合?也許你值得看一看。在百度all in人工智能、全力以赴下,隱藏著什么?未來我們的生活將駛向何方?
歷史了解越詳細,未來就看得越透徹
全世界都在為即將到來的人工智能革命感到振奮。這種情緒就仿佛二十多年前我在硅谷親歷互聯(lián)網(wǎng)大潮初起時所感受到的。
2012年,我注意到深度學習在學術界和應用方面都有了突破。比如,用深度學習的方法來識別圖像,突然就比以前的任何算法都有明顯提升。這個時候我馬上意識到,新的時代來臨了,搜索將被革新。過去我們用文字搜索,現(xiàn)在可以用語音和圖像進行搜索。比如我看到一株不認識的植物,拍一張照片上傳搜索,就可以立刻識別出來它叫福祿桐。過去用文字搜索是沒法描述這樣的植物的。不僅是搜索,很多過去不可能的事情現(xiàn)在都可能了。
語音識別能力、圖像識別能力、自然語言理解能力,包括為用戶畫像的能力,這些都是人的最本質(zhì)的智慧能力。當計算機擁有了人的這些能力時,一場新的革命就會到來。以后速記員和同聲傳譯人員可能會被機器代替,計算機可以做得更好。以后也許不需要司機了,車自己就可以開起來,更安全,更有效率。在企業(yè)里面,金牌客服可能人人都可以做了,因為有了智能客服助手。人工智能對人的這種賦能,超過了以往任何一個時代。工業(yè)革命解放了人的體力,過去一些像搬石頭之類的粗活需要人類自己來干,現(xiàn)在機器可以替你把更巨大的石頭搬起來。智能革命到來之后,原本很多需要費腦子的事情,機器也可以幫你做。未來20~50年,我們會不斷看到各種各樣的變化,收獲各種各樣的驚喜。
讓我們把時光推至工業(yè)革命以前。
在當時的英國,由于紡織機械帶來低成本產(chǎn)品,傳統(tǒng)的手工紡織業(yè)被擠垮,遭到工業(yè)主和工人的反對,掀起所謂的「盧德運動」。珍妮機發(fā)明者哈格里夫斯多次遭到同行和鄰居的驅(qū)逐。但珍妮機最終還是推廣開來,助力英國統(tǒng)治全球紡紗業(yè)。而蒸汽火車一開始甚至速度還不如馬車,從而被馬車夫嘲笑。
到了電氣革命時代,歷史再次重復,比如馬可尼在1895年研制出最早的無線電裝置,并且利用這一裝置成功進行了遠距離摩斯電碼通信實驗。他成立無線電報與信號公司,推動無線電商用。但由于與海底電纜公司的利益相沖突,他想在紐芬蘭設立無線電報局的事遭到反對。不過當時美國的現(xiàn)代市場體系和技術偏好已經(jīng)初步建立,所以無線電還是很快發(fā)展起來。
電氣革命與今天的智能革命有一些「基礎質(zhì)料」意義上的類似。與蒸汽動力無法遠距離傳輸和統(tǒng)一布局不同,電力是一種無限流動的普適能源,正如今天的互聯(lián)網(wǎng)是一種流動的,讓用戶可以隨時接入的基礎資源?!鸽?產(chǎn)業(yè)」正如今天的「互聯(lián)網(wǎng)+產(chǎn)業(yè)」,顛覆了無數(shù)的傳統(tǒng)產(chǎn)業(yè)。
當然,電流和智能流只是在比喻意義上可以類比,前者是電子的流動,后者是比特編碼的流動,不是同類事物,但這種類比有助于我們感受問題的關鍵所在。我們不妨對比一下兩個時代的企業(yè)升級。
當電氣流向千萬企業(yè),很多企業(yè)主動尋求升級,雖不是像蒸汽時代那樣抗拒,但同樣困難重重。一百多年前的電力系統(tǒng)十分復雜。需要在直流電、交流電,不同的電壓、不同水平的可靠性、不同的電力接口以及價格之間做出合理的選擇。直到今天,各國的電壓和接口規(guī)格(插座口)也都沒有統(tǒng)一。和不同電力公司打交道也是個技術活,否則很可能吃虧,正如今天企業(yè)找互聯(lián)網(wǎng)技術外包公司時,如果不專業(yè),就會落入陷阱,從編程語言到系統(tǒng)架構(gòu),都有各種令人眼花繚亂的選擇。
如今,尤其是這兩年,人工智能再度呈現(xiàn)技驚世人的技術,這是機器學習技術的升華版——基于多層計算機芯片神經(jīng)網(wǎng)絡的「深度學習」方法。通過多層芯片聯(lián)結(jié),模仿人腦大量神經(jīng)元的網(wǎng)狀聯(lián)結(jié)方式,輔以精妙的獎懲算法設計和大數(shù)據(jù),可以訓練計算機自己從數(shù)據(jù)中高效地尋找模型和規(guī)律,從而開啟了一個機器智能的新時代。
科學家們覺得人工智能經(jīng)過這么多年的發(fā)展,到了「終于可以用了」的階段,而它的實力在我看來,才剛剛開始施展拳腳。
在人工智能時代下,你我都需要做出改變
我無意過分夸大人工智能的作用。
從縱向發(fā)展來說,業(yè)界通常把人工智能分為三個階段:第一階段,弱人工智能;第二階段,強人工智能;第三階段,超人工智能。實際上,目前所有的人工智能技術,不管多先進,都屬于弱人工智能,只能在某一個領域做得跟人差不多,而不能超越人類。
對此,我可能比大多數(shù)人都更保守一些。在我看來,人工智能永遠不會到那一步,很可能連強人工智能都到不了。未來,機器可以無限接近人的能力,但是永遠無法超越人的能力。
當然,僅僅是無限接近人的能力,就已經(jīng)可以產(chǎn)生足夠大的顛覆性。因為計算機在有些方面實在比人強太多了。比如它的記憶能力,百度搜索可以記憶上千億的網(wǎng)頁,其中的每一個字它都記得住,沒有一個人能夠做得到。再比如它的運算能力,哪怕是寫詩——打個小廣告,把你的名字輸入手機百度的「為你寫詩」,敲回車鍵,沒等你反應過來,詩就出來了。再厲害的七步神童,也很難達到這種速度。但是,在情感、創(chuàng)造性等很多領域,機器是無法超越人類的。
跟我不一樣,技術界還是很樂觀的。
智能領域的權威人士都認為,在不久的未來,智能流會像今天的電流一樣平靜地環(huán)繞、支持著我們,在一切環(huán)節(jié)提供養(yǎng)料,徹底改變?nèi)祟惤?jīng)濟、政治、社會、生活的形態(tài)。陸奇稱智能時代的核心本質(zhì)是「knowledge in every system, intelligence in every interaction」(知識無處不在,任何交互都是智能的)。未來世界的人們將像穿衣吃飯一樣享用著人工智能而無所察覺。
有人為人工智能的到來感到焦慮,其實我覺得大可不必。
在20世紀初,美國有50%的農(nóng)業(yè)人口,但隨著農(nóng)業(yè)機械化,現(xiàn)在的農(nóng)業(yè)人口降到4%,而城市化吸收了多余的農(nóng)民。但眼前發(fā)生的事情是不同的,當人工智能大規(guī)模進入社會后,人類能做的工作它們大部分都可以做,城市不會再有更多的就業(yè)崗位留給人類。通行的美好說法是,人們在常規(guī)工作中被人工智能取代后,可以去從事創(chuàng)造性的工作。問題是創(chuàng)造性的工作不是人人都可以從事的,也不需要那么多的人,如果社會分配制度不改變,一個全部由科學家和藝術家構(gòu)成的人類世界幾乎是一場噩夢,這上百億科學家和藝術家中的絕大部分注定一生碌碌無為,對社會和自己都毫無用處,且淪入「創(chuàng)造性」的窮困潦倒中。
但這種思維方式總有些不對的地方。人類自古以來為生存而勞作,實在是迫不得已,工作著是美麗的,但誰都知道,不需要工作的生活更美麗?,F(xiàn)在終于能夠制造出把自己從工作重負中解放出來的機器,這是人類文明最偉大的成就,無論如何不應該被看作一場災難,相反,這可能是人類所面對的前所未有的偉大機遇,只是,我們需要改變。
跳棋、國際象棋、圍棋后,AI還將進擊
AlphaGO和深藍的邏輯并不一樣,同樣是下棋,但背后的人工智能已經(jīng)實現(xiàn)再次飛躍。
蒙特卡洛方法就體現(xiàn)了概率學的精妙。假設,在某個棋局局面下,深度學習網(wǎng)絡給出了三個候選落子辦法A、B、C,以這三個點為根節(jié)點,分別往下走子,可以想象成三棵樹,每棵樹還有無數(shù)分支。蒙特卡洛搜索不去窮盡所有分支(窮盡所有是深藍的做法),而是派出300萬只螞蟻分別從A、B、C出發(fā),每個點100萬只,飛速向樹梢爬(也就是往下黑白棋交替走子直到?jīng)Q出勝負,基本上走200步就會分出勝負),總有部分螞蟻走到最高點(也就是決出勝負,假設螞蟻走到終點的情況代表黑子勝,沒走到終點的情況代表白子勝)。
假設從A點出發(fā)的100萬只螞蟻有30萬只到達終點,從B點出發(fā)的有50萬只到達終點,從C點出發(fā)的有40萬只到達終點,系統(tǒng)就認為黑子走B點勝率更高,就會選擇B點。這就是概率學的取樣算法,相比逐項窮舉法,極大地縮減了計算量。
為什么派100萬只螞蟻而不是10萬只或者1000萬只?這是根據(jù)計算機的計算能力和對競爭對手的大致估計來確定的。如果派10萬只螞蟻就可以得到較高勝率,那么派10萬只也可以。在相同時間內(nèi)派出越多螞蟻,對計算能力要求越高。
除了下棋,人工智能還進擊了金融、翻譯、資訊分發(fā)領域。
金融信息可能是最復雜、最枯燥的信息,一份股轉(zhuǎn)書有兩百多頁,還有大量的年報、半年報、研究報告、公告、反饋意見、盡職調(diào)查結(jié)果……我們不知道,有多少行業(yè)分析師是完全看完這些信息,再做出決策的。也許,不是他們不夠勤勉,而是讀完這些信息已經(jīng)非人力所及。
20世紀90年代,一個基金經(jīng)理要把市場當天產(chǎn)生的研報、輿情、新聞、交易數(shù)據(jù)等看完,大概需要10個小時,也就是兩天的工作量。2010年,移動數(shù)據(jù)爆發(fā)之后,這個基金經(jīng)理要把每天市場上產(chǎn)生的信息吸收掉,大概需要10個月的時間。2016年,還是這個基金經(jīng)理,假如把當天市場上所有的信息看完,大概需要20年的時間,相當于整個職業(yè)生涯。所以基金經(jīng)理迫切需要利用先進的智能技術,比如百度的自然語言處理技術。
機器可以瞬間完成上市公司的公告、財務報表、官方發(fā)布、社交平臺、證券行情、實時新聞、行業(yè)分析報告等海量異構(gòu)數(shù)據(jù)的閱讀,對于文本中的圖片和表格需要OCR(光學字符識別)等技術解析。緊接著,進行關鍵實體信息的提取,發(fā)現(xiàn)埋藏在實體信息之間,如行業(yè)上下游關系、供應鏈關系、股權變更歷史、定增與重大資產(chǎn)重組的關系、多張財務報表之間的數(shù)據(jù)交叉驗證等數(shù)據(jù)關系,形成并呈現(xiàn)這些復雜關系的「知識圖譜」。
再說翻譯。在機器翻譯的模式中,人類要做的不是親自尋找浩繁的語言規(guī)則,而是設定數(shù)學方法,調(diào)試參數(shù),幫助計算機網(wǎng)絡自己尋找規(guī)則。人類只要輸入一種語言,就會輸出另一種語言,不用考慮中間經(jīng)過了怎樣的處理,這就叫作端到端的翻譯。這種方法聽起來挺神奇,其實概率論里的貝葉斯方法、隱馬爾科夫模型等都可以用來解決這個問題。
技術是神奇的。以資訊分發(fā)當中的貝葉斯方法為例,可以構(gòu)建一個用概率來描述的人格特征模型。比如男性讀者模型的特征之一是在閱讀新聞時點擊軍事新聞的概率是40%,而女性讀者模型是4%。一旦一個讀者點擊了軍事新聞,根據(jù)貝葉斯公式就可以逆推這個讀者的性別概率,加上這個讀者的其他行為數(shù)據(jù),綜合計算,就能比較準確地判斷讀者的性別以及其他特征。這就是數(shù)學的「神奇」。當然,計算機神經(jīng)網(wǎng)絡使用的數(shù)學方法遠不止這些。
人類的行為一旦被互聯(lián)網(wǎng)以數(shù)據(jù)的形式記錄下來,就成為滋養(yǎng)人工智能在各行各業(yè)齊頭并進,進而幫助人類自己的無窮無盡的燃料。機器翻譯、語音識別、圖像識別都是基于互聯(lián)網(wǎng)提供的大量數(shù)據(jù),用戶點擊行為也是如此。為什么百度搜索引擎的準確性是國內(nèi)其他搜索引擎難以比擬的?因為數(shù)據(jù)量最大、算法最先進、積累最雄厚。用戶的每一次點擊其實都在訓練搜索引擎背后的百度大腦,告訴它哪一條資訊才是用戶最想要的。
實際上,臉書也擁有自己的人工智能實驗室以及類似谷歌大腦的團隊——應用機器學習事業(yè)群。這些機構(gòu)的使命是在各種臉書產(chǎn)品中推廣人工智能技術。用該公司首席技術官麥克·斯克洛普夫(Mike Schroepfer)的話說:「臉書約有1/5的工程師現(xiàn)在都在使用機器學習技術?!?/p>
AlphaGo的主人谷歌當然也不會只滿足于下棋,其人工智能投入多年來不斷膨脹。2012年,谷歌只有兩個深度學習項目,2016年底這個數(shù)字突破了1000。目前谷歌從搜索、安卓系統(tǒng)、Gmail(免費網(wǎng)絡郵件服務)、翻譯、地圖、YouTube(視頻網(wǎng)站)甚至到無人車,都有深度學習的影子。
人工智能進步背后的原理
中國擁有龐大的業(yè)務應用場景、用戶和數(shù)據(jù)以及基數(shù)最龐大的人才群體,進步很快。除了BAT(百度、阿里巴巴、騰訊三大互聯(lián)網(wǎng)公司首字母縮寫)、華為等巨頭大力開發(fā)人工智能,還有很多垂直領域的人工智能公司涌現(xiàn)。在去年的各種互聯(lián)網(wǎng)論壇上,不論是電商、社交媒體,還是搜索引擎,各家互聯(lián)網(wǎng)企業(yè)的掌門人都在將話題引向人工智能,匯報著或大或小的成績。
決定現(xiàn)代數(shù)字計算系統(tǒng)主要結(jié)構(gòu)的是資源的組織形式。而人工智能計算的本質(zhì),簡單來說,非常不同于馮·諾依曼的控制流結(jié)構(gòu),后者采用線性的記憶體和布爾函數(shù)作為基線計算操作。而新的范式是神經(jīng)網(wǎng)絡計算,其特征在于分布式的表示和激活模式。在這里,變量由疊加在共享物理資源(如神經(jīng)元)上的向量表示,并且通過神經(jīng)元的激活來進行計算。網(wǎng)絡的拓撲架構(gòu)和激活模式提供了巨大的計算空間,可以有效并且自然地捕獲豐富的知識(通過拓撲的超參數(shù)、權重、激活函數(shù))。相對于馮·諾依曼架構(gòu)中的本地化表示(其中變量由諸如寄存器的專用或局部化物理資源表示)和符號計算,神經(jīng)網(wǎng)絡計算在學習和表示物理世界以及社會的豐富的語義知識方面更加自然和強大。
通過神經(jīng)網(wǎng)絡計算的力量,下一波的人工智能技術可以在以下兩個維度提升目前的計算系統(tǒng):
- 一是自動分層特征/表示學習。這是機器學習容量的實質(zhì)性提升,因為當今機器學習工作的很大一部分關鍵在于特征工程。如百度大腦已經(jīng)擁有萬億級的參數(shù)、千億級的樣本和千億級的特征訓練。
- 二是高級認知,特別是感知能力。這是下一代設備(如無人駕駛汽車)和下一代平臺(如自然語言會話)產(chǎn)生的巨大催化劑。
人工智能計算的強大能力將有助于產(chǎn)生許多新品種的智能系統(tǒng),如機器律師、機器分析師、醫(yī)療機器人、智能客服人員等。
人工智能計算的另一個發(fā)展方向是組織各種服務于特定物理架構(gòu)和物理要素的系統(tǒng),如家、辦公室、工廠等的智能系統(tǒng)。其基本模式是通過使用物聯(lián)網(wǎng)傳感器的各種原始信號,人工智能的「感知系統(tǒng)」會對物理架構(gòu)進行識別和感知;而「認知系統(tǒng)」需要組織信息和學習更多關于物理架構(gòu)的知識,并去預測、判斷和決策,以使各類物理系統(tǒng)更加智能。
目前,在科研領域,人工智能計算可以提供更先進的建模能力,成為多領域和新一波科研浪潮的催化劑。
在商業(yè)方面,人工智能可以提供額外的機會,為企業(yè)組織創(chuàng)建集成的業(yè)務計算系統(tǒng)(Business Computing System,BCS)平臺。如記錄業(yè)務對象(如系統(tǒng)設計模型、交易記錄)和業(yè)務流程(如ERP(企業(yè)資源計劃)、CRM(客戶關系管理);或者系統(tǒng)設計并模仿人類工作活動,如溝通、協(xié)作、閱讀、寫作、尋求信息等。
目前來說,人工智能的「感知系統(tǒng)」有更廣泛、更新的商業(yè)機會:一方面,可以構(gòu)建和部署更多的「傳感系統(tǒng)」的子系統(tǒng),針對的是物理環(huán)境或物理系統(tǒng),如裝配線、工廠等。這使得未來人力密集的制造業(yè)、商業(yè)服務業(yè)等,可以采用更先進的信息工具和更強的自動化。另一方面,自然語言處理技術的迅速進步使得我們可以掃描和分析文本文檔和信息,并從中提取各種高價值的業(yè)務知識,而構(gòu)建和部署專用的「文本理解子系統(tǒng)」可以得到很多高價值的知識和商業(yè)回報。
人工智能「認知系統(tǒng)」的成熟代表了智能時代更長遠的未來,所有的行業(yè)、職業(yè)、社會系統(tǒng)、生活方式都將被重塑。如果數(shù)字化社會可以概括為「信息就在指尖」,那么,人工智能時代的本質(zhì)可以概括為「知識無處不在,任何交互都是智能的?!?/p>
這個浪潮對大多數(shù)人來說無疑是巨大的機遇。
傳統(tǒng)的制造業(yè)基本上以器械、電器和電力為主,其生產(chǎn)流水線基本上要用很大規(guī)模的投資來建立,后續(xù)很難調(diào)整。比如一家汽車制造廠,要重新建立一條生產(chǎn)流水線,成本很高,花的時間很多。當數(shù)據(jù)智能、自動化、精準預測對制造業(yè)的改造完成之后,后者的面貌將煥然一新。未來的制造業(yè)生產(chǎn)流程將是模塊式的,全部是數(shù)字控制。當一家汽車制造廠要調(diào)整生產(chǎn),制造另外一種樣式的汽車,它不再需要重建生產(chǎn)線,而只需要把新產(chǎn)品模塊的接口(API)調(diào)過來就可以了。這將徹底改變制造業(yè)基礎,制造業(yè)效率也將會極大地提升。
這個改變的核心是數(shù)據(jù)和知識,即制造的流程、制造的工藝、制造的設計,制造的每一步都會用數(shù)字來控制。
再比如制藥行業(yè)。以前一款新藥的誕生要經(jīng)歷長期的研發(fā)過程,去發(fā)現(xiàn)某種方式對某種病癥有效。未來借助人工智能計算技術,將龐大的基因數(shù)據(jù)與海量的健康信息結(jié)合起來分析,人類可以很快發(fā)現(xiàn)規(guī)律,找到個性化的基因藥物。
大數(shù)據(jù)之「大」,讓不可能成為可能
既然人類運用數(shù)據(jù)已久,而且自工業(yè)革命以來,數(shù)據(jù)經(jīng)歷過一次又一次的爆發(fā),何以近年來才出現(xiàn)「大數(shù)據(jù)」的概念?僅僅是它所能記錄和計算的數(shù)據(jù)量更多而已嗎?自然數(shù)可以無限數(shù)下去,1、2、3、4,以至于無窮,但「多」是不夠的,還必須具有幾大特征:
1、大數(shù)據(jù)的「大」
毋庸置疑,這個「大」相對于人類傳統(tǒng)數(shù)據(jù)的儲存方式,不是一個量級上的大小之分,而是幾何量級的差距。想想百度地圖上每日720億次的定位請求,再想想互聯(lián)網(wǎng)上每天有多少次點擊、社交媒體上每天有多少文字和圖片發(fā)出……各種大數(shù)據(jù)平臺一天之內(nèi)收集到的數(shù)據(jù)量就可以超越人類幾千年來文字、圖像的總和。
2、大數(shù)據(jù)的另一個重要特點是多維度
多維度代表著大數(shù)據(jù)可以對一個事物進行多方位的描述,從而更準確。
以金融征信應用為例,傳統(tǒng)金融機構(gòu)在進行征信時,一般采集20個維度左右的數(shù)據(jù),主要包括年齡、收入、學歷、職業(yè)、房產(chǎn)車產(chǎn)、借貸情況等。然后綜合評分來識別客戶的還款能力和還款意愿,決定信貸額度。
互聯(lián)網(wǎng)公司采用大數(shù)據(jù)方法,所獲得的維度可以讓傳統(tǒng)銀行嚇一跳。BAT都開設了自己的金融服務,因為擁有全面且巨大的用戶數(shù)據(jù),可以查詢客戶的各種線上記錄,比如是否有批量申請貸款等異常行為;還可以將客戶信息與互聯(lián)網(wǎng)全局信息比對,通過欺詐行為模式的比對分析其可信度;更進一步,還可以分析客戶的消費行為和習慣,結(jié)合填報收入分析還款能力如何。當然,作為用戶的隱私,這些數(shù)據(jù)都不會被公開,用戶所能感受到的便利是征信排隊時間極大地縮短了,因為大數(shù)據(jù)可以在幾秒鐘內(nèi)就對申請者超過1萬條的原始信息進行調(diào)取和審核,迅速核對數(shù)萬個指標維度。
對一個陌生人進行征信就好比「盲人摸象」,傳統(tǒng)方法是通過20個「盲人」去評估一個客戶的信用「大象」,注定是有缺陷的。而大數(shù)據(jù)的多維度就如同幾萬人同時「摸象」,再把這幾萬人的反饋匯總到一起。維度越多,結(jié)論就越準確。
3、處理非結(jié)構(gòu)化數(shù)據(jù)的能力
結(jié)構(gòu)化數(shù)據(jù)中最基本的數(shù)字、符號等,可以用固定的字段、長短和邏輯結(jié)構(gòu)保存在數(shù)據(jù)庫中,并用數(shù)據(jù)表的形式向人類展現(xiàn)(想一下常見的Excel表格),處理非常方便。但是互聯(lián)網(wǎng)時代產(chǎn)生了大量非結(jié)構(gòu)化數(shù)據(jù),對于圖片、視頻、音頻等內(nèi)容,它們的數(shù)據(jù)量巨大卻沒有清晰的結(jié)構(gòu)。對于圖像的數(shù)據(jù),我們只能理解為一個二維矩陣上的無數(shù)像素點。非結(jié)構(gòu)化數(shù)據(jù)增長量很快,據(jù)推測將占未來10年新生數(shù)據(jù)總量的90%。而大數(shù)據(jù)技術可以通過圖像識別、語音識別、自然語言分析等技術計算、分析大量非結(jié)構(gòu)化數(shù)據(jù),大大提升了數(shù)據(jù)維度。
非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量遠超結(jié)構(gòu)化數(shù)據(jù),蘊含巨大能量,應用前景廣闊。例如,在機場等公共場合的個人身份檢查,過去只能根據(jù)旅客提供的身份信息這一個主要維度去判斷其身份。而人臉識別、語音識別等技術應用成熟后,大數(shù)據(jù)可以直接通過攝像快速比對審核,增加對個人身份判斷的維度,進行既精確又高效的安全檢查。
4、大數(shù)據(jù)是生生不息的「流」,具有時間性
它過去就不再回來,就像人無法兩次踏入同一條河流。這一方面是因為數(shù)據(jù)量太巨大,無法全部存儲;另一方面是大數(shù)據(jù)和人類生生不息的行動相關,瞬息萬變。百度大數(shù)據(jù)實驗室因此提出一個概念叫作「時空大數(shù)據(jù)」。
地圖就是時空大數(shù)據(jù)之母。百度地圖有一個路段擁堵預警功能。如果前方路段暢通會顯示為綠色;如果擁堵則會顯示成紅色,提醒用戶選擇其他路線。這是我們與數(shù)據(jù)互動的一個簡明例子。如果我們有A和B兩條路線可以選擇,此時A路線擁堵而B路線暢通,那么我們都會選擇B路線;當越來越多的車主選擇B路線,那么B路線將會變成擁堵而A路線又會暢通。
此消彼長,變化萬千。依靠智能手機的定位功能,百度地圖可以實時更改當前的路況監(jiān)測結(jié)果,精確地告訴每一個位置用戶當前自己所面對的路面情況。通過數(shù)據(jù)可視化技術和各種評估手段,可以描繪一座城市的日常脈搏,比如上下班的人流數(shù)據(jù)變化,仿佛城市在吞吐呼吸。除了被記錄下來的,更多數(shù)據(jù)只在當時有效。把數(shù)據(jù)全部存儲下來是不可能的,那樣需要的硬盤可能整座城市的地皮都堆不下,只能即時應用,用過就消失。
5、大數(shù)據(jù)的「大」表現(xiàn)為無盡的重復
對于語音識別來說,正因為人們重復講述同樣的語句,機器通過反復識別這些人類語音的細微差別,才能全面掌握人類語音。也正因為人們周而復始的運動,才讓系統(tǒng)能捕捉城市運動的規(guī)律?!钢貜汀沟臄?shù)學意義是「窮舉」。以往人類無法通過窮舉法來把握一個事情的規(guī)律,只能采用「取樣」來估計,或者通過觀察用簡單明了的函數(shù)來代表事物規(guī)律,但大數(shù)據(jù)讓窮舉法這種「笨辦法」變得可能了。
中國在人工智能領域存在強烈的內(nèi)在驅(qū)動
顯然,在多元化的網(wǎng)絡世界里,沒有任何一個國家、機構(gòu)能「獨當一面」。只有不同文化、經(jīng)濟、政治背景的基因進行競爭,才能對網(wǎng)民的需求做出全面恰當?shù)幕貞?/p>
從國情來看,中國發(fā)展人工智能較歐美國家有著更強烈的內(nèi)在驅(qū)動,這種驅(qū)動來自民間。百度搜索統(tǒng)計顯示,有關「服務」的搜索請求數(shù)量始終在迅速增長:2014年比2013年增長了133%。2016年在基數(shù)更大的情況下,仍有153%的增長。
在移動互聯(lián)網(wǎng)領域的應用上,中國比美國更普及。中國網(wǎng)民早已習慣于訴諸互聯(lián)網(wǎng)尋求服務。如今中國每100張電影票中就有55張是通過網(wǎng)絡下單預訂的。與之對應的是,互聯(lián)網(wǎng)服務在美國電影行業(yè)的滲透率只有20%,也就是說100張電影票中只有20張是網(wǎng)上訂票。比如,中國餐飲行業(yè)的互聯(lián)網(wǎng)滲透率是2%時,美國只有1%。
中國之大,之特殊,要高效實現(xiàn)中國網(wǎng)民的服務需求,人工智能創(chuàng)新就是一條必由之路。
驅(qū)動的另一個源頭則是產(chǎn)業(yè)焦慮。中國制造業(yè)成本上升很快。放眼全球,工業(yè)越來越自動化和智能化,高端制造業(yè)可能會回到歐美,而低端制造業(yè)已開始流向越南等國。如果不在短時間內(nèi)完成產(chǎn)業(yè)轉(zhuǎn)型,中國制造業(yè)將面臨「空心化」的困境:高端制造業(yè)、低端制造業(yè)都將流出中國——這個轉(zhuǎn)型,能不依賴人工智能這一環(huán)嗎?
盡管局勢緊迫,但中國的實力值得看好。中國企業(yè)的執(zhí)行力、中國政府的支持力度都是新興產(chǎn)業(yè)的強力后援。
如果說網(wǎng)民的需求是「天時」,企業(yè)與政府的合作是「人和」,數(shù)據(jù)則是中國大腦發(fā)展必不可少的「地利」。在這一領域,中國更是得天獨厚。
龐大的人口規(guī)模、復雜的社會環(huán)境和面向不同應用場景的互聯(lián)網(wǎng)企業(yè),匯合收集這個數(shù)據(jù)全集意義非凡??梢灶A見,不久的未來除了個人數(shù)據(jù),依托于公共環(huán)境或者政府背景而產(chǎn)生和積累的數(shù)據(jù),如汽車注冊信息、學籍學歷、犯罪記錄等,將以加密的方式形成個人基礎電子檔案。企業(yè)與市場通過服務輸出獲取的數(shù)據(jù),如信用卡賬單、消費記錄、網(wǎng)站瀏覽偏好、慣用手機品牌等,則將以用戶授權的方式再次轉(zhuǎn)化為服務回饋給使用者。
這里的「使用者」,不是會編碼、能建模的「碼農(nóng)」博士,而是普通的公眾群體。讓更多的人也能便捷地使用智能設備才是真正意義上的科技福利。
作者:李彥宏,百度公司董事長兼首席執(zhí)行官
本文由 @投資人說(ID:touzirenshuo) 整編發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖由作者提供
基本上是李彥宏那本“智能革命”書中的內(nèi)容啊
希望百度早點完蛋 ??
這樣的文章,多來幾篇! ??
被封面李彥宏大大的帥氣笑容感染進來看看~ ??