AI不是魔法:人工智能的能與不能
本文作者將從四類具體應用的實現上,看看AI技術給我們生活帶來哪些便利,以及存在哪些局限?enjoy~
如果把AI技術分為「前端的交互技術」和「后端的人工智能技術」。前端的交互技術包括語音識別、圖像識別和自然語言處理;后端的人工智能技術就是人工智能的核心算法,包括深度學習算法、記憶預測模型算法等。
這些前后端的人工智能技術在應用又可分為四類:語音識別、圖像識別、自然語言處理和用戶畫像。那么在這四類具體應用的實現上AI技術給我們生活帶來哪些便利,同時存在哪些局限?下面一一來解構:
一、語音識別
語音識別
語音識別有兩個技術方向,一個是語音的識別,另一個是語音的合成。
語音識別是指我們自然發出的聲音需要機器轉換成語言符號,通過識別和理解過程把語音信號轉變為響應的文本或命令,然后再與我們交互。語音識別技術可以應用在電話銷售上,例如:公司新人特別多,沒有經驗,拿到單子的可能性很低。怎么才能讓新人也能有很優秀的銷售能力呢?過去的做法是,把經驗總結成冊子,讓新人去背,很容易就忘了。但如果有了高精度的語音識別能力,就能識別出客戶在問什么,然后在屏幕上告訴新人,該怎么回答這個問題。
語音識別的第二個方向是語音的合成,是指機器把文字轉換成語音,并且能夠根據個人需求定制語音,然后念出來。以前的聲音是那種勻速的、沒有語調起伏的機器聲音,現在能用比較自然的人聲。語音合成能模擬任何一個你喜歡的人的說話方式,可以做到每個人聽的東西都不一樣。我們駕車經常使用的百度導航里李彥宏的聲音就是語音合成的結果。
盡管深度學習被引入語音識別后,識別率迅速提升到95%,但要將ASR(自動語音識別)從僅在大部分時間適用于一部分人發展到在任何時候適用于任何人,仍然是不現實的。一個無法突破的問題就是語義錯誤。例如:生活在南京的人都知道有個地方叫卡子門(kazimen),但是百度導航在理解卡子門的時候,會分詞為:“卡子-門”,結果卡子門(kazimen)就被讀成了卡子門(qiazimen)。
二、圖像識別
計算機視覺
圖像識別就是我們常說的計算機視覺(CV)。常用在:印刷文字識別、人臉識別、五官定位、人臉對比與驗證、人臉檢索、圖片標簽、身份證光學字符識別(OCR)、名片OCR識別等領域。
人類認識了解世界的信息中大部分來自視覺,同樣,計算機視覺也成了機器認知世界的基礎,其終極目的就是讓計算機能像人一樣“看懂世界”。目前計算機視覺在人臉識別、圖像識別、增強現實等方面有很好的應用,但也存在一定的挑戰。我們就拿谷歌的無人駕駛來說,通過機器視覺識別的技術路徑在現階段,仍有完全無法逾越的技術難題。
不談算法,圖像的攝取精度就是難關,即使最頂級的攝像設備都無法達到人眼的細節獲取能力,看看最頂級的哈蘇相機配合最頂級鏡頭,在夜晚街頭短曝光時間下拍的照片,對比人眼看到的圖像就能看到差異,這還不談經濟上可行的低成本攝像設備,視覺識別自動駕駛這個系統,眼睛就是近視眼。
而且如果下雨,灰塵等對分辨的影響都是很難解決的bug。如果配合雷達的話又有邏輯判斷優先的問題,信攝像頭,還是信雷達?會不會誤報?而作為激光雷達,如果單純的車身自己也有同樣的邏輯判斷的問題,什么樣的東西是有威脅的,什么是無威脅的。什么是潛在的威脅,這都不是計算機視覺這種單一智能所能解決的。因為預測未來的感知能力,是人與機器最大的區別。
三、自然語言處理(NLP)
賢二機器僧
自然語言是人類智慧的結晶。自然語言處理(NLP)是人工智能中最為困難的問題之一。由于理解自然語言,需要關于外在世界的廣泛知識以及運用操作這些知識的能力,自然語言認知,同時也被視為一個人工智能完備(AI-complete)的問題。
舉個例子,我們以前用鍵盤,鼠標,觸摸屏去和設備互動。但是現在你操作設備,只需沖著智能音箱說:請給我的手機充值100元即可。雖然這種功能在阿里的天貓精靈上已經實現了,但實現的前提是天貓精靈APP上已經錄有你的聲紋,并且你的手機號碼,及支付密碼已經預先在APP端設置好,否則機器沒有辦法理解我是誰、給誰的手機充值100元話費。
其次,自然語言處理背后所依賴的是傳統的問答系統技術,即Question Answering(QA)。QA技術是自然語言處理中非常重要的一個研究方向,原理是:對于輸入的問題首先做句法分析,從而理解問題或者指令的結構和意圖。比如如果用戶問的問題是某人出生在哪兒,那么機器需要先對這句話進行解析,進而了解所要回答的應當是一個地點,并且這個地點應當滿足某人出生與此的條件。
當我們能夠準確地了解到用戶提問的意圖并能根據機器可以理解的方式重新組織之后,就需要尋找答案。為了實現這一目的,QA系統的背后都存在一個龐大的數據庫(也就是知識庫),這個數據庫中存儲著所有的指令對應的行為或者問題對應的答案,當系統在數據庫中搜索到了自己要做什么或者回答什么的時候,就可以將答案反饋給用戶,或者直接實現用戶的指令。當然,如果數據庫的規模實在有限,有一個兜底的方法就是基于信息檢索來返回答案,即將用戶的輸入提取出關鍵詞然后求助于搜索引擎返回相關的內容再返回給用戶,由于互聯網無所不包,因此結果一般也尚可接受。
自然語言處理這塊相關落地的產品就很多啦。典型的代表就是聊天機器人,其中一類是以Siri、Amazon Echo、微軟小娜、阿里天貓精靈、小米小AI音箱等為代表,偏向于工具性的服務型機器人。另一類則是以微軟小冰為代表的娛樂型機器人。第一類聊天機器人,以完成任務或回答事實性問題為導向,譬如你問天貓精靈“今天的天氣如何?”,或者給“小愛同學”下達“關閉臥室臺燈”等指令。第二類則以閑聊為導向,并不需要給出某一個事實性問題的解答,只要交談自如、博君一笑即可。比如:北京龍泉寺的賢二機器僧。
四、用戶畫像
碟中諜6:全面瓦解
用戶畫像是根據用戶社會屬性、生活習慣和消費行為等信息/數據而抽象出的一個標簽化的用戶模型。構建用戶畫像的核心工作即是給用戶貼“標簽”——用數據來描述人的行為和特征,而標簽是通過對用戶信息分析而來的高度簡練的特征標識。
用戶畫像在商業領域應用的非常廣泛。拿百度舉例。百度現在識別了將近10億用戶,用了幾千萬個細分標簽給用戶分類,比如性別、年齡、地理位置,還有這個人在金融領域的情況,在旅游方面有什么愛好等等。這些東西合在一起,就組成了用戶畫像。百度就知道你是什么樣的人,喜歡什么樣的東西。比如,今年暑期檔將要上映的電影《碟中諜6:全面瓦解》,在宣傳的時候把人群分成了三類,一類是不管怎樣都要看的,一類是不管怎么都不會看的,第三類是可能會進電影院的。宣傳方就會使用百度大腦的用戶畫像功能,識別出第三類人群,對這類觀眾進行定向宣傳。
人工智能在用戶畫像里最重要的作用就是找到相關性,給用戶打標簽。用戶標簽是表達人的基本屬性、行為傾向、興趣偏好等某一個維度的數據標識,它是一種相關性很強的關鍵字,可以簡潔的描述和分類人群。比如好人和壞人、90后80后,星座、白領等。具體流程一般是從紛亂復雜、瑣碎的用戶行為流(日志)中挖掘用戶在一段時間內比較穩定的特征,即給用戶打上標簽。
舉例來說,如果你經常購買一些紙尿褲,那么電商網站即可根據母嬰購買的情況替你打上標簽“有孩子”,甚至還可以判斷出你孩子大概的年齡,貼上“有1-4歲的孩子”這樣更為具體的標簽,而這些所有給你貼的標簽組,就成了你的用戶畫像,也可以說用戶畫像就是判斷一個人是什么樣的人。但是今天的人工智能雖然能夠找到相關性,但是卻無法找到內在的邏輯,因此容易把前提和結論搞反了。比如根據大數據的統計,喝咖啡的人比不喝咖啡的人長壽。但大數據沒告訴大家喝咖啡是不是原因,或許是生活水平高的人才有錢、有時間喝咖啡。所以真實的情況是長壽的人喝咖啡。
五、人工智能算法
深度學習算法
說完了語音識別、圖像識別和自然語言處理這些涉及交互的前端人工智能技術, 我們再來說說后端人工智能技術。后端的人工智能技術指的就是人工智能的核心算法,包括深度學習算法、記憶預測模型算法等。
首先,我們來說說深度學習算法。我們知道2016年是人工智能爆發的一年,先有AlphaGo戰勝李世石,到了年底又有Master連勝60場,橫掃中日韓圍棋高手,一時間輿論為之震驚。這個Alpha Go背后的DeepMind團隊,用的就是深度增強式學習,這是深層神經網絡用于決策領域的成果。深度學習是機器學習的一個新領域,普遍認為深度學習的開創者是加拿大多倫多大學一位叫Geoffrey Hinton的教授,他是一位“神經科學家+計算機科學家”,他認為大腦是用全息的方式存儲外界世界信息的,并且從上世紀80年代就開始研究用計算機系統架構來模擬人類大腦,就是我們今天說的深度學習的原型。
今天我們可以這樣理解深度學習算法,深度學習就是運用神經網絡一層又一層的計算來找到最優的參數,再結合參數去做出未來的決定。出發點在于建立、模擬人腦進行分析學習的神經網絡。深度學習的整個學習過程中,幾乎可以做到直接把海量數據投放到算法中,讓數據自己說話,系統會自動從數據中學習。從輸入到輸出是一個完全自動的過程。深度學習算法現在被設計成實現設計者既定目標的工具。比如,AlphaGo的目標就是去贏得圍棋比賽,而不是去開車或干其他事情。AlphaGo不能自己設定自己的目標,如果要完成另一個目標,就需要設計另一種機器。當然人工智能有N多條路,深度學習算法是目前人工智能算法里表現最好的。但深度學習并不是一上來就好的,讓深度學習崛起還有兩個華人:
- 一個就是斯坦福的教授,也是后來谷歌大腦的創始人吳恩達教授,因為他發現深度學習需要有更強的計算能力,所以他找到了英偉達的GPU(Graphics Processing Unit,圖形處理單元),使得計算能力提升了上百倍。
- 另外一個人也是斯坦福的教授李飛飛,她建立了一個圖像識別資料庫。而且這個庫里面的所有的圖像都是標注過的,也就是說,如果圖里有山就會標注出山,如果有樹就標注出樹。這樣的話,你可以用這個圖形庫來訓練人工智能系統,看它能不能識別出來這個圖形庫上面所標注的這些元素。經過這個圖像庫的訓練,就可以訓練出視覺能力超過人的人工智能系統。
但是千萬不要以為深度學習達到今天的水平就是無敵了,甚至可以超越人類了。深度學習發展起來的人工智能系統存在一個明顯的缺陷,就是他的過程無法描述,機器不能用人的語言說出來它是怎么做到的。例如,Alpha Go打敗了李世石,你要問AlphaGo是為什么走這步棋,它是答不上來的。也就是說,我們沒辦法知道機器做事情的動機和理由。
要想更好的認識到人工智能算法的局限性,需要引入一個概念,就是認知復雜度。什么是認知復雜度呢?就是指你建構“客觀”世界的能力。認知復雜度高的人,善于同時用互補,或者互不相容的概念來理解客觀世界,因為真實世界本身就不是非黑即白的。那么對于機器來說,“認知計算”和“人工智能”有啥關系呢?人工智能的未來一般被分為三個發展方向:人搞定機器、機器搞定人和“人機共生”。而以“人機共生”為目標的人工智能,就是認知計算。IBM在認知計算領域獲得了大量經驗,并且總結了認知計算的三個能力,分別是交流、決策,和發現。
(1)交流
第一個能力是交流,認知計算可以處理非結構性的問題。很多用Siri的人,只會把這當成娛樂功能,因為它不能保證交流內容的準確性,有時Siri根本接不上你的話,因為你的話對它來說太復雜了。這個只能算作人工智能比較初始的狀態。
而認知計算可以完全模仿人類的認知,你可以把它當做一個孩子。就好像孩子周圍有一群逗他玩的大人,有人告訴孩子1+1=2,也有人說1+1=3。但是隨著孩子的成長,他自己會明白1+1=2才是對的。這就是非結構性問題。早期的人工智能只能學會別人教給他的知識,但是認知計算可以處理模糊的,甚至是自相矛盾的信息。
(2)決策
第二個能力是決策,我們都知道人工智能可以分析復雜的邏輯,然后做出決策。認知計算可以更進一步,根據新的信息來調整自己的決策。更厲害的是,認知系統所做的決策是沒有偏見的,而“毫無偏見的決策”對人類來說幾乎是一件不可能的事。比如說治療癌癥,這是典型的醫療決策場景。
癌癥之所以難治,一方面由于這種疾病太過復雜,另一方面,醫生如果不能及時發現患者的癌癥信號,可能會延誤患者的治療,或者導致診斷錯誤。而認知計算可以綜合分析復雜的醫療數據,還可以在醫生語言的上下文中解析含義,最后提出它的建議。
這就大大減少了醫生查病歷的時間,讓醫生能將更多的時間用在患者身上。2016年8月,《東京新聞》報道說,IBM研發的認知計算機器人“沃森”,就學習了海量的醫學論文,只用了10分鐘,就為一名患者診斷出了很難判斷的白血病類型,還向東京大學醫科學研究所提出了適當的治療方案。
(3)發現
第三個能力是發現,認知計算能發現新事物和新連接,填補人類思維的空白。比如在競爭激烈的餐飲業,怎樣才能做出令顧客滿意的新菜品呢?
認知系統可以整合區域知識、文化知識,還有各種食物搭配理論,幫助用戶發現想象不到的美食搭配。比如突然有一天,它會告訴你:用鹵煮的配方做個披薩,可能很合你的胃口。你照著一做,發現還不錯!實際上,從2015年開始,IBM開發的“沃森大廚”,就已經學習了35000多種經典食譜,然后通過分析海量的食材搭配,結合化學、營養學等方面數據,為廚師和美食家帶來了超出人類想象的新型食譜。
認知計算可以幫助我們更好的交流、決策和發現。但是人工智能依然有很多做不到的。例如:抽象能力,自我意識,審美,情感等。
六、小結
講了這么多的人工智能的能與不能。其實AI并不是魔法,它只是數學、統計學、以及使用大數據來進行模式識別,是對環境和物體的識別和相關性分析的智能。采用算法的方式來實現人的邏輯和數學思維,形成計算機思維,從而衍生出特殊算法系統,機器智慧。
其實一切人工智能問題其實就是硬件問題軟件化,用自動化的知識解決一切問題。比如說攝影,過去我們用各種光學鏡頭來讓照片更美,現在用“算法”我們就能搞定。再比如做實驗,過去我們要擺弄各種瓶瓶罐罐,而現在我們則可以在計算機里模擬核爆炸。
本文由 @黃成甲 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Pexels,基于 CC0 協議
你好,請問想要轉載文章,需要注意哪些?謝謝!
注明來源出處即可!
好的,謝謝~
感謝分享
不客氣!~
大數據或者AI下,更多的展示的是數據間的相關關系而非因果關系。以往,人的思維總是更多的關注因果關系,比如一個事情發生了總要找到為什么發生,而大數據時代,我們也應該慢慢去關注數據間的相關關系,相關關系給我們帶來的價值個人覺得是勝于因果關系的。有一點是確實的,目前的深度學習的可解釋性確實很低。
數據驅動不代表要盡信數據分析的結果,正確的使用分析方法才能得到有意義的結論。
是的,如您所說。
感謝分享~~