人工智能即將帶領(lǐng)我們進(jìn)入下一個時代?

1 評論 3346 瀏覽 10 收藏 19 分鐘

人類發(fā)展處于不斷地進(jìn)步中,從最初的石器時代到現(xiàn)在的信息時代,下一個即將迎來的會是什么時代呢?

今天和大家分享的主題是:“三維視覺與空間計算,是智能交互時代的基石”。接下來你將聽到的是啟示今后二十年人工智能發(fā)展方向的重要信息。

一、人工智能的出現(xiàn)及發(fā)展

人工智能是人類終極愿望和本質(zhì)訴求的階段性產(chǎn)物:

它經(jīng)歷了二十世紀(jì)五十到七十年代以邏輯主義(符號主義、邏輯推理、定理證明)為核心的第一次浪潮;八十年代到二十世紀(jì)末以連接主義(知識工程、專家系統(tǒng)、神經(jīng)系統(tǒng))為核心的第二次浪潮;以及從2006年至今,以2006年Hinton提出的深度學(xué)習(xí)技術(shù)和2012年ImageNet競賽在圖像識別領(lǐng)域帶來的突破為標(biāo)志性起點的第三次浪潮,最核心的就是深度學(xué)習(xí)。

人工智能結(jié)合數(shù)據(jù)對傳統(tǒng)算法的大幅提升,已經(jīng)可以解決具體問題了,產(chǎn)業(yè)界呈現(xiàn)出欣欣向榮的發(fā)展景象。

回看幾千年的文明發(fā)展史,信息工具的升級和生產(chǎn)工具一起驅(qū)動著人類的本質(zhì)訴求——進(jìn)化和文明躍遷。

“手機”會消失?我們將進(jìn)入下一個時代

從原始文明的結(jié)繩記事、甲骨文、竹簡,到農(nóng)耕文明的活字印刷,再到工業(yè)文明的電話電報,信息文明的互聯(lián)網(wǎng)與電腦、移動互聯(lián)網(wǎng)與手機,我們在想智能文明時代的終端信息工具是什么?不妨看看第三次浪潮中的人工智能技術(shù)發(fā)展。

隨著算法和算力的快速發(fā)展與數(shù)據(jù)的指數(shù)級累積,2005年左右開始出現(xiàn)以文本和語音為數(shù)據(jù)的一維智能公司,如Google、百度、科大訊飛等,以及以圖片和視頻為數(shù)據(jù)的二維智能公司,如曠視、商湯、云從等。

“手機”會消失?我們將進(jìn)入下一個時代

我們生活在三維空間,期待更多優(yōu)秀的三維智能企業(yè)。

當(dāng)然,在自動駕駛和機器人行業(yè)已出現(xiàn)不少佼佼者,如Waymo、drive.ai、蔚來汽車等,用三維視覺與高精度圖服務(wù)為汽車和機器人賦能,解放人在通勤和工程作業(yè)中的勞動力。

但我們工作和生活中的絕大部分場景,如辦公室、商場、景區(qū)、展館等,無法用昂貴笨重的毫米波雷達(dá)等設(shè)備解決空間計算問題,這就需要用到消費級的三維智能技術(shù)。

二、三維視覺與空間計算

1. 三維視覺和空間計算是什么?

三維視覺和空間計算是人工智能領(lǐng)域最重要的分支,旨在通過計算機視覺與計算機圖形學(xué)及深度學(xué)習(xí)等相關(guān)算法與多種三維特征傳感器結(jié)合,解決人或機器對三維空間的感知、重建與理解以及與空間的實時相對關(guān)系的確定。

三維視覺是智能交互時代的基石,建立了人與物理世界、人與數(shù)字世界以及數(shù)字世界與物理世界穩(wěn)定統(tǒng)一的絕對聯(lián)系。

人類將進(jìn)入下一個紀(jì)元,可以擺脫掉鼠標(biāo)、鍵盤與屏幕,直接用最自然的方式與數(shù)字化的信息與世界智能交互,整個世界成為人類的鼠標(biāo)和屏幕。

“手機”會消失?我們將進(jìn)入下一個時代

三維智能時代的技術(shù)核心不是憑空產(chǎn)生的,而是多學(xué)科交叉融合產(chǎn)生的化學(xué)反應(yīng),包括:

計算機視覺Computer Vision領(lǐng)域的幾何算法、計算機圖形學(xué)(Computer Graphics)、人工智能(ArtificialIntelligence)中Deep Learning(深度學(xué)習(xí))以及神經(jīng)網(wǎng)絡(luò)的發(fā)展,其他還包含芯片技術(shù)、云計算、異構(gòu)計算的發(fā)展等等。

2. 三維視覺和空間計算有什么用?

能做什么?對我們的工作生活有什么樣的革命性的影響?

三維視覺與空間計算驅(qū)動的智能交互,可以全息傳輸以進(jìn)行混合現(xiàn)實遠(yuǎn)程會議;可以把物理世界的場地和虛擬娛樂與消費場景任意疊加;可以把游戲世界融合到真實世界中來。

如今,在現(xiàn)實場景中,想獲取面前商家的數(shù)字化信息,還需要打開美團(tuán)點評進(jìn)行搜索,GPS定位也非常不精確,但有了悉見大腦加持的三維視覺能力之后,所有的數(shù)字化信息可以直接持久化地融合在我們面前的真實場景之中,根本不需要再盯著屏幕看導(dǎo)航或信息。

所有的信息都會以三維模型的形態(tài)嵌入到真實世界,并且根據(jù)個人喜好個性化顯示,實現(xiàn)“我想看到的我就能看到,我看到的就是我想看到的”的理想目標(biāo)。

商業(yè)營銷和娛樂互動基于此,也會更加有趣。比如你想買車時,可能一輛以假亂真的瑪莎拉蒂立馬就開到你面前的馬路上,美女模特下車和你互動并展示車的性能參數(shù)與炫酷外觀內(nèi)飾。

當(dāng)你去游覽各種名勝古跡時,也不需要請導(dǎo)游講解。

雅典衛(wèi)城破損的神廟恢復(fù)如初,在雅典娜女神幫助下的希臘人,好像正在設(shè)計特洛伊木馬;

羅馬斗獸場正在上演公元一世紀(jì)最受羅馬貴族喜愛的殘酷格斗,九萬余人按身份階層在整個體育場吶喊,持三叉戟和網(wǎng)的角斗士正準(zhǔn)備殺死懇求神發(fā)慈悲的失敗者……

3. 智能交互時代的三大特征

三維視覺與空間計算驅(qū)動的智能交互時代有三大特征:

物理世界的數(shù)字化:

很多人說互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的下一代是物聯(lián)網(wǎng),萬物互聯(lián)。我們通過各種各樣的傳感器,將我們的工作和生活場景進(jìn)行量化和數(shù)字化。

“手機”會消失?我們將進(jìn)入下一個時代

智能家居就是一個非常典型的場景,像智能臺燈、智能開關(guān)、智能監(jiān)控、智能電視、智能路由器、智能空調(diào)、智能窗簾等等,我們通過各類傳感器,將物理場景進(jìn)行采集和數(shù)字化,同步到云端。

不僅如此,我們還對自身進(jìn)行量化和數(shù)字化,比如我們跑步、走路、睡眠時,都在產(chǎn)生大量的數(shù)據(jù),包括心跳、體重等,我們每天都會看這些數(shù)字,用來炫耀或優(yōu)化自己的物理身體。

“手機”會消失?我們將進(jìn)入下一個時代

還有一種逐漸從工業(yè)界滲透到我們生活中的非常重要的物理世界數(shù)字化手段,統(tǒng)稱三維建模。

包括用專業(yè)設(shè)備進(jìn)行的超大規(guī)模三維重建、中小規(guī)模三維重建、以及游戲動畫影視行業(yè)的CG建模,已經(jīng)能達(dá)到以假亂真的地步。

“手機”會消失?我們將進(jìn)入下一個時代

數(shù)字世界的物理化:

什么意思呢?就是在數(shù)字世界非常龐大的現(xiàn)實下,從網(wǎng)頁,Google、百度的索引數(shù)據(jù)庫,到每個企業(yè)的業(yè)務(wù)數(shù)據(jù),我們在用什么樣的方式跟數(shù)字世界打交道、我們?nèi)绾胃兄头答仈?shù)字世界。

“手機”會消失?我們將進(jìn)入下一個時代

混合現(xiàn)實的智能化:

人有視覺、聽覺、觸覺、嗅覺、味覺,人類感知世界的方式,是通過感官獲取到生物信號經(jīng)由大腦的主觀詮釋,當(dāng)物理刺激同時對不同感官進(jìn)行刺激時人就會信以為真,所以我們要讓人類感知數(shù)字世界,傳感器的協(xié)同反饋非常重要。

今年上映的現(xiàn)象級電影《頭號玩家》,描述了未來的游戲體驗綜合反饋了三種以上甚至四種五種感知的協(xié)同反饋。相信大家看得很過癮,甚至有很強的代入感。

“手機”會消失?我們將進(jìn)入下一個時代

他們戴著VR頭盔可以協(xié)同解決視覺和聽覺反饋的一致性,所穿的特制服裝很關(guān)鍵,當(dāng)你被敵人攻擊時,會在衣服上形成對你物理身體的協(xié)同刺激。但這是科幻電影中的想象。

在現(xiàn)實世界,這部分做得還很差。我們現(xiàn)在和數(shù)字世界交互、建立物理和數(shù)字鏈接的方式還很簡單,用PC和手機。掃福字、掃紅包就是很典型的體驗,通過圖片和平面的掃描,把數(shù)字世界的相關(guān)信息激活,用手機屏幕顯示出來。

“手機”會消失?我們將進(jìn)入下一個時代

由于技術(shù)限制,我們從微信、微博、頭條,到抖音、快手、愛奇藝,所有跟數(shù)字世界打交道的方式都是這五寸左右的小屏幕,所以一個個都成了低頭族,進(jìn)而阻礙了我們跟真實世界的聯(lián)系,忽略了身邊的人和事。

更嚴(yán)重的是,從2016年開始小米走向低谷,標(biāo)志著智能手機行業(yè)經(jīng)過十年的發(fā)展已到達(dá)了平臺期、存量期。

蘋果引領(lǐng)了齊劉海之后,出現(xiàn)了幾十款高級復(fù)刻品?;谟|屏手機交互已沒有什么創(chuàng)新空間,蘋果最新發(fā)布會所有產(chǎn)品的亮點也只是A12仿生芯片和AR。

“手機”會消失?我們將進(jìn)入下一個時代

我們都知道,蘋果、微軟、谷歌等都在緊鑼密鼓地研發(fā)消費級AR眼鏡。我們認(rèn)為,能同時對視覺和聽覺沉浸式反饋的AR眼鏡是手機的下一代交互方式,那我們有什么樣的期待?為什么2012年推出的Google Glass沒有成功?

這就是混合現(xiàn)實智能化,也是三維視覺和空間計算要解決的問題。

4. 如何實現(xiàn)混合現(xiàn)實智能化?

首先是三維感知:即對三維場景的深度估計或物體表面形狀的數(shù)字化采樣,這里涉及到了多傳感器的快速標(biāo)定、多目視覺和慣導(dǎo)融合、多傳感器融合比如雷達(dá)、全景相機等,還有基于事件相機的SLAM。

其次是位姿感知:即當(dāng)你對周圍空間進(jìn)行感知后,要確定你與環(huán)境之間的實時動態(tài)關(guān)系,對相機或物體在三維空間中的位置和朝向的計算進(jìn)行實時追蹤。

也就是我們常說的六自由度的重定位算法、VIO(多目視覺和慣導(dǎo)融合)、SLAM(simultaneouslocalization and mapping,即時定位與地圖構(gòu)建,或并發(fā)建圖與定位)、Sematic SLAM等等。

接著是三維重建:對三維場景或物體的形狀和表觀模擬,以及運動估計和動態(tài)重建,包括:

地圖構(gòu)建和持久化、地圖優(yōu)化、多地圖對齊和融合、通過SLAM進(jìn)行稀疏3D重建、SFM(Structure From Motion,從運動恢復(fù)結(jié)構(gòu))、結(jié)合深度數(shù)據(jù)的稠密3D重建、深度學(xué)習(xí)優(yōu)化的3D重建等等。

最后是三維理解,也是我們的進(jìn)一步目標(biāo)。

這就要求做平面語義分割、3D語義分割、動態(tài)目標(biāo)分割與追蹤、實時語義內(nèi)容檢索以及對位姿感知的反饋優(yōu)化等。

解決了這些問題,也就解決了物理世界數(shù)字化、數(shù)字世界物理化、混合現(xiàn)實智能化的問題。

三、悉見在三維視覺方面做了什么?

從2012年開始深度學(xué)習(xí)大范圍推廣,2015年,AR、機器人、無人駕駛開始引起熱潮,悉見也在這個時間成立。

之后微軟的混合現(xiàn)實眼鏡HoloLens上市、蘋果和谷歌發(fā)布AR軟件平臺ARKit和ARCore,再之后手機開始支持正面的3D深度攝像頭,不久后置深度攝像頭也會出現(xiàn)。

悉見AR眼鏡第一代在2017年底量產(chǎn)出貨。2018年國外出現(xiàn)三維場景實時重建的軟件產(chǎn)品,悉見也發(fā)布相應(yīng)的混合現(xiàn)實大腦平臺xarc.ai,今年10月份悉見和北大成立了聯(lián)合智能技術(shù)研究中心,重點推進(jìn)三維視覺的產(chǎn)學(xué)研(產(chǎn)業(yè)界、學(xué)術(shù)界、研究界)進(jìn)展與落地。

“手機”會消失?我們將進(jìn)入下一個時代

如果用一個詞來總結(jié)三維視覺的發(fā)展趨勢,就是“融合”,包括:

傳統(tǒng)幾何算法與深度學(xué)習(xí)方法的融合、多傳感器的融合、軟件云服務(wù)與硬件的融合(包括算法的硬件化/芯片化)、以及與具體應(yīng)用的結(jié)合,比如AR/VR/MR、AGV、自動駕駛、機器人等等。

“手機”會消失?我們將進(jìn)入下一個時代

在這個過程中,我們總結(jié)出了一套系統(tǒng)架構(gòu),可以高效解決各行業(yè)對三維視覺和空間計算的需求。

從上到下可以分為五層,分別是物理層(PhysicalLayer)、數(shù)字層(Digital Layer)、引擎層(EngineLayer)、終端層(Device Layer)、應(yīng)用層(ApplicationLayer)。

“手機”會消失?我們將進(jìn)入下一個時代

物理層就是我們的真實世界。數(shù)字層是對真實世界的數(shù)字化采集和重建。

在數(shù)字層,我們提供高精地圖采集專業(yè)設(shè)備,可以做到厘米級到毫米級的精度、每天十萬平米的高效率,而且支持端到端的定位網(wǎng)絡(luò)生成和上千種物體的智能識別。

引擎層是三維混合現(xiàn)實數(shù)據(jù)存儲、檢索、渲染和交互的驅(qū)動平臺。

“手機”會消失?我們將進(jìn)入下一個時代

在引擎層,我們提供了整套的自動化建圖工具、混合現(xiàn)實場景編輯工具,以及適配多種設(shè)備的終端SDK。

終端層是用戶與數(shù)字層交互的入口設(shè)備和計算平臺。

在終端層,我們已經(jīng)研發(fā)和量產(chǎn)了多款A(yù)R和AI眼鏡,包括去年量產(chǎn)的首款45°視場角、166g最輕亮雙目AR眼鏡一體機、今年量產(chǎn)的第二代強性能AI眼鏡用NPU進(jìn)行人臉識別、車牌識別、空間定位、以及即將發(fā)布的代號M消費級AI眼鏡。

“手機”會消失?我們將進(jìn)入下一個時代

應(yīng)用層是跑在混合現(xiàn)實系統(tǒng)上的所有應(yīng)用,就像手機里安裝的各種各樣的APP。

同時悉見自主研發(fā)視覺加速芯片XVPU,也對我們各代硬件設(shè)備的智能化和小型化,起到了關(guān)鍵的作用。

“手機”會消失?我們將進(jìn)入下一個時代

目前我們市場團(tuán)隊在第一線接收到了多個行業(yè)萬億級三維視覺需求的快速增長,如同PC時代和智能手機時代,各行業(yè)及消費級應(yīng)用生態(tài)會隨著基礎(chǔ)技術(shù)平臺和工具的完善快速豐富起來,一起迎接三維智能時代的到來。

文章為講者獨立觀點,不代表筆記俠立場。

 

內(nèi)容來源:2018年10月24日,悉見科技創(chuàng)始人&CEO劉洋受邀出席《2018中國虛擬現(xiàn)實大會》,并發(fā)表題為《三維理解與重建是智能交互時代的基石》的精彩分享。在演講中,劉洋對人工智能領(lǐng)域的未來作出了判斷和預(yù)測,并首度完整闡述了悉見科技混合現(xiàn)實大腦xarc.ai的系統(tǒng)架構(gòu)及商業(yè)價值。筆記俠作為合作方,經(jīng)主辦方與講者審閱授權(quán)發(fā)布。

分享者:劉洋,悉見科技創(chuàng)始人&CEO

來源:https://mp.weixin.qq.com/s/I54hcrs5Vhi59LzVva7-hA

題圖來自Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!