增強現實的權力江湖

0 評論 9076 瀏覽 24 收藏 24 分鐘

這篇文章是基于Mark Domino?和Jasper Speicher 2009?年的談話升華而成?,F在盡管硬件方面有所進步,但和那時候相比并沒多大改變。

現在我給出一個結論:增強現實的發展很像早期的互聯網。增強現實正處于潛在的變革上,也面臨著和早期互聯網相同的問題。我會指出其中的一些陷阱。

現在正是技術增長的拐點期:作為個體而言,很難做出很有影響力的決策。我們全體選擇了一條道路,出于私有產權而束縛技術的發展,限制了它改變生活的可能性。

這篇文章最重要的基礎假設是:忽視所有權,在不久的將來增強現實會無處不在,始終開放,會如同現在的智能手機一樣被廣泛采用。從硬件的角度來說,這可能意味著增強眼鏡、隱形眼鏡、車里的擋風玻璃、大腦植入、栓劑(suppositories)或者你有的東西。

如果你不是在這個前提下和我探討,那么下面的的內容將對你沒什么幫助。也許有一天這兒會出現關于這個前提的討論,但對我來說這個結論已經不需要爭辯了。

在這個信仰之外,我也套用Nick Bostrom?的話:這篇文章里的許多假設可能是錯誤的,但我不知道是哪一個。

與早期互聯網相比

對現在而言,增強現實無論是嵌入到可穿戴設備中,還是以“魔法鏡子”或手機窺視鏡的方式,它在部署和消費方面都很像早期互聯網的布局。主要是,消費級增強現實系統被設計為在一個時間內只運行一個程序,而那時候的互聯網應用程序,也是在一個時間里只能連接一個系統或數據模型。

相對應在內容創作方面,創作者必須給每個應用單獨創作內容。如果我想給Layar AR?平臺創造內容,我必須基于他們的用戶界面后端(這不是可擴展的方法),然后根據這個目標提供一個版本。如果我想對Aurasma、Wikitude或BrowsAR?做同樣的事,或者做其他的標記來追蹤,我需要重新給每個平臺設計。

互聯網的早期應用,在某種程度而言有非常多的限制。上個世紀90?年代,如果你想傳輸文件給一個用戶,你得先打電話給他,讓他們準備好,啟動和收件相關的程序,通過撥號連接聯系到對方,然后傳輸文件。而如果我想和他們聊天,我需要斷開連接,打電話給他們讓他們啟動聊天應用程序,關閉收發程序,然后才可以聊天。

早期互聯網的部分力量,在于它使得任意的內容可以在任何地方進行演示。這個能力從HTML?開始,TimBerners-Lee?采用了已被接受的標準SGML。不久后瀏覽器誕生了,從1992?年基于文本的瀏覽器Lynx?的到來開始。

正是這種內容和表現形式的分離,才有可能創造現在被稱為互聯網的生態系統。也正是在這樣的背景下,創新的推動和標準化的發生,才帶給我們現在的瀏覽器:可以同時運行多種程序,有功能齊全的應用以及獨立于瀏覽器的設計。

這并不是說,人們致力于圍繞互聯網各大平臺做專門化的設計是沒有價值的。必須強調的是,現在的情況有些跳躍,超越對當前創造物和增強現實內容的思考?,F在是一場競賽,去定義最具有實力的平臺,并希望它能夠成為事實上的標準。通過這樣做,這些早期進入者希望能圍繞封閉系統,定義自己的市場。

但問題顯然更大

這些問題可以被解決,通過對網頁和3D?圖形標準化,建立靈活的標記語言,給AR?瀏覽器開放SDK,并使之和內容彼此獨立。這將是尋求共識的挑戰,但這不是在重新發明輪子,事實上他們已經在這兒了。

廣泛采用一種標記語言是可以想象的,而且很可能會出現一個或多個獨立于內容的AR?瀏覽器(更重要的是,也獨立于硬件),這就像我們現在基于屏幕的互聯網內容。

更大的問題來自于真實增強現實應用對內容的感知能力。用戶在互聯網中的輸入,限制在鍵盤和鼠標,但AR?應用被期待能夠對我們的思想做出反應。AR的硬件必須轉播AR?軟件的內容,并且連接到系統里從各個傳感器的輸入:視覺輸入、音頻輸入、語音命令、地理信息等。

但這樣的系統會對信息流做什么事情?當然,你可以想象一個應用程序做一些和你的位置和方向相關的工作,并且在頭戴式設備中進行地圖標記,但我們現在就有了,而且這非常無聊。

在互聯網的情況下,搜索通過超鏈接,能夠對文本輸入訪問遠程托管的內容。以AR?作為等價的類比,但在“搜索”這個環節就失敗了。就結果而言,我們在AR?操作中并沒有鼠標,所有輸入到搜索里面的,是視覺和傳感器的數據,而非小心輸入的文本信息。所以超鏈接往往不管用。

在最普遍的意義上,AR搜索是必須的,作為第一步,要把我們大腦所想的和信息做到一致。聽起來很簡單么?并不是這樣。

教機器以語義

要教會機器識別它看到的東西,這里面有一百萬個難題。我不打算把它們一一列舉出來,部分是因為我不夠資格,另外也因為這篇文章并不是直接關于機器學習和計算機視覺。

這是關于未來的重要難題。當機器能夠識別出東西,或者一個具體的實例、地點和接近用戶的其他人,這都是AR?未來的問題。

當一個AR?系統解決了它看到的問題,這就能夠給刺激帶來反應鏈,導致系統實際上給你的周圍增加新的場景。例如,當指向我的AR?隱形眼鏡的時候,它會采集一些顏色的信息,也許會有一些深度信息(3D),一些規模信息(上下文),地理信息,聲音、溫度、高度等,然后根據這些信息來識別出物體。

目前來說,小規模的作者驅動的AR?系統,需要內容創造者在創造時輸入3D?模型和2D?文本。應用程序在這個時候,會搜索輸入的視頻流,看這些物體的文本和數據庫中哪些物品能夠匹配上。而當它能夠識別出一個的時候,就給出設計好的回應。這些回應是有限的,在大多數情況下,對視頻或3D?內容在預先定義的空間關系上進行疊加或者識別。

為了解當前系統固有的問題,增強現實反應和輸入之間的對應關系,取決于個人作者的決定。在這個封閉系統里,我們來看看關于這些的案例,里面有很多的利益相關者。

在我們的假設下,未來不依賴于內容的AR?瀏覽器,會在各種各樣的硬件上運行。當我們看著一個可樂瓶的時候會發生什么?首先,這兒會有很大的光澤,而下面會更多,系統會像我們的大腦一樣,識別出這個罐子,并且說道:“這兒有一件你的東西,屬于可樂罐的類別,甚至可能會有更多的信息,例如凹陷的、打開的、生產于亞特蘭大,2017年11?月過期等。

更重要的是,這是一個象征性的識別,相比于現在的文本檢索,更抽象也更強大。

作為最近的例子,Google發布了Cloud Vision API,使用機器學習的方法進行圖像識別。這很像Google Goggles?過去做的,給實際的圖像添加標簽,給地圖添加坐標,進行人臉識別和OCR。給這些識別進行堆棧,并且配對置信分數,通過Rest API?得到反饋。通過這項服務,開發人員可以利用Google?的能力以確定內容圖像。我們可以看到圖像識別的能力還會進一步擴大,隨著系統給更多的具體物品建立標簽,甚至對世界的名字進行鏈接的分類,例如把WordNet?和ImageNet?聯系起來。

不管執行情況怎樣,我們做出一個關鍵的決策:下一步會發生什么?當系統識別出可口可樂的存在后,會展現出什么?請記住,未來這些系統已經得到普遍和廣泛的使用,難道不應該發生些事情嗎?

增強現實的權力江湖

可口可樂的廣告,一下子就顯得有生命起來了。可能是一段AR?的效果展現在可樂瓶上面,或者一群美麗的家人,以3D?的形式聚集起來,拿著自己的可樂瓶向你致敬?或者百事可樂的廣告在前面出現,遮擋住可口可樂的品牌?

對我來說,可以運行一個AR?廣告屏蔽的插件嗎?或者購買服務,以減少程序的贊助商內容?當我訪問時代廣場并且抬頭看到三星的廣告牌,我能看到一個“真的”廣告牌嗎?

增強現實的權力江湖

那么,你周圍人的臉呢?你從屏幕上閱讀的文字?公寓里的墻壁?你都能得到圖片。

問題的復雜性在于,一個彈出的畫面可能會不安全。假如說我在駕駛公交車,那么這些事情的解釋就不是文字那么簡單。這些復雜的因素會對我們的行為影響很大。

問題在于我們擁有的語義學上,或者在更大的意義上說,網絡符號學。讓系統識別符號看起來有點瑣碎,相比于一些更復雜的問題,例如涉及到環境中物體的意義,這背后還有知識產權的問題。

而當所有權和網絡空間的知識產權結合在一起,這里面的問題就遠多于其他方面。這會逐漸變得Ugly。

話語權的問題

對于那些關注者來說,這個問題可能聽起來很熟悉。DNS的基礎是廣泛采用的協議,它由非政府組織ICANN?管理,這是總部設在美國的非盈利組織。它具有對URL?語義專屬的解釋權,而且也對應到互聯網協議的空間。它沒有什么排他性,這成為了互聯網的基礎,創造了通用文本的白皮書,由于它和現實情況關于商標、產權等案例的相似性,互聯網協議能夠根據它解決問題。

不過我不相信,這些涉及到商標、知識產區和隱私糾紛的事會很容易擴展到VR?的領域。

關于所有權的話語權問題,正如很多東西一樣,背后都有一些共同的利益,通過主導和游說律師,最終落在了私人手里。我不需要對此過多解釋,但這不是最好的結果。不過為了使可能性成為可能,系統需要設計為依賴于有話語權的中央權威,而背后有利潤的動機。

沒有發生和DNS?相似的事情,因為還沒有人意識到坐在ICANN?的位置上會帶來多少價值,直到已經為時尚晚。這并不意味著這不會發生,有一個猜測是,微軟在生產AR?硬件的興趣上,其利潤可能不局限于設備本身。這不是他們玩的游戲。他們和Magic Leap?希望擁有自己的傳輸管道,所有東西從生產到內容到分發,都通過這里進行。你也可以對Google?最新的CV?服務做類似的假設。

這給我們帶來了技術背后的支撐,不依賴于文本、傳感器驅動、上下文感知、總是運行的消費者端AR?系統,這些問題的解決是非常重要的,最早這么做的也許能獲得那個圣杯。

沒有鍵盤的操作系統

正如Google?演示的一樣,能夠運行各種隨意代碼的瀏覽器,和操作系統的區別是不多的。就像一些操作系統需要使用Windows?管理來保證GUIs?運行的不錯,我們的AR?系統也在確保內容以一種好的方式來展現,考慮到我們的喜好以及大腦傳感器的帶寬。

例如說,你對于邊開車邊聽紐約時報表示完全的舒適,甚至在你視野的角落上,有一個小的視頻聊天窗口也可以。但當你在高速公路疾馳的時候,你完全不想要更多的東西。相反,當你在家里的時候,你也許會愿意接受更為沉浸式的體驗,但你也不會希望窗口彈出:你的煤氣賬單該交了。

在一個用戶定義的背景下,這有點像今天智能手機里的權限(Permissions)。我們可以給特定的應用程序訪問我們的注意力的權限,而我們的屏幕也會在特定的情況下彈出提醒。這是一個開始,尤其是一些瀏覽器自己能提供通知和權限設置,這也是通常操作系統的功能。

先不管輸出的問題,操作系統的任務如何接收傳感器的輸入和上下文信息?別忘了我們沒有鍵盤和鼠標,我們都是通過自己對世界的感知,來驅動這個系統。

兩種途徑

正如我們常年期望電影CGI?的智能能夠超越實時系統能提供的,它將持續超越用戶端系統的能力,以掌握視覺處理和任務搜索,以感知周圍的世界,滿足我們對速度、正確率和帶寬不斷增長的期待。

這意味著我們的設備會部署在一個低延遲、高帶寬的連接上。他們會通過刺激和上下文的理解,對用戶的狀態、聯系人、歷史、喜好和習慣進行反應,就像當下設備和互聯網做的那樣。

由于這些限制,到目前為止,所有潛在的方法都是相同的。在返回結果的性質上,可能會出現問題,而問題的核心在于所有權和利潤的動機。

在AR?生態系統里,識別服務是由一個非盈利或其他中立的實體組織提供,服務器會不斷吸收這些信息流,并且從提供的零散聯結刺激中進行推斷。

這是一輛自行車。那是124鷹街。那是你的朋友Willy。那是西方。這是一輛卡車。那是街。這是石頭。這是一個交通燈,它是綠色的。

這些離散標記的集合,會通過管道返回到硬件里,作為對世界的標記,然后準備好在用戶的應用程序里得到解釋。

這意味著刺激的識別以及增強現實解釋,通過用戶端的代碼可以持續的作用,就像現在互聯網做的一樣。在一個物理分布式的網絡中,相同的組織會被某些廣泛聯系、同意授權的DNS?控制。關鍵是,這意味著識別和解釋的任務,是被分離的。

當然,這樣的處理能力會給供應商帶來巨大的成本,無論是開發還是經營費用。因此,必須使得供應商通過某些方式收回成本。在ICANN?的情況下,這項服務是通過非盈利組織來提供的,現在看起來運行的還不錯。它會象征性的收取注冊費用,而最近它也拍賣了一些頂級域名。

我們正在討論的系統類型,并不會如此簡單的發展或者根據DNS?的根域名服務器進行維護。而正如上面討論的,現在還很難界定清楚,作為一個非盈利組織究竟什么可以出售。即便是擁有非常民主化的深度學習工具,GPU集群也不便宜,而帶寬也不是免費。

我們可以很容易的想象到,識別服務會差不多由一小部分Google?規模的公司壟斷。這些提供識別服務的公司會尋求垂直的整合,密切和消費者的硬件、軟件服務進行聯系,就像我們現在看到的智能手機、游戲機和閱讀器等。

一旦循環被關閉,就很難阻止供應商給最高價格的公司提供前所未有的用戶訪問權。

這可能意味著任何數量的貨幣,優先展現贊助商關于產品、地方和人的內容,甚至是具體的文本,例如當你看到車的引擎蓋的時候,會出來如何維護的手冊,或者是零售產品的評論。想想一個有驚人經濟實力的公司,它能夠完全控制始終開啟的視覺系統,嵌入到成千上萬的消費者的注意力中。至少,你現在還可以不看電視廣告。

想象一下,當這些應用處于追求利潤的公司手上時,或者在分布式的生態系統時,會有什么不同。

以微軟為例,Harris確認說,微軟對HoloLens?平臺的意圖,是通過服務器同步所有用戶的體驗。這些多用戶的體驗是一種共享幻覺,這能帶來AR?的廣泛使用。

服務器端的應用程序和預先渲染的內容,將進一步加強垂直整合,避免各地客戶端的反向工程或“越獄”,并把客戶端的硬件轉化為簡單的啞巴終端,并把它變成免費服務發放出去。

如果我們一起做

我們拒絕:國王、總統和投票。我們相信:共識和運行的代碼。Tao of IETF

除了最堅定的自由主義者,我們不得不承認利潤動機和壟斷相結合,會導致非常不好的事情。

除了最左派的份子,我們也不得不承認,系統越現代和復雜,越不適應政府提供的服務。近期這些自豪吹噓的政客們,也表現出對互聯網知識缺乏了解。

即便是像ICANN?這樣的非政府、非盈利組織來規范識別任務,我們也會有微妙的形勢,審查制度、文化規范、禁忌、地緣政治沖突、政府、警察,遠遠超過Google?在世界范圍內遇到沒完沒了的挑戰。這是一個永無止境的戰斗,而且沒有更高的權威來仲裁糾紛。

有一種觀點認為,識別問題的規模表明,唯一可行的、可拓展的解決方法,將會依賴于用戶在輸入上的逐漸增多,類似于reCAPTCHA?中的分布式OCR?項目。而在深度學習技術出現之前,語音識別和計算機視覺的問題都過于復雜,而難以操作。

這些早期的方法,試圖把復雜的識別問題,分解為較小的不相關的任務。深度學習,雖然更加自主,但還是需要大量正確標記的數據集,這需要培養對真實世界的經驗。這意味著,人類需要先對此進行標記,這種工作也許超越了最財大氣粗的實體。

深度學習最近在各個領域的成功是一個提示,但是尋找合適的訓練材料,依然是個障礙。

即便有一個合適的組織,訓練一個識別系統能夠對各種任務進行反應,數據中心也不便宜,而除了維基百科之外,我們還沒看到哪些大規模的自組織任務能夠在年輕網絡實行的案例。這不是找到誰來買單的問題,必須有人來駕駛這艘船只。

但是,假如我們從最近的假設中學習到了某些錯誤,而你也同意我的觀點,那么什么時候會開始建立一個在互聯網協議層,結束被單一組織控制的的垂直實體?這個組織是什么樣子?

甚至可以想象,未來這個角色由一個營利性公司來承擔?

或者說,一個分布式的組織,或者一個標準組織,一個政府實體,來扮演這個角色?

 

本文來自Medium,原作者Noah Norman,由王嘉俊原創翻譯。

原文地址:http://www.leiphone.com/news/201601/YQm0wC5gzUtmqllX.html

本文來源于人人都是產品經理合作媒體@雷鋒網

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!