眼動追蹤交互:30年回顧與展望

0 評論 3230 瀏覽 14 收藏 13 分鐘

在這些年來,眼動追蹤技術經歷了怎樣的發展歷史?這篇文章里,作者總結了眼動追蹤技術的歷史,并對眼動追蹤交互應用的分類、眼動追蹤性能等方面做了總結,一起來看看吧,或許有助于你了解XR場景下的眼動追蹤應用。

本文從以下兩篇文獻出發,系統總結了基于注視的交互(Gaze-based Interaction)30 年來的進展與現狀,并結合眼動與注意的生理心理機制,總結眼動追蹤技術為 XR 場景下的人機交互帶來的創新與挑戰。

  • Duchowski, A. T. (2018).Gaze-based interaction: A 30 year retrospective.Computers & Graphics,73, 59-69.
  • Adhanom, I. B., MacNeilage, P., & Folmer, E. (2023).Eye Tracking in virtual reality: A broad review of applications and challenges.Virtual Reality, 1-25.

一、眼動追蹤技術的歷史

回顧過去 30 年,眼動追蹤技術的發展歷史大致可以分成三個階段:

2000 年前,早在 19 世紀開始的人眼注視點研究,主要應用于生理學、心理學及眼科學相關學術研究領域,用于理解人類的眼睛是如何工作的,以及人是如何在有意識和無意識的情況下處理信息的(Javal,1990)。

2000~2020,這一階段隨著 IT 行業等興起,互聯網經濟幾乎等價于“注意力經濟”,也被稱為“眼球經濟”,伴隨著眼動追蹤技術的小型化、輕量化,越來越多地應用于網頁用戶研究、廣告營銷等領域。

2020 后,眼動追蹤技術等應用領域更加廣泛,特別是近眼顯示形態的 XR 設備上開始集成了眼動追蹤技術,最具代表性的有來自微軟的 AR 眼鏡 HoloLens 2 和廣泛應用于科研領域的 HTC VIVE Pro Eye,均發布于 2019 年。

眼動追蹤交互:30年回顧與展望

https://kenpfeuffer.com/eye-hand-symbiosis-what-guide/

關于眼動追蹤的實現技術有很多,包括但不限于:

  1. 眼電圖(EOG)
  2. 鞏膜電磁追蹤線圈
  3. 基于視頻瞳孔監控
  4. 紅外角膜反射

XR 近眼顯示設備基本上采用的都是紅外角膜反射技術,簡單來說就是利用角膜與虹膜對近紅外光線反射的差異,通過近紅外補光燈和近紅外攝像頭捕捉并計算眼動方向(閆國利, 白學軍, 2018)。

眼動追蹤交互:30年回顧與展望

眼鏡式眼動追蹤示意圖

二、眼動的生理特征

人眼球運動主要由六塊肌肉負責控制,這六塊肌肉相互作用,通過收縮和放松實現眼球的上下、左右和判斷角度的調整,從而令視線可以隨意轉動,實現目光的隨意轉換:

  • 上直?。菏寡矍蛳蛏线\動。
  • 下直?。菏寡矍蛳蛳逻\動。
  • 內直肌:使眼球向鼻子方向轉動。
  • 外直?。菏寡矍蛳蚨浞较蜣D動。
  • 上斜?。菏寡矍蛏蟽刃\動。
  • 下斜?。菏寡矍蛳峦庑\動。

眼動追蹤交互:30年回顧與展望

Eye movement

以下圖所示的 XYZ 坐標軸為例,眼球左右旋轉范圍各為 45°~55°;向上為47°~55°,向下為28°~35°,隨年齡的增長旋轉范圍會有所縮減(Lee 等,2019)。

眼動追蹤交互:30年回顧與展望

在人機交互中常用的兩種眼動行為指標:注視(Fixation)和掃視(Saccade),前者是指眼睛停留在固定區域一段時間,通常為200-300毫秒,但注視并非眼睛完全固定不動,在這一過程中可能伴隨輕微的眼動(震顫、漂移和微掃視);后者則是指眼睛在不同注視點之間跳轉的過程,跳轉幅度在1°~45°之間,一般情況下如果跳轉角度超過 30° 通常會伴隨頭部轉動以提高效率。

三、眼動追蹤交互應用的分類

總結過往眼動追蹤在人機交互中的應用,可以分為以下幾種類型:

眼動追蹤交互:30年回顧與展望

1. 主動型

眼動作為一種輸入(Input)方式,主動與界面進行交互,包括選中、確認等操作,例如下面這個使用眼動進行撥號/解鎖的交互。

眼動追蹤交互:30年回顧與展望

Apple Vision Pro 眼手協同也是一種基于眼動追蹤的主動交互方式,具體可以參考上一篇:《蘋果 visionOS 交互的近 10 年研究總結》。

除了這種界面輸入交互之外,眼動輸入也可以用于游戲控制,如 PSVR 2 的游戲中用于武器切換:

眼動追蹤交互:30年回顧與展望

psvr2

由于主動型交互需要通過眼動準確傳達用戶的控制意圖,因此對眼動追蹤的空間準確性和追蹤時延都有較高要求。

2. 被動型

被動型主要是指通過實時跟蹤眼睛注視位置,來優化畫面渲染的技術。比如注視點渲染,只在人眼視覺最敏銳的中央凹(Foveal)區域呈現最高分辨率,隨著遠離中央凹的距離增加視敏度也會急劇下降,相應地只渲染較低分辨率的畫面,從而大大降低頭戴顯示設備的畫面渲染負擔。

眼動追蹤交互:30年回顧與展望

Fovated Rendering

另外一種是基于注視點實現自動變焦功能,包括 Apple Vision Pro 在內,目前所有已知的頭顯的畫面都是固定焦距(通常是 1~1.5m),屏幕光線沒有深度信息,輻輳和調焦的位置發生了分離,從而產生視覺輻輳調節沖突(VAC 問題),引發視覺疲勞、暈眩等問題。而注視點變焦可以根據用戶視線關注的內容動態調整光學焦距,從而實現更加舒適自然的視覺體驗。

眼動追蹤交互:30年回顧與展望

Meta Varifocal Prototype

被動型應用可以解決 XR 顯示方面諸多問題,但是對眼動追蹤的時間分辨率有極高的要求,這里的時間分辨率不只是眼動采樣率,還要加上從追蹤到計算再到渲染整個鏈路的時間。根據人眼對畫面動態變化的感知能力,注視點渲染整體延遲至少要做到 30ms 以內(甚至短)才行。

眼動追蹤交互:30年回顧與展望

3. 表達型 & IV. 診斷型

這兩類就比較簡單了,表達型主要應用于驅動數字人(Avatar),我們常說的恐怖谷效應(Uncanny Valley)其實很大程度上就是因為實體或建模的數字人眼神空洞缺少生氣,通過追蹤用戶真實的眼動行為并映射到虛擬形象上,可以達到更加真實自然的效果,也可以在虛擬形象社交場景中提供更加豐富的情緒反饋。

眼動追蹤交互:30年回顧與展望

Animoji

另外,Apple Vision Pro 的反向透視(Eyesight)功能也是一種基于眼動追蹤的表達型應用,它通過內部攝像頭追蹤用戶實時眼動再重新建模并渲染在外屏上,從而減輕佩戴者與旁邊人之間的隔閡。

眼動追蹤交互:30年回顧與展望

AVP Eyesight

表達型和診斷型應用對眼動追蹤的準確性和實時性遠沒有前兩種交互的要求那么高,甚至可以根據實際應用場景極大簡化對眼動數據的依賴(當然這只是相對而言)。

四、眼動追蹤性能要求

以上所總結的交互場景很多都還處于實驗或原型階段,其主要原因是當前的眼動追蹤技術性能無法滿足人眼需求(特別是對于集成在一體機頭戴顯示設備上的眼動追蹤技術),最后我們來總結一下 XR 場景下對眼動追蹤的性能要求。

我們需要從空間分辨率(Spatial Resolution)時間分辨率(Temporal Resolution)兩個維度拆解不同應用場景對眼動追蹤性能的需求,其中空間分辨率包括準確性(Accuracy)和精確性(Precision);而時間分辨率則包括采樣率(Sampling Rate)和整體延遲(End-to- End Latency)。

眼動追蹤交互:30年回顧與展望

當前一些頭戴顯示設備的眼動追蹤性能指標(未列入的Meta Quest Pro參數可能和HTC Vive Pro Eye接近):

眼動追蹤交互:30年回顧與展望

五、總結

XR 場景中基于眼動追蹤的交互方式,可以提供更加自然、舒適、順暢、沉浸的用戶體驗,但同時也對眼動追蹤技術的準確性和實時性等性能提出更高的要求。Apple Vision Pro 作為一款成熟度相當高的消費級頭戴設備,可能已經把硬件技術和交互設計拉到極致來保障基于眼動的用戶體驗,希望可以由此帶動整個 XR 行業向前邁進!

?? 完整參考文獻點擊原文查看。

https://hackvision.pro/post/gaze-based-interaction-30-years.html

本文由 @V2XR 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!