蘋果 VisionOS 交互的近 10 年研究總結
在今年六月初,蘋果發布了MR頭顯Apple Vision Pro,向我們展示了一種相對新穎的交互方式,實現了眼動追蹤和手勢追蹤這兩種交互方式的結合。那么,如何理解這種交互方式及背后的發展?這篇文章里,作者就對近十年的眼手協同交互研究進行了分析總結,一起來看。
一、visionOS 眼手協同交互
Apple Vision Pro 展示了一種「半全新」的交互方式:以眼睛注視點??(Gzae)作為交互方位引導,通過簡單的捏合????(Pinch)、拖動???(Drag)手勢觸發交互指令。
眼動追蹤(Eye-Tracking)和手勢追蹤(Hand-Tracking)在很多其它消費級頭戴顯示設備上都有應用,例如 Hololens 2 、 PSVR 2 和 Meta Quest Pro 等,蘋果的「微創新」在于將兩種交互方式結合起來,并依靠其強大的運算能力實現更高的追蹤精度和更大的識別范圍。
微軟 HoloLens 2 手勢交互
Meta Quest 手勢直接 & 間接交互
在 VR/AR 場景下的人機交互領域,也有大量關于眼動、語音、手勢、觸覺甚至是味覺嗅覺等交互方式的研究,丹麥Aarhus University 的 Ken Pfeuffer從 2014 年開始,持續開展了近十年的眼手協同(Eye-Hand Symbiosis)人機交互研究,從最開始的觸屏平板眼手交互一直到后來 VR/AR 場景下的眼手協同,早在 2017 年開始就開展了一系列關于 Gaze + Pinch 的交互研究。
以下是對其近十年眼手協同交互研究的總結,共包含 10 篇學術論文和 1 篇博士畢業論文。
二、近十年眼手協同交互研究總結
不論是在現實世界中使用紙筆這樣的工具,還是在電腦或手機平板上通過鼠標/觸控屏進行交互,手和眼睛的協調可以完成大多數工作。
為了系統地分類這些交互方式,作者借鑒了人機交互領域中的一個理論和設計方法——工具式交互(Instrumental Interaction)。其核心思想是:交互設計應關注如何助力用戶完成任務,而不僅僅追求改善用戶體驗;設計者首先應了解用戶想完成的任務,然后設計出一系列相互銜接的交互步驟,從而使系統成為用戶有效完成工作的工具。
這一理論從時間和空間維度上的間接性程度(degree of indirection)對不同的交互方式進行分類,這里的間接性程度可以定義為完成某項交互任務在時間或空間上所需的偏移/距離。
- 鼠標與電腦進行交互時,在空間上手和電腦窗口的交互是間接的(需要從真實桌面的 2D 空間轉換到電腦屏幕的垂直 2D 空間),在時間上鼠標交互也是間接的,并不是說鼠標指針存在采樣延遲(主流鼠標的系統性延遲基本在 10ms 量級),而是指通過鼠標完成交互時,在時間上多了一個先把鼠標指針拖動到目標物體上的步驟。
- 手機或平板的觸摸屏交互,就是一種在時間和空間上的直接交互(direct interaction),不存在時間和空間上的中間步驟。
值得注意的是,直接交互并非總是優于間接交互,這取決于任務類型和具體的交互設計。例如有研究發現,在平板上完成簡單的指向任務時,鼠標指針操作比直接觸屏操作效率更高。這也體現在 iPad 的鼠標交互設計上:在有限的屏幕尺寸和圖標大小情況下,配合擴大的不可見交互區域和自動吸附效果,鼠標可以實現比手指更精確的點選操作。
However, our results also indicate that mouse input may be more appropriate for a single user working on tabletop tasks requiring only single-point interaction. (Forlines 等,2020)
回到眼手協同的交互類型上來,作者依據空間、時間上交互的間接性將以下交互方式進行了系統性歸類:
Apple Vision Pro 的眼手交互形式在時間上是直接的,這有別于常見的 VR 手勢射線交互,用戶無需把手移動到目標對象上,可以在任意位置直接點選;但是在空間上用戶的手和目標物體在空間上仍然存在一定偏移。
在直接交互中,目標與手眼是 1:1 的關系,而間接交互中,目標與手眼可能是 N:N 的關系。
作者在 2014 年的研究中探索了基于平板觸摸屏和眼動追蹤的 Gaze + Touch 交互,這種交互設計已經非常接近 Apple Vision Pro 的設計,只是手的追蹤是通過觸屏而非頭顯。
a) 直接操作圖片;b) 注視選擇+任意區域觸屏操作;c)更精細的雙手操作
后續研究中,作者將手寫筆與手勢交互結合,通過手指實現內容縮放,手寫筆進行更精細操作。這也是對于面向生產力場景非常重要的交互問題,首先用戶需要在不同的交互對象之間高頻切換,其次對整個操作空間的縮放、拖動等操作需要與目標對象進行有效區分。
實驗設備演示:d)眼動追蹤
Apple Vision Pro 簡單演示了通過手勢的捏和進行簡單的繪畫操作,看起來并不適合復雜操作。
Apple Vision Pro 繪畫應用演示
作者 2017 年之后的研究開始轉向 VR/AR 領域,仍然關注手眼協同交互。在前期研究中,作者提出了各種不同的交互方案和應用場景(包括菜單選擇、文本輸入、 3D 物體操作等),都是通過 Gaze 完成選中再配合不同的手部動作實現確認操作。
但比較無奈的是,無論基于 HoloLens 還是 HTC Pro Eye + 外置 Leapmotion(手勢追蹤)作為實驗設備,都無法覆蓋足夠的手勢追蹤范圍。為了避免用戶長時間手懸空導致的疲勞,Apple Vision Pro 專門設計了 4 顆朝下的攝像頭用于捕捉用戶手勢。
用戶手自然放在腿上確實可以減少手臂疲勞,但這并不適用于所有場景。比如發布會上演示的虛擬鍵盤輸入,這種無支撐的懸空交互肯定不能滿足長時間輸入的需求,如果仔細看演示的效果圖,有可能手指的識別精度只能支持食指??單指操作。
Apple Vision Pro 演示虛擬鍵盤輸入
作者在 2022 年的研究中,基于 HoloLens 設計并對比了不同眼動追蹤介入的輸入方案,實驗結果顯示,通過視線與手指對齊的方式(瞄準)鍵盤輸入,可以在保證輸入效率的情況下,減少手臂的移動從而降低胳膊疲勞,當然,不可避免的也會引起一定的眼睛疲勞。
三、總結
本文總結了眼手協同一系列人機交互研究成果,Apple Vision Pro 所采用的并非完全創新但卻有可能是在某些 VR/AR 任務場景下兼顧用戶直覺效率和體驗的最佳方案。蘋果眼鏡無疑極大擴展了用戶直觀獲取信息的邊界,讓數字信息不再局限于一塊 2D 的電腦/平板/手機屏幕,從 2D 升維到 3D。
這其實是來到了人類最熟悉、最自然的領域,只是受限于當前光學、顯示、電池等技術的發展,人類無法在把數字世界拉高一個維度的同時提供如同物理世界一樣的交互體驗。
但是,找到現有技術極限和用戶體驗之間最佳的平衡點,正是蘋果一直以來最擅長的。
所以從蘋果的視角看,XR 是什么?
站在科技與人文的十字路口,不是把人類推向虛擬的「元宇宙」,而是把人類的心智連同沉迷其中的數字世界,一同拉回現實。
圖文無關,只是很酷 : )
參考文獻
- https://kenpfeuffer.com/eye-hand-symbiosis-what-guide/
- https://en.wikipedia.org/wiki/Eye_tracking
- Beaudouin-Lafon, M. (2000, April).Instrumental interaction: an interaction model for designing post-WIMP user interfaces.InProceedings of the SIGCHI conference on Human factors in computing systems(pp. 446-453).
- Forlines, C., Wigdor, D., Shen, C., & Balakrishnan, R. (2007, April).Direct-touch vs. mouse input for tabletop displays. InProceedings of the SIGCHI conference on Human factors in computing systems(pp. 647-656).
- Wagner, U., Lystb?k, M. N., Manakhov, P., Gr?nb?k, J. E. S., Pfeuffer, K., & Gellersen, H. (2023, April).A Fitts’ Law Study of Gaze-Hand Alignment for Selection in 3D User Interfaces. InProceedings of the 2023 CHI Conference on Human Factors in Computing Systems(pp. 1-15).
- Lystb?k, M. N., Rosenberg, P., Pfeuffer, K., Gr?nb?k, J. E., & Gellersen, H. (2022).Gaze-hand alignment: Combining eye gaze and mid-air pointing for interacting with menus in augmented reality.Proceedings of the ACM on Human-Computer Interaction,6(ETRA), 1-18.
- Lystb?k, M. N., Pfeuffer, K., Gr?nb?k, J. E. S., & Gellersen, H. (2022).Exploring gaze for assisting freehand selection-based text entry in ar.Proceedings of the ACM on Human-Computer Interaction,6(ETRA), 1-16.
- Pfeuffer, K., Mayer, B., Mardanbegi, D., & Gellersen, H. (2017, October).Gaze+pinch interaction in virtual reality.InProceedings of the 5th symposium on spatial user interaction(pp. 99-108).
- Pfeuffer, K. (2017).Extending touch with eye gaze input. Lancaster University (United Kingdom).
- Pfeuffer, K., Alexander, J., Chong, M. K., Zhang, Y., & Gellersen, H. (2015, November).Gaze-shifting: Direct-indirect input with pen and touch modulated by gaze. InProceedings of the 28th Annual ACM Symposium on User Interface Software & Technology(pp. 373-383).
- Pfeuffer, K., Alexander, J., Chong, M. K., & Gellersen, H. (2014, October).Gaze-touch: combining gaze with multi-touch for interaction on the same surface.InProceedings of the 27th annual ACM symposium on User interface software and technology(pp. 509-518).
本文由 @V2XR 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自蘋果官網。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!