從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

0 評(píng)論 2279 瀏覽 3 收藏 20 分鐘

在蘋(píng)果MR頭顯產(chǎn)品Apple Vision Pro出現(xiàn)之后,不少人都對(duì)這款產(chǎn)品進(jìn)行了分析,在本篇文章里,作者就嘗試分析拆解了Vision Pro的眼動(dòng)追蹤技術(shù)的應(yīng)用與交互設(shè)計(jì),一起來(lái)看看吧,或許可以幫助你了解更多XR相關(guān)的交互方式。

Vision Pro發(fā)布后,有人評(píng)價(jià)這款產(chǎn)品是現(xiàn)有VR/AR、顯示、光學(xué)、人機(jī)交互技術(shù)的集大成者。雖然里面罕見(jiàn)新技術(shù)以及新場(chǎng)景,但它把原有的XR體驗(yàn)提升至了一個(gè)新的高度。

以交互為例,以往手柄是頭顯的標(biāo)配,有部分廠商還進(jìn)行了手勢(shì)識(shí)別的探索,而Vision Pro帶來(lái)的解決方案是“眼動(dòng)追蹤+手勢(shì)+語(yǔ)音”。蘋(píng)果把常見(jiàn)的眼動(dòng)追蹤技術(shù)融入進(jìn)了核心交互中,并為我們呈現(xiàn)了最為自然的體驗(yàn)。

一、以眼動(dòng)追蹤為核心,蘋(píng)果定義標(biāo)桿級(jí)XR交互方式

眼動(dòng)追蹤指的是測(cè)量注視點(diǎn)或眼睛相對(duì)頭部的運(yùn)動(dòng)過(guò)程,它并非前沿技術(shù),其最早的研究甚至可以追溯到19世紀(jì)。

目前眼動(dòng)追蹤技術(shù)包含了眼電圖EOG法、鞏膜搜索線圈法、眼睛影響捕獲、通過(guò)視網(wǎng)膜影像變化、圖像計(jì)算進(jìn)行注視點(diǎn)追蹤、視網(wǎng)膜角膜反射法等技術(shù)路線,陀螺君了解到,瞳孔角膜反射法是目前的主流,也是一眾具有量產(chǎn)性的方案中最為可靠的一種。

此前VR陀螺文章《新一代XR頭顯標(biāo)配,詳解眼動(dòng)追蹤技術(shù)的價(jià)值和挑戰(zhàn)》對(duì)瞳孔角膜反射法已有相關(guān)介紹,簡(jiǎn)單來(lái)說(shuō),該方案由眼動(dòng)攝像機(jī)、光源和算法共同完成。光源發(fā)射紅外光在眼角膜反射形成閃爍點(diǎn),眼動(dòng)攝像機(jī)捕捉眼睛的高分辨率圖像,再經(jīng)由算法解析,實(shí)時(shí)定位閃爍點(diǎn)與瞳孔的位置,最后借助模型估算出用戶的視線方向和落點(diǎn)。

眼動(dòng)追蹤技術(shù)多應(yīng)用于醫(yī)療健康、廣告、社科等領(lǐng)域,近年來(lái),伴隨著VR/AR的發(fā)展,它在里面開(kāi)始發(fā)揮越來(lái)越重要的作用。如2015年,F(xiàn)OVE 0頭顯在Kickstarter展開(kāi)眾籌,其核心賣點(diǎn)便是配備了眼動(dòng)追蹤技術(shù)。FOVE指出,其眼動(dòng)追蹤技術(shù)可用于控制游戲角色移動(dòng)、注視點(diǎn)渲染、醫(yī)療健康等。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

FOVE 0,圖源:網(wǎng)絡(luò)

近年發(fā)布的PICO 4 Pro、Quest Pro、PS VR2等產(chǎn)品同樣配備了眼動(dòng)追蹤技術(shù)。以Quest Pro為例,在眼動(dòng)追蹤的加持下,Avatar可獲得更為豐富的眼神細(xì)節(jié)信息,此外,結(jié)合注視點(diǎn)渲染(ETFR)技術(shù),最高可節(jié)約近52%的GPU性能。而PICO 4 Pro則把眼動(dòng)追蹤與自動(dòng)瞳距調(diào)節(jié)功能結(jié)合在了一起。有關(guān)眼動(dòng)追蹤的更多應(yīng)用場(chǎng)景,可查看VR陀螺過(guò)往文章《【盤(pán)點(diǎn)】眼動(dòng)追蹤在XR中的八大應(yīng)用,注視點(diǎn)渲染僅是“前菜”》

除前面提到的這些功能外,基于眼動(dòng)追蹤的交互也是頗具潛力的應(yīng)用場(chǎng)景之一。此前Meta Reality Labs的一份關(guān)于“手柄、頭動(dòng)以及眼動(dòng)交互”的一份研究指出,以90Hz運(yùn)行的平均精度誤差低于1°的眼動(dòng)追蹤系統(tǒng)(在無(wú)光標(biāo)或其他反饋的條件下),它在易用性、采用率和疲勞度相較于頭部輸入(Head input )分別提高了66.4%、89.8%和116.1%,而相較于手柄輸入則分別降低了4.2%、8.9% 和 116.1%,不過(guò)它的失誤率是三者當(dāng)中最高的。論文總結(jié)道,隨著交互設(shè)計(jì)的改進(jìn),眼動(dòng)追蹤對(duì)于下一代AR/VR設(shè)備而言具有巨大的潛力。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

實(shí)驗(yàn)中出現(xiàn)的三種交互方式,圖源:Meta

微軟于2019年發(fā)布的HoloLens 2同樣支持眼動(dòng)追蹤功能,其產(chǎn)品開(kāi)發(fā)者文檔中提到了眼動(dòng)追蹤交互的幾大優(yōu)勢(shì):

  • 使用起來(lái)毫不費(fèi)力,幾乎沒(méi)有其他多余的身體動(dòng)作參與進(jìn)來(lái);
  • 交互具有私密性;
  • 眼部肌肉是人體反應(yīng)速度最快的肌肉,可以實(shí)現(xiàn)快速指向。簡(jiǎn)單做個(gè)類比,人眼單次掃視的時(shí)間為20-40毫秒,而使用鼠標(biāo)在玩槍?xiě)?zhàn)游戲時(shí)的反應(yīng)時(shí)間約為250毫秒。
  • 可以分析用戶正在關(guān)注的對(duì)象,從而開(kāi)發(fā)出更為智能的用戶界面。

陀螺君了解到,近年來(lái)XR眼動(dòng)追蹤模組的價(jià)格已經(jīng)進(jìn)入了一個(gè)快速下探期。早期眼動(dòng)追蹤在XR產(chǎn)品中滲透率低,整體價(jià)格比較高,如2019年亮相的Pico G2 4K眼球追蹤一體機(jī),眼動(dòng)追蹤上機(jī)成本約兩千元。如今眼動(dòng)追蹤模組的BOM+License成本已經(jīng)下探到了兩百多。

一方面是Vision Pro的激勵(lì)作用,另一方面是價(jià)格的下探,相信我們很快就能看到更多配備眼動(dòng)追蹤技術(shù)的XR新品推出。

二、高規(guī)格硬件+算法積累,Vision Pro帶來(lái)高精度眼動(dòng)體驗(yàn)

在Vision Pro發(fā)布前,其預(yù)測(cè)消息已經(jīng)滿天飛。以交互為例,有人認(rèn)為是肌電手環(huán)+手勢(shì),也有人認(rèn)為是Siri+手勢(shì)等。而Vision Pro特別引入了眼動(dòng)追蹤,會(huì)后在很多人看來(lái)這有一種意料之內(nèi)而又大吃一驚的感覺(jué)。

一方面,用眼動(dòng)做交互并不復(fù)雜,一位XR從業(yè)者告訴陀螺君,早些年他曾經(jīng)做過(guò)一個(gè)類似的解決方案,即通過(guò)眼動(dòng)進(jìn)行選擇,然后用頭動(dòng)(Head Tracking)進(jìn)行數(shù)據(jù)修正再用按鍵點(diǎn)擊確認(rèn),他把這種交互稱之為多階交互法。

就在Vision Pro發(fā)布不久后,一個(gè)名為ThrillSeeker的YouTuber只花費(fèi)了兩天時(shí)間,便在Quest Pro的基礎(chǔ)之上復(fù)刻了一套“手勢(shì)+眼動(dòng)”的交互演示demo。他指出,雖然Quest Pro的眼動(dòng)追蹤硬件精度稍差,但運(yùn)行起來(lái)一切正常。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

圖源:Youtube

而另外一方面,讓很多人“大吃一驚”的地方在于,Vision Pro完全舍棄了如今最為成熟的手柄方案,并激進(jìn)地選擇了尚未成熟的眼動(dòng)追蹤作為交互的核心。

以Quest Pro為例,在很多用戶看來(lái),它的眼動(dòng)追蹤只是一個(gè)“感知不強(qiáng)、徒增功耗”的小功能,并且Meta對(duì)它也不受待見(jiàn)。它在系統(tǒng)中處于默認(rèn)關(guān)閉的狀態(tài),用戶需要在設(shè)置欄中自行啟用。此外,它的應(yīng)用場(chǎng)景嚴(yán)重缺失,能讓用戶明顯感知的唯二功能不過(guò)是Avatar照鏡子以及眼動(dòng)錄入與校準(zhǔn)的小動(dòng)畫(huà)。

第三方應(yīng)用程序方面,雖說(shuō)也有主打眼動(dòng)追蹤的應(yīng)用,但它們以實(shí)驗(yàn)探索性的demo居多。如SideQuest有一款眼動(dòng)追蹤打字demo《Eye Tracking Keyboard》,陀螺君體驗(yàn)發(fā)現(xiàn),它在操作上比較科幻,但是經(jīng)常會(huì)出現(xiàn)視線抖動(dòng)以及對(duì)不準(zhǔn)的情況,暫未清楚是硬件問(wèn)題還是軟件問(wèn)題。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

圖源:VR陀螺

相反,Vision Pro的上手體驗(yàn)媒體均對(duì)它的眼動(dòng)追蹤交互給予了很高的評(píng)價(jià):用戶的眼睛就像是PC端的鼠標(biāo),眼睛注視圖標(biāo)然后雙指捏合,即可打開(kāi)新的應(yīng)用;眼睛在菜單欄停留一段時(shí)間會(huì)自動(dòng)彈出二級(jí)菜單…….很多人表示這簡(jiǎn)直就是魔法。

從這些評(píng)價(jià)中不難發(fā)現(xiàn),Vision Pro的眼動(dòng)追蹤交互技術(shù)已經(jīng)具有極高可用性以及易用性,而這是Vision Pro在硬件、算法、UI三方面同時(shí)發(fā)力的結(jié)果。

眼動(dòng)儀器常見(jiàn)的指標(biāo)主要有兩種,分別是準(zhǔn)確度(Accuracy)和精確度(Precision),前者反映的是凝視位置與真實(shí)凝視位置之間的差異,后者則反映的是持續(xù)記錄同一個(gè)注視點(diǎn)時(shí)的離散程度。這些數(shù)據(jù)能直觀反映眼神標(biāo)定究竟“準(zhǔn)不準(zhǔn)”。

前面提到的FOVE 0,其官方宣稱眼動(dòng)追蹤準(zhǔn)確度可以達(dá)到1°、HoloLens 2的準(zhǔn)確度在1.5°左右,市面上某款在售XR眼動(dòng)追蹤模組宣稱其準(zhǔn)確度可以做到<0.5°。陀螺君測(cè)算,在正常使用電腦的情況下,大圖標(biāo)的肉眼視角約為1.5°,單一文字的視角約為0.38°(僅供參考,不一定準(zhǔn)確)。

目前Vision Pro并未公布其眼動(dòng)追蹤模組的具體規(guī)格,不過(guò)據(jù)部分Vision Pro體驗(yàn)用戶反饋稱,Vision Pro的眼動(dòng)交互可以實(shí)現(xiàn)文本選擇復(fù)制粘貼等操作,從這方面來(lái)看它的準(zhǔn)確度應(yīng)該妥妥屬于XR第一梯隊(duì)。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

圖源:微軟

此外,Vision Pro的眼動(dòng)追蹤硬件也十分豪華,它左右眼分別配備了兩顆紅外攝像頭,相比之下Quest Pro以及PS VR2等產(chǎn)品僅配備了左右眼各一顆攝像頭。兩顆攝像頭加入,在保障追蹤精度的同時(shí),還能用于測(cè)算雙眼瞳深,進(jìn)而完善預(yù)畸變算法以實(shí)現(xiàn)更好的畫(huà)面顯示效果。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

圖源:蘋(píng)果

微軟HoloLens 2軟件開(kāi)發(fā)指南中曾提到,人眼視線的運(yùn)動(dòng)是不規(guī)則且跳躍的,并且速度很快??赡茉谟脩敉瓿牲c(diǎn)擊動(dòng)作之前,視線早已經(jīng)飄走,因此將快速眼睛凝視信號(hào)與慢速的控制輸入結(jié)合起來(lái)需要格外小心。

在算法方面,蘋(píng)果已經(jīng)有很多年的技術(shù)儲(chǔ)備。早在2017年,蘋(píng)果收購(gòu)德國(guó)眼動(dòng)追蹤技術(shù)開(kāi)發(fā)商SensoMotoric Instruments(SMI),這是一家專注于該細(xì)分領(lǐng)域的頭部企業(yè),已有30余年的發(fā)展歷史。2017年,蘋(píng)果首次將眼動(dòng)追蹤功能應(yīng)用于其Face ID中,以提升解鎖的安全性。而近些年來(lái),蘋(píng)果陸續(xù)有眼動(dòng)追蹤相關(guān)專利申請(qǐng)流出,這為Vision Pro的交互奠定了良好的基礎(chǔ)。

蘋(píng)果前員工Sterling Crispin爆料稱,蘋(píng)果圍繞Vision Pro有一個(gè)專門研究神經(jīng)技術(shù)的開(kāi)發(fā)小組,而他所做的工作之一是通過(guò)AI預(yù)判用戶的操作行為。他提到,“你的瞳孔會(huì)在你點(diǎn)擊某物之前作出反應(yīng),部分原因在于用戶對(duì)接下來(lái)發(fā)生的事有所期望。因此,可以通過(guò)觀察用戶的眼睛行為并配合實(shí)時(shí)反饋的UI來(lái)增強(qiáng)用戶大腦的預(yù)測(cè)性瞳孔反應(yīng),從而創(chuàng)建生物反饋?!?/p>

AI算法的加入,也是Vision Pro的眼動(dòng)交互備受好評(píng)的重要原因之一。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

圖源:蘋(píng)果

三、降低手勢(shì)門檻,提升UI審美,“隱性”層面提升交互幸福感

除硬件以及算法外,人機(jī)交互設(shè)計(jì)也是蘋(píng)果的一貫強(qiáng)項(xiàng)。業(yè)內(nèi)人士告訴陀螺君,“基于蘋(píng)果這套眼動(dòng)追蹤硬件,開(kāi)發(fā)者其實(shí)也能實(shí)現(xiàn)高精度的眼球操作,里面的算法其實(shí)并不難,真正難的是蘋(píng)果所開(kāi)發(fā)的這一整套交互邏輯?!?/p>

前面提到,Vision Pro配備的是以“眼動(dòng)+手勢(shì)+語(yǔ)音”的多模態(tài)交互解決方案,這也是從產(chǎn)品底層出發(fā)推導(dǎo)的結(jié)果。

目前市面上已有不少基于眼動(dòng)追蹤的單一交互解決方案,如掃視選擇凝視確認(rèn)(如上面的鍵盤(pán)demo)、眨眼確認(rèn)、雙重凝視(快速掃視兩次進(jìn)行確認(rèn))等,不過(guò)這些方案總體而言都不符合自然的使用直覺(jué),所以Vision Pro在此基礎(chǔ)上補(bǔ)充了手勢(shì)。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

雙重凝視,圖源:ISMAR

而對(duì)于手勢(shì)而言,Vision Pro也進(jìn)行了一系列優(yōu)化。此前Quest 2、HoloLens等產(chǎn)品飽受詬病的地方在于其視覺(jué)盲區(qū)很大,使得用戶使用裸手交互時(shí)需要把手抬起來(lái),使用過(guò)程中非常容易疲勞。而Vision Pro則配備了四顆用于手勢(shì)識(shí)別的攝像頭,可以檢測(cè)腰部以下的手勢(shì),用戶甚至可以把手放在膝蓋上進(jìn)行操作。也就是說(shuō),在這種情況下,蘋(píng)果保證了“眼動(dòng)+手勢(shì)”不會(huì)成為其體驗(yàn)的減分項(xiàng)。

在之前,UI設(shè)計(jì)并非頭顯“剛性”的需求,因?yàn)樗⒉挥绊懝δ艿膶?shí)現(xiàn),不過(guò),蘋(píng)果在這方面也花費(fèi)了很大的功夫,以保證體驗(yàn)的飽滿。WWDC 2023期間,蘋(píng)果圍繞Vision Pro的軟件開(kāi)發(fā)帶來(lái)了一系列主題分享,其中《空間輸入設(shè)計(jì)》中介紹了有助于提升眼動(dòng)追蹤體驗(yàn)的設(shè)計(jì)規(guī)范:

  • 人眼會(huì)自然引導(dǎo)我們注意物體中間的形狀,基于此,可以使用圓形、圓角矩形、藥丸等形狀;
  • 避免使用帶有鋒利邊緣的形狀,因?yàn)楹笳邥?huì)引導(dǎo)眼睛聚焦在外面;
  • 保持形狀平坦,粗糙輪廓會(huì)讓我們引起對(duì)邊緣的注意;
  • 使用大量填充使文本和字形保持居中;
  • 實(shí)現(xiàn)眼睛交互的元素最低保持60pt × 60pt;
  • 不同交互目標(biāo)之間應(yīng)該保持一定間距。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

來(lái)源:蘋(píng)果

為了讓眼動(dòng)追蹤交互能夠正常響應(yīng),視覺(jué)的反饋是必須的。蘋(píng)果在這方面同樣提供了底層級(jí)的支持。比如用戶視線掃過(guò)某個(gè)APP圖標(biāo)時(shí),它會(huì)出現(xiàn)相應(yīng)的3D效果,當(dāng)用戶查看菜單欄時(shí),也會(huì)有相應(yīng)的光流效果出現(xiàn)。

陀螺君了解到,在軟件開(kāi)發(fā)時(shí),開(kāi)發(fā)者只需要設(shè)計(jì)圖標(biāo),并考慮好內(nèi)容之間的分層結(jié)構(gòu)關(guān)系,而光影、眼神反饋等效果則交由visionOS系統(tǒng)后臺(tái)實(shí)時(shí)處理。這既降低了開(kāi)發(fā)門檻,同時(shí)也保障了不同軟件之間的體驗(yàn)一致性。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

視線掃過(guò)時(shí)的細(xì)膩動(dòng)畫(huà)效果,圖源:蘋(píng)果

最后再來(lái)談一談Vision Pro眼動(dòng)追蹤所帶來(lái)的隱私問(wèn)題,這也是產(chǎn)品發(fā)布會(huì)上所強(qiáng)調(diào)的重點(diǎn)之一。

眼動(dòng)是一項(xiàng)非常隱私的數(shù)據(jù),研究表明,一個(gè)人的目光數(shù)據(jù)可能暗含用戶的性別、年齡、種族、體重、性格特征、情緒狀態(tài)、技能等各種敏感信息。

實(shí)際上,廣告心理學(xué)上也有一項(xiàng)名為視向心理測(cè)量的研究,即通過(guò)使用眼動(dòng)儀來(lái)分析消費(fèi)者注視廣告的時(shí)間、焦點(diǎn)、眼跳等來(lái)洞察其心理偏好。如果這些數(shù)據(jù)不加以保護(hù),未來(lái)可能會(huì)出現(xiàn)更多更為準(zhǔn)確的“猜你喜歡”廣告推送服務(wù)。(這也是Quest Pro發(fā)布時(shí)備受吐槽的一點(diǎn))

Mike Rockwell透露,Vision Pro的解決方案是把眼動(dòng)數(shù)據(jù)進(jìn)行隔離并在后臺(tái)進(jìn)行單獨(dú)處理,蘋(píng)果稱只有當(dāng)用戶進(jìn)行雙指捏合操作時(shí)才會(huì)釋放結(jié)果,這樣就很好規(guī)避了APP和網(wǎng)站獲取隱私問(wèn)題。

從Vision Pro一窺眼動(dòng)追蹤交互的巨大潛力

結(jié)語(yǔ)

單從Vision Pro的眼動(dòng)追蹤的應(yīng)用這一項(xiàng)便不難發(fā)現(xiàn),這是一款細(xì)節(jié)滿滿的產(chǎn)品。以“眼動(dòng)+手勢(shì)+語(yǔ)音”確立產(chǎn)品核心交互范式,通過(guò)硬件以及算法讓眼動(dòng)追蹤交互提升至體驗(yàn)的及格線,再?gòu)娜藱C(jī)交互、UI設(shè)計(jì)、隱私保護(hù)等方面切入使得它的體驗(yàn)達(dá)到了優(yōu)秀水平。

毫無(wú)疑問(wèn)Vision Pro會(huì)成為XR市場(chǎng)的新標(biāo)桿,而它的這套交互設(shè)計(jì)或許也會(huì)成為各大廠商在未來(lái)競(jìng)相學(xué)習(xí)以及追趕的對(duì)象。

參考資料

https://learn.microsoft.com/zh-cn/windows/mixed-reality/design/eye-gaze-interaction

https://developer.apple.com/videos/play/wwdc2023/10073/?time=271

https://www.yankodesign.com/2023/06/12/apple-vision-pro-for-999-an-engineer-built-the-vision-pros-eye-hand-tracking-interface-for-the-meta-quest-pro/

作者:VR陀螺 萬(wàn)里

來(lái)源公眾號(hào):VR陀螺(ID:vrtuoluo),XR行業(yè)垂直媒體,關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺(tái)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!