眼動(dòng)追蹤交互:30年回顧與展望

0 評(píng)論 3871 瀏覽 14 收藏 13 分鐘

在這些年來(lái),眼動(dòng)追蹤技術(shù)經(jīng)歷了怎樣的發(fā)展歷史?這篇文章里,作者總結(jié)了眼動(dòng)追蹤技術(shù)的歷史,并對(duì)眼動(dòng)追蹤交互應(yīng)用的分類(lèi)、眼動(dòng)追蹤性能等方面做了總結(jié),一起來(lái)看看吧,或許有助于你了解XR場(chǎng)景下的眼動(dòng)追蹤應(yīng)用。

本文從以下兩篇文獻(xiàn)出發(fā),系統(tǒng)總結(jié)了基于注視的交互(Gaze-based Interaction)30 年來(lái)的進(jìn)展與現(xiàn)狀,并結(jié)合眼動(dòng)與注意的生理心理機(jī)制,總結(jié)眼動(dòng)追蹤技術(shù)為 XR 場(chǎng)景下的人機(jī)交互帶來(lái)的創(chuàng)新與挑戰(zhàn)。

  • Duchowski, A. T. (2018).Gaze-based interaction: A 30 year retrospective.Computers & Graphics,73, 59-69.
  • Adhanom, I. B., MacNeilage, P., & Folmer, E. (2023).Eye Tracking in virtual reality: A broad review of applications and challenges.Virtual Reality, 1-25.

一、眼動(dòng)追蹤技術(shù)的歷史

回顧過(guò)去 30 年,眼動(dòng)追蹤技術(shù)的發(fā)展歷史大致可以分成三個(gè)階段:

2000 年前,早在 19 世紀(jì)開(kāi)始的人眼注視點(diǎn)研究,主要應(yīng)用于生理學(xué)、心理學(xué)及眼科學(xué)相關(guān)學(xué)術(shù)研究領(lǐng)域,用于理解人類(lèi)的眼睛是如何工作的,以及人是如何在有意識(shí)和無(wú)意識(shí)的情況下處理信息的(Javal,1990)。

2000~2020,這一階段隨著 IT 行業(yè)等興起,互聯(lián)網(wǎng)經(jīng)濟(jì)幾乎等價(jià)于“注意力經(jīng)濟(jì)”,也被稱(chēng)為“眼球經(jīng)濟(jì)”,伴隨著眼動(dòng)追蹤技術(shù)的小型化、輕量化,越來(lái)越多地應(yīng)用于網(wǎng)頁(yè)用戶(hù)研究、廣告營(yíng)銷(xiāo)等領(lǐng)域。

2020 后,眼動(dòng)追蹤技術(shù)等應(yīng)用領(lǐng)域更加廣泛,特別是近眼顯示形態(tài)的 XR 設(shè)備上開(kāi)始集成了眼動(dòng)追蹤技術(shù),最具代表性的有來(lái)自微軟的 AR 眼鏡 HoloLens 2 和廣泛應(yīng)用于科研領(lǐng)域的 HTC VIVE Pro Eye,均發(fā)布于 2019 年。

眼動(dòng)追蹤交互:30年回顧與展望

https://kenpfeuffer.com/eye-hand-symbiosis-what-guide/

關(guān)于眼動(dòng)追蹤的實(shí)現(xiàn)技術(shù)有很多,包括但不限于:

  1. 眼電圖(EOG)
  2. 鞏膜電磁追蹤線圈
  3. 基于視頻瞳孔監(jiān)控
  4. 紅外角膜反射

XR 近眼顯示設(shè)備基本上采用的都是紅外角膜反射技術(shù),簡(jiǎn)單來(lái)說(shuō)就是利用角膜與虹膜對(duì)近紅外光線反射的差異,通過(guò)近紅外補(bǔ)光燈和近紅外攝像頭捕捉并計(jì)算眼動(dòng)方向(閆國(guó)利, 白學(xué)軍, 2018)。

眼動(dòng)追蹤交互:30年回顧與展望

眼鏡式眼動(dòng)追蹤示意圖

二、眼動(dòng)的生理特征

人眼球運(yùn)動(dòng)主要由六塊肌肉負(fù)責(zé)控制,這六塊肌肉相互作用,通過(guò)收縮和放松實(shí)現(xiàn)眼球的上下、左右和判斷角度的調(diào)整,從而令視線可以隨意轉(zhuǎn)動(dòng),實(shí)現(xiàn)目光的隨意轉(zhuǎn)換:

  • 上直?。菏寡矍蛳蛏线\(yùn)動(dòng)。
  • 下直?。菏寡矍蛳蛳逻\(yùn)動(dòng)。
  • 內(nèi)直肌:使眼球向鼻子方向轉(zhuǎn)動(dòng)。
  • 外直?。菏寡矍蛳蚨浞较蜣D(zhuǎn)動(dòng)。
  • 上斜?。菏寡矍蛏蟽?nèi)旋運(yùn)動(dòng)。
  • 下斜肌:使眼球下外旋運(yùn)動(dòng)。

眼動(dòng)追蹤交互:30年回顧與展望

Eye movement

以下圖所示的 XYZ 坐標(biāo)軸為例,眼球左右旋轉(zhuǎn)范圍各為 45°~55°;向上為47°~55°,向下為28°~35°,隨年齡的增長(zhǎng)旋轉(zhuǎn)范圍會(huì)有所縮減(Lee 等,2019)。

眼動(dòng)追蹤交互:30年回顧與展望

在人機(jī)交互中常用的兩種眼動(dòng)行為指標(biāo):注視(Fixation)和掃視(Saccade),前者是指眼睛停留在固定區(qū)域一段時(shí)間,通常為200-300毫秒,但注視并非眼睛完全固定不動(dòng),在這一過(guò)程中可能伴隨輕微的眼動(dòng)(震顫、漂移和微掃視);后者則是指眼睛在不同注視點(diǎn)之間跳轉(zhuǎn)的過(guò)程,跳轉(zhuǎn)幅度在1°~45°之間,一般情況下如果跳轉(zhuǎn)角度超過(guò) 30° 通常會(huì)伴隨頭部轉(zhuǎn)動(dòng)以提高效率。

三、眼動(dòng)追蹤交互應(yīng)用的分類(lèi)

總結(jié)過(guò)往眼動(dòng)追蹤在人機(jī)交互中的應(yīng)用,可以分為以下幾種類(lèi)型:

眼動(dòng)追蹤交互:30年回顧與展望

1. 主動(dòng)型

眼動(dòng)作為一種輸入(Input)方式,主動(dòng)與界面進(jìn)行交互,包括選中、確認(rèn)等操作,例如下面這個(gè)使用眼動(dòng)進(jìn)行撥號(hào)/解鎖的交互。

眼動(dòng)追蹤交互:30年回顧與展望

Apple Vision Pro 眼手協(xié)同也是一種基于眼動(dòng)追蹤的主動(dòng)交互方式,具體可以參考上一篇:《蘋(píng)果 visionOS 交互的近 10 年研究總結(jié)》。

除了這種界面輸入交互之外,眼動(dòng)輸入也可以用于游戲控制,如 PSVR 2 的游戲中用于武器切換:

眼動(dòng)追蹤交互:30年回顧與展望

psvr2

由于主動(dòng)型交互需要通過(guò)眼動(dòng)準(zhǔn)確傳達(dá)用戶(hù)的控制意圖,因此對(duì)眼動(dòng)追蹤的空間準(zhǔn)確性和追蹤時(shí)延都有較高要求。

2. 被動(dòng)型

被動(dòng)型主要是指通過(guò)實(shí)時(shí)跟蹤眼睛注視位置,來(lái)優(yōu)化畫(huà)面渲染的技術(shù)。比如注視點(diǎn)渲染,只在人眼視覺(jué)最敏銳的中央凹(Foveal)區(qū)域呈現(xiàn)最高分辨率,隨著遠(yuǎn)離中央凹的距離增加視敏度也會(huì)急劇下降,相應(yīng)地只渲染較低分辨率的畫(huà)面,從而大大降低頭戴顯示設(shè)備的畫(huà)面渲染負(fù)擔(dān)。

眼動(dòng)追蹤交互:30年回顧與展望

Fovated Rendering

另外一種是基于注視點(diǎn)實(shí)現(xiàn)自動(dòng)變焦功能,包括 Apple Vision Pro 在內(nèi),目前所有已知的頭顯的畫(huà)面都是固定焦距(通常是 1~1.5m),屏幕光線沒(méi)有深度信息,輻輳和調(diào)焦的位置發(fā)生了分離,從而產(chǎn)生視覺(jué)輻輳調(diào)節(jié)沖突(VAC 問(wèn)題),引發(fā)視覺(jué)疲勞、暈眩等問(wèn)題。而注視點(diǎn)變焦可以根據(jù)用戶(hù)視線關(guān)注的內(nèi)容動(dòng)態(tài)調(diào)整光學(xué)焦距,從而實(shí)現(xiàn)更加舒適自然的視覺(jué)體驗(yàn)。

眼動(dòng)追蹤交互:30年回顧與展望

Meta Varifocal Prototype

被動(dòng)型應(yīng)用可以解決 XR 顯示方面諸多問(wèn)題,但是對(duì)眼動(dòng)追蹤的時(shí)間分辨率有極高的要求,這里的時(shí)間分辨率不只是眼動(dòng)采樣率,還要加上從追蹤到計(jì)算再到渲染整個(gè)鏈路的時(shí)間。根據(jù)人眼對(duì)畫(huà)面動(dòng)態(tài)變化的感知能力,注視點(diǎn)渲染整體延遲至少要做到 30ms 以?xún)?nèi)(甚至短)才行。

眼動(dòng)追蹤交互:30年回顧與展望

3. 表達(dá)型 & IV. 診斷型

這兩類(lèi)就比較簡(jiǎn)單了,表達(dá)型主要應(yīng)用于驅(qū)動(dòng)數(shù)字人(Avatar),我們常說(shuō)的恐怖谷效應(yīng)(Uncanny Valley)其實(shí)很大程度上就是因?yàn)閷?shí)體或建模的數(shù)字人眼神空洞缺少生氣,通過(guò)追蹤用戶(hù)真實(shí)的眼動(dòng)行為并映射到虛擬形象上,可以達(dá)到更加真實(shí)自然的效果,也可以在虛擬形象社交場(chǎng)景中提供更加豐富的情緒反饋。

眼動(dòng)追蹤交互:30年回顧與展望

Animoji

另外,Apple Vision Pro 的反向透視(Eyesight)功能也是一種基于眼動(dòng)追蹤的表達(dá)型應(yīng)用,它通過(guò)內(nèi)部攝像頭追蹤用戶(hù)實(shí)時(shí)眼動(dòng)再重新建模并渲染在外屏上,從而減輕佩戴者與旁邊人之間的隔閡。

眼動(dòng)追蹤交互:30年回顧與展望

AVP Eyesight

表達(dá)型和診斷型應(yīng)用對(duì)眼動(dòng)追蹤的準(zhǔn)確性和實(shí)時(shí)性遠(yuǎn)沒(méi)有前兩種交互的要求那么高,甚至可以根據(jù)實(shí)際應(yīng)用場(chǎng)景極大簡(jiǎn)化對(duì)眼動(dòng)數(shù)據(jù)的依賴(lài)(當(dāng)然這只是相對(duì)而言)。

四、眼動(dòng)追蹤性能要求

以上所總結(jié)的交互場(chǎng)景很多都還處于實(shí)驗(yàn)或原型階段,其主要原因是當(dāng)前的眼動(dòng)追蹤技術(shù)性能無(wú)法滿(mǎn)足人眼需求(特別是對(duì)于集成在一體機(jī)頭戴顯示設(shè)備上的眼動(dòng)追蹤技術(shù)),最后我們來(lái)總結(jié)一下 XR 場(chǎng)景下對(duì)眼動(dòng)追蹤的性能要求。

我們需要從空間分辨率(Spatial Resolution)時(shí)間分辨率(Temporal Resolution)兩個(gè)維度拆解不同應(yīng)用場(chǎng)景對(duì)眼動(dòng)追蹤性能的需求,其中空間分辨率包括準(zhǔn)確性(Accuracy)和精確性(Precision);而時(shí)間分辨率則包括采樣率(Sampling Rate)和整體延遲(End-to- End Latency)。

眼動(dòng)追蹤交互:30年回顧與展望

當(dāng)前一些頭戴顯示設(shè)備的眼動(dòng)追蹤性能指標(biāo)(未列入的Meta Quest Pro參數(shù)可能和HTC Vive Pro Eye接近):

眼動(dòng)追蹤交互:30年回顧與展望

五、總結(jié)

XR 場(chǎng)景中基于眼動(dòng)追蹤的交互方式,可以提供更加自然、舒適、順暢、沉浸的用戶(hù)體驗(yàn),但同時(shí)也對(duì)眼動(dòng)追蹤技術(shù)的準(zhǔn)確性和實(shí)時(shí)性等性能提出更高的要求。Apple Vision Pro 作為一款成熟度相當(dāng)高的消費(fèi)級(jí)頭戴設(shè)備,可能已經(jīng)把硬件技術(shù)和交互設(shè)計(jì)拉到極致來(lái)保障基于眼動(dòng)的用戶(hù)體驗(yàn),希望可以由此帶動(dòng)整個(gè) XR 行業(yè)向前邁進(jìn)!

?? 完整參考文獻(xiàn)點(diǎn)擊原文查看。

https://hackvision.pro/post/gaze-based-interaction-30-years.html

本文由 @V2XR 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!