淺談基于 Phone Use 的 Agent 窘境

0 評(píng)論 1618 瀏覽 1 收藏 16 分鐘

文章犀利拆解了三類技術(shù)路線的優(yōu)劣,對(duì)比了電腦端與手機(jī)端在場(chǎng)景、心態(tài)、風(fēng)險(xiǎn)上的巨大差異,最終追問(wèn):當(dāng) AI 擁有與你同等的操作權(quán)限時(shí),我們?cè)撊绾螢樗岛谩鞍踩珟А保咳绻阋苍谄诖蛸|(zhì)疑“手機(jī) Agent”的到來(lái),這篇反思值得先讀。

如果你有一個(gè)能替你操作手機(jī)的 Agent,你會(huì)用它來(lái)做什么?

  • 替自己回復(fù)微信消息?
  • 下單中午想吃的外賣?
  • 幫忙在多個(gè)電商平臺(tái)之間比價(jià)?
  • 亦或是租房找房、旅行規(guī)劃,這些更加復(fù)雜的分析型任務(wù)?

已經(jīng)在嘗試做 Phone Use 通用 Agent 的團(tuán)隊(duì)不少,有模型公司,也有更具備硬件權(quán)限優(yōu)勢(shì)的手機(jī)廠商。

看起來(lái)好像很酷,感覺(jué)“未來(lái)已來(lái)”。

但在這個(gè)夢(mèng)想照進(jìn)現(xiàn)實(shí)之前,我們或許該先問(wèn)一個(gè)更實(shí)誠(chéng)的問(wèn)題:

——什么情況下,我們會(huì)真的習(xí)慣讓 AI 來(lái)替我們操作“手機(jī)”?

本文僅意在對(duì)該場(chǎng)景下的 Agent 形態(tài)與應(yīng)用方向展開討論,不進(jìn)行任何指代

什么情況下,我們可能需要一個(gè) Agent?

先不局限于 Phone Use,用 Agent 的需求出發(fā)點(diǎn)無(wú)外乎 “我不會(huì)”、“我現(xiàn)在不方便”、“我不想自己做” 三大場(chǎng)景。

我做了一張圖,用來(lái)劃分任務(wù)場(chǎng)景:

但細(xì)分到每個(gè)人,因?yàn)槟芰?、時(shí)間精力的差異,同一項(xiàng)任務(wù)往往也會(huì)有不同的歸類。(注意,圖中是“想讓 Agent 做”,不意味著現(xiàn)在 AI 一定能做好)

舉一些 Phone Use 相關(guān),大家能想到、且需求較為靠譜的 Agent 任務(wù)例子:

1)“我不會(huì)”:

一個(gè)適合 Agent 去“知識(shí)平權(quán)、科技向善”的敘事角度。

  • 幫我們的父母長(zhǎng)輩,在那些層級(jí)復(fù)雜的App、小程序里完成線上掛號(hào)或水電費(fèi)繳納;
  • 或者,我們面對(duì)那些頭一次見(jiàn)的任務(wù),需要AI代做一份新領(lǐng)域的調(diào)研報(bào)告,零代碼經(jīng)驗(yàn)開發(fā)一個(gè)APP,或是代辦不熟悉的便民服務(wù)。
  • 是降低接入各類服務(wù)的門檻,是適老化,是讓更多不可能化為可能。

2)“我現(xiàn)在不方便”:

  • 可能是在開車時(shí),想要手機(jī)檢查微信中未讀的消息;
  • 也可能在廚房中,滿手是油水混合物時(shí),想要再次check小紅書中收藏的某個(gè)菜譜。

一人一雙手,手忙腳亂之時(shí),自然想要外力幫助。

手機(jī)不在手邊,想要遠(yuǎn)程開始播放音樂(lè)?還是算在“我不想自己做”中吧

3)“我不想自己做”:

我有空,也知道該怎么做,但就是因?yàn)椤皯小?、“怕麻煩”,不想自己操作,比如?/p>

  • 薅羊毛:每天在各個(gè)平臺(tái),自動(dòng)簽到、領(lǐng)京豆、金幣、澆水。你讓我自己去定時(shí)給平臺(tái)打工我肯定不樂(lè)意,但AI替我打工,每月能薅幾份免費(fèi)水果,倒也不錯(cuò)。
  • 跨頁(yè)面對(duì)比:在購(gòu)買某件商品之際,在淘寶、京東、拼多多之間橫跳比價(jià);在出游遠(yuǎn)行之前,對(duì)比到底是飛機(jī)or火車,哪個(gè)班次時(shí)間更合適、性價(jià)比最高。
  • 信息整理:按攜程、滴滴打車、微信支付的消費(fèi)記錄自動(dòng)申請(qǐng)發(fā)票,并把郵箱里的發(fā)票無(wú)縫同步到報(bào)銷軟件里(或者只是單純幫自己記錄到記賬軟件中)(懂得都懂,報(bào)銷整理票據(jù)太麻煩了,怎么可以不算工時(shí)呢?)

上述場(chǎng)景的需求都是真實(shí)存在的。

我們當(dāng)然會(huì)希望有個(gè)為我所用的“聰明勞動(dòng)力”,外包那些我“不會(huì)”、“沒(méi)時(shí)間”、“不值得”的任務(wù)。

但 Phone Use Agent 方案,真能比人類自己操作,更勝任這些任務(wù)嗎?

Phone Use 方案的局限與無(wú)奈

在 Agent 賽道一路狂飆的這半年里,按照 Agent 執(zhí)行任務(wù)的“姿勢(shì)”,或者說(shuō)它與軟件互動(dòng)的方式,我們可以不嚴(yán)謹(jǐn)?shù)胤譃槿悾?/p>

1.?FunctionCall類:通過(guò)預(yù)接入的 API,或者 MCP 等接口,與所需的資源與環(huán)境直接交互。比如 Deep Research 類產(chǎn)品、早期扣子空間、昆侖天工。

2.?底層命令類:在一個(gè)有根權(quán)限的行動(dòng)空間內(nèi),直接用底層命令調(diào)度資源、監(jiān)視進(jìn)程。比如 Manus 的 Linux 沙箱。

3.?GUI類:利用多模態(tài)大模型,通過(guò)對(duì)操作界面的視覺(jué)理解 + 模擬人類點(diǎn)擊、輸入,完成交互。

當(dāng)然,現(xiàn)在在電腦、Web 端的 Agent,現(xiàn)在已經(jīng)大多使用了混合方案,模型會(huì)針對(duì)任務(wù)類型,自動(dòng)決策執(zhí)行的方式,以起到效率優(yōu)化、成本控制、意外兜底的綜合目的)

其中 GUI 方案的 Agent,通過(guò)視覺(jué)理解 + 模擬人類操作,繞過(guò)對(duì) API 的需求,實(shí)現(xiàn)對(duì)上個(gè)(互聯(lián)網(wǎng))時(shí)代的軟件交互,更像是一種“兜底”路線。

在 Phone Use 場(chǎng)景中,App 孤島的問(wèn)題早就老生常談,沒(méi)有足夠的系統(tǒng)級(jí)進(jìn)程權(quán)限時(shí),GUI 方案實(shí)是無(wú)法打通 APP 生態(tài)后的妥協(xié):

(此前亦有 OPPO 與階躍合作的新聞,暫不知兩家研發(fā)深度與進(jìn)度如何)

1)效率的局限:

無(wú)論是游戲影視(星際爭(zhēng)霸:“卡拉連接著我們”;修仙小說(shuō):“神識(shí)傳聲”),還是現(xiàn)實(shí)中的前沿探索(腦機(jī)接口),不難發(fā)現(xiàn)在我們的想象中,最高效的信息協(xié)作,是瞬間、海量的直接數(shù)據(jù)交互。

而讓一個(gè) AI 去學(xué)習(xí)、理解、點(diǎn)擊一個(gè)為人類視覺(jué)和觸覺(jué)設(shè)計(jì)的圖形界面,本身就是在強(qiáng)迫數(shù)字生命去適配一個(gè)低效的交互方式。

這個(gè)形式下,信息交換緩慢、數(shù)據(jù)量局限、且極度易錯(cuò):

e.g. 你讓 AI 幫你去挑午餐外賣,請(qǐng)問(wèn)它是下滑到第幾屏才算看的店鋪夠多了?(更別提我們有時(shí)候挑外賣能劃拉幾十屏,還是想不好吃什么)(不過(guò)感覺(jué)用 RL 訓(xùn)練,好像可以避開回答這個(gè)主觀問(wèn)題?)

2)生態(tài)的無(wú)奈:

在移動(dòng)互聯(lián)網(wǎng)時(shí)代,各個(gè) App、小程序 都是一個(gè)個(gè)封閉的數(shù)據(jù)孤島,它們并不對(duì)外開放自己的核心數(shù)據(jù)和功能接口。

連完善如微信、支付寶,也依然難以調(diào)動(dòng)生態(tài)內(nèi)小程序機(jī)構(gòu),主動(dòng)開放可供 Agent 讀寫操作的后端 API。

所以 Agent 不得不“偽裝”成一個(gè)真實(shí)用戶,通過(guò)模擬點(diǎn)擊這種原始方式,去“看到”各個(gè) App 內(nèi)的數(shù)據(jù)與服務(wù)。

Phone Use Agent,反襯著當(dāng)前 AI-Native 時(shí)代的尷尬:

我們有了越來(lái)越接近通用智能的 LLM ,而 AI 還得用與原始人一樣的方式與世界交互:

一只眼睛、一根手指,模擬點(diǎn)點(diǎn)戳戳手機(jī)屏幕,不打直球,困難重重。

為什么云電腦 Agent、Computer Use 還可以?

既然是“權(quán)宜之計(jì)”,為何在電腦側(cè),云電腦 Agent、本地 Computer Use 類產(chǎn)品們,依然也用上了 GUI 策略,且用戶接受度還算不錯(cuò)?

比如:云電腦 Agent:Manus;本地 Computer Use:Claude

除了本身電腦端應(yīng)用更加復(fù)雜,使得 Agent 廠商不得不用 GUI 兜底以外。

個(gè)人的另一個(gè)觀點(diǎn)是:任務(wù)場(chǎng)景、用戶心態(tài)和風(fēng)險(xiǎn)承受度的不同。

云電腦、Computer Use Agent 的場(chǎng)景更多偏向生產(chǎn)力和工作。

在這類場(chǎng)景下:

任務(wù)目標(biāo)通常更明確,對(duì)結(jié)果也更有預(yù)期:比如“幫我把這個(gè)文件夾里的文件批量改成另一個(gè)格式”、“上網(wǎng)調(diào)查 XX 主題,并幫我生成一份可視化網(wǎng)頁(yè)報(bào)告”

用戶對(duì)AI替自己干活的過(guò)程有更強(qiáng)的監(jiān)督意愿,對(duì)著電腦監(jiān)管也更加便利:對(duì)著電腦屏幕監(jiān)工,但凡 Agent 有些不對(duì)勁的行動(dòng),都能隨時(shí)中止任務(wù),給出命令校準(zhǔn)。

任務(wù)類型也有區(qū)別:在電腦任務(wù)中,容錯(cuò)率相對(duì)更高。調(diào)研不算成功,沒(méi)關(guān)系,我可以取其精華;AI Coding 了一堆 Bug,我也可以用 Git 回滾。損失的往往是時(shí)間,但很少直接關(guān)聯(lián)到個(gè)人資金和社交安全。

而 Phone Use 的場(chǎng)景,更多在于個(gè)人生活(點(diǎn)餐、購(gòu)物、社交):

  1. 任務(wù)步驟一般顯著短于電腦上的工作任務(wù):訂外賣、比價(jià),其實(shí)要操作的步驟與信息量,遠(yuǎn)低于DeepResearch。
  2. 任務(wù)過(guò)程充滿不確定性,同種任務(wù)之間也有大量細(xì)微差異:APP的流氓彈窗,登錄、驗(yàn)證與支付提示,商家活動(dòng)變化等。
  3. 而用戶的心態(tài)則更加“犯懶”,希望能夠甩手不管,完成得越快越好:我們?cè)谧孉gent操作電腦時(shí),還能玩手機(jī)摸魚打發(fā)時(shí)間;而讓Agent開始操作手機(jī)后,你會(huì)發(fā)現(xiàn)你的摸魚神器被AI“鎖”住了進(jìn)程,AI用了“我”的手機(jī),那我還能在這碎片時(shí)間干點(diǎn)啥?
  4. 更致命的是,手機(jī)是我們生活的個(gè)人信息與經(jīng)濟(jì)中樞,關(guān)聯(lián)著我們最敏感的社交關(guān)系、個(gè)人隱私和支付信息。

這些差異,反襯的是 Phone Use 通用 Agent 所面臨的窘境:

——手機(jī)用戶對(duì)任務(wù)一次性完成度的期望高,耐心最低,而潛在風(fēng)險(xiǎn)卻最大。

最后,Phone Use Agent 面臨的信任問(wèn)題

當(dāng) AI 能操作用戶最私密的終端設(shè)備,使用社交、網(wǎng)購(gòu)賬號(hào)代發(fā)內(nèi)容、代購(gòu)商品時(shí),亟待解決的是兩個(gè)信任問(wèn)題:

1. 夠聰明(高效)嗎?

若是 Agent 泛化能力不夠、記憶力不足,太挑任務(wù),就會(huì)導(dǎo)致用戶面臨“點(diǎn)一杯咖啡”、“淘寶和京東同商品比價(jià)”等需求時(shí),還得測(cè)試、思考 Agent 的能力邊界。

這在 Deep Research 場(chǎng)景(知識(shí)工作者本來(lái)就要花很多精力做,對(duì)結(jié)果有開放性接受度) ,尚愿意花時(shí)間磨合。

但在日常任務(wù)中,“我現(xiàn)在不方便”、“我想別人替我做”的心態(tài)下,Agent 要是沒(méi)有按用戶預(yù)期操作過(guò)程執(zhí)行(繞彎路)、干到一半罷工、速度卡慢,那還真不如用戶自己手動(dòng)操作來(lái)得利索。

BTW:Siri 淪為局限于“定鬧鐘”、“寫備忘”的語(yǔ)音工具,無(wú)外乎它在“不聰明”這一點(diǎn),從來(lái)沒(méi)讓人失望過(guò)。

2. 夠安全嗎?

好吧,現(xiàn)在還是挺安全的,因?yàn)榇蟛糠秩蝿?wù)執(zhí)行的泛化能力不強(qiáng),往往不能自主完成全鏈路任務(wù)。

為了能讓 Agent 能幫忙做更多的事,我們不得不把自己的驗(yàn)證碼、密碼提供給 AI or 替 AI 登錄。

理論上一個(gè)基于“視覺(jué)理解 + 模擬用戶點(diǎn)擊”的 Agent 能做到任何等同人類用戶權(quán)限的事。

我接受「輔助駕駛」的過(guò)程是這樣的:

先是試了幾次自動(dòng)泊車,才在高架上“隨時(shí)準(zhǔn)備踩剎車”地開啟高速領(lǐng)航,直到現(xiàn)在也不太能接受“城市內(nèi)自動(dòng)駕駛”。

一點(diǎn)點(diǎn)試探,并拒絕在覺(jué)得做的不那么好的場(chǎng)景下打開 AI 功能。車企就好在針對(duì)不同場(chǎng)景,都提供了單獨(dú)的 AI 功能開關(guān),并且全程給你一個(gè)方向盤和剎車兜底。

但基于設(shè)備的通用 Agent 則完全不一樣了。

“用美團(tuán)給自己點(diǎn) 1 杯瑞幸” or “用美團(tuán)給全部門定下午茶”。

很明顯你會(huì)覺(jué)得前者是安全行為,買錯(cuò)了也能接受;而后者則因?yàn)榻痤~較高、責(zé)任較大,你會(huì)擔(dān)心它定錯(cuò)了怎么辦。

然而,通常你賦予 Agent 前者的權(quán)利時(shí)(替它登錄了個(gè)人賬號(hào)),它也已經(jīng)有足夠的權(quán)限可能性完成其他“危險(xiǎn)”任務(wù)。

在個(gè)人設(shè)備中可發(fā)生的 Agent 行為遠(yuǎn)比“輔助駕駛”更加離散。

光是在一個(gè)登錄了賬號(hào)后的“Bilibili”里,AI 就能替你開視頻、點(diǎn)贊、投幣、評(píng)論、關(guān)注/取關(guān)、點(diǎn)廣告(點(diǎn)進(jìn)一個(gè)“相親交友“廣告,就等著被機(jī)構(gòu)電話騷擾兩年??)。

我們不希望 AI 做出任何預(yù)期之外的代理行為,然而現(xiàn)在的通用 Agent 卻非常依賴“嘗試-反饋”的試錯(cuò)循環(huán)。

AI 廠商亟待考慮在當(dāng)下的技術(shù)水平下,落地有大量等同人類操作權(quán)限的 Agent 時(shí),如何安全地限制、審查 Agent 行為,為極端情況兜上底。

……亦或是為 Agent 員工們開發(fā)一份“Agent 延誤&犯錯(cuò)險(xiǎn)”?大概的思考就是這樣,歡迎交流。期待 AI 廠商能迭代出更符合直覺(jué)、貼合用戶需求的方案。

本文由人人都是產(chǎn)品經(jīng)理作者【一澤Eze】,微信公眾號(hào):【一澤Eze】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!