一文弄懂如何通過(guò)AI Agent點(diǎn)外賣(mài)
在數(shù)字化時(shí)代,人工智能技術(shù)不斷拓展其應(yīng)用場(chǎng)景,為我們的生活帶來(lái)諸多便利。本文將帶你深入了解如何通過(guò)AI Agent(智能體)實(shí)現(xiàn)點(diǎn)外賣(mài)這一操作。作者以“AutoGLM”這款智能體App為例,詳細(xì)分享了其操作過(guò)程。
這篇文章,我們通過(guò)一款A(yù)I Agent(智能體)實(shí)現(xiàn)點(diǎn)外賣(mài),分享其操作的全過(guò)程,并分析背后的技術(shù)原理和實(shí)現(xiàn)邏輯。
一、使用Agent點(diǎn)外賣(mài)
我在“AutoGLM”這款智能體App上,輸入“在京東點(diǎn)一份湘菜外賣(mài),要求店鋪評(píng)價(jià)高,明天中午12點(diǎn)送到”后,能實(shí)現(xiàn)自動(dòng)點(diǎn)外賣(mài)的操作。
整個(gè)下單的過(guò)程,我只操作了兩步,一是“結(jié)算”環(huán)節(jié),需要我點(diǎn)擊“繼續(xù)任務(wù)”進(jìn)行確認(rèn);二是“支付”環(huán)節(jié),需要我接管手機(jī),進(jìn)行支付。
完成支付后,就能在我手機(jī)的京東App看到一個(gè)外賣(mài)訂單。
接下來(lái),我會(huì)對(duì)這款A(yù)I Agent點(diǎn)外賣(mài)的操作步驟進(jìn)行拆解,并分析背后的技術(shù)原理和實(shí)現(xiàn)邏輯。
在分析AI Agent的技術(shù)原理之前,我們先從一個(gè)普通用戶(hù)的視角,看它是如何一步步實(shí)現(xiàn)點(diǎn)外賣(mài)這個(gè)任務(wù)的。
首先,我在Agent智能體上輸入指令,讓其在京東點(diǎn)一份外賣(mài),要求是湘菜,并且第二天中午12點(diǎn)送到。
然后,Agent智能體就會(huì)對(duì)目標(biāo)進(jìn)行拆解,生成任務(wù)規(guī)劃清單,包括多個(gè)可執(zhí)行的子任務(wù),然后開(kāi)始執(zhí)行這些子任務(wù)。
它會(huì)先找到并打開(kāi)京東App,并切換到“秒送外賣(mài)”頁(yè)面,然后在輸入框輸入“湘菜”,進(jìn)行搜索。
在搜索出來(lái)的外賣(mài)商家中,點(diǎn)擊“綜合排序”,選擇“銷(xiāo)量?jī)?yōu)先”,并選擇品質(zhì)“四星以上”。在搜索結(jié)果中選擇排名第一的店鋪,點(diǎn)擊進(jìn)入后,把店鋪的第一個(gè)商品加到購(gòu)物車(chē)。
加入購(gòu)物車(chē)后,接下來(lái)需要去結(jié)算,這是一個(gè)比較重要的操作,此時(shí)Agent暫停了任務(wù),等待我的確認(rèn),于是我點(diǎn)擊“繼續(xù)任務(wù)”確認(rèn)后,進(jìn)入支付頁(yè)面,支付環(huán)節(jié)Agent再次暫停了,等待我接管手機(jī),完成支付。
支付完成后,打開(kāi)我手機(jī)中的京東App,訂單列表中,有一個(gè)完成支付的外賣(mài)訂單,顯示商家已接單。
至此,讓AI Agent點(diǎn)外賣(mài)的動(dòng)作執(zhí)行完成,整個(gè)過(guò)程,我只操作了2步,一是點(diǎn)擊確認(rèn)“去結(jié)算”,二是接管手機(jī),完成支付。
二、Agent技術(shù)原理與實(shí)現(xiàn)邏輯
大家可能會(huì)有很多問(wèn)題,AutoGLM這款A(yù)I Agent(智能體)是如何操作京東App,并完成下單動(dòng)作的,它是不是操作了你的手機(jī),是否存在隱私和安全等問(wèn)題?背后的技術(shù)原理和實(shí)現(xiàn)邏輯是什么?
實(shí)際上,在這款智能體App上看到它點(diǎn)外賣(mài)的行為,并不是在我手機(jī)上操作京東App,它操作的是一個(gè)運(yùn)行在遠(yuǎn)程服務(wù)器上的虛擬“云手機(jī)”,然后將這個(gè)虛擬“云手機(jī)”的操作屏幕,實(shí)時(shí)同步到我手機(jī)的AutoGLM客戶(hù)端上進(jìn)行展示。
AutoGLM會(huì)為每一位用戶(hù)配備一臺(tái)運(yùn)行在遠(yuǎn)程服務(wù)器上的虛擬“云手機(jī)”,這款虛擬“云手機(jī)”已提前安裝好了京東、美團(tuán)、餓了么、高德等40多款常用App。
實(shí)際上,在AutoGLM首次打開(kāi)京東App時(shí),需要你在這臺(tái)“云手機(jī)”登錄你的京東賬號(hào)。然后這款A(yù)I Agent根據(jù)你的指令,操作這臺(tái)“云手機(jī)”完成點(diǎn)外賣(mài)任務(wù)。
簡(jiǎn)單地說(shuō),相當(dāng)于你的朋友在外地,登錄到你的京東App賬號(hào)給你點(diǎn)了外賣(mài),你在自己手機(jī)的京東App上也能看到這個(gè)訂單。
也就是說(shuō),即使你手機(jī)沒(méi)有安裝京東App,AutoGLM依然能完成下單動(dòng)作,因?yàn)樗皇鞘褂昧四愕馁~號(hào),并沒(méi)有操作你本地的京東App。
當(dāng)然,如果你讓AutoGLM在當(dāng)當(dāng)上給你買(mǎi)一本書(shū),它會(huì)提示無(wú)法完成這個(gè)任務(wù),建議你換成京東或淘寶試一下。
原因就是,AutoGLM在虛擬的“云手機(jī)”中,沒(méi)有安裝當(dāng)當(dāng)?shù)腁pp,就算你本地手機(jī)安裝了當(dāng)當(dāng),它依然無(wú)法使用當(dāng)當(dāng)App給你買(mǎi)書(shū)。
因?yàn)锳utoGLM的操作都在云端完成,不會(huì)占用你手機(jī)的空間或存儲(chǔ)。你可以在它幫你點(diǎn)外賣(mài)的同時(shí),用手機(jī)看新聞、刷視頻或做任何其他事情,兩者之間互不影響。
AI Agent操作App完成點(diǎn)外賣(mài),本質(zhì)是借助多模態(tài)大語(yǔ)言模型來(lái)理解任務(wù)、規(guī)劃步驟并做出決策,并利用計(jì)算機(jī)視覺(jué)和輔助功能服務(wù)來(lái)感知手機(jī)屏幕,再通過(guò)指令模擬用戶(hù)操作App,完成下單。
AI Agent工作的邏輯,是完全模擬真實(shí)人類(lèi)用戶(hù)的操作行為,并不是通過(guò)破解API或修改App代碼去完成任務(wù)。
而這背后,主要涉及哪些技術(shù)原理和實(shí)現(xiàn)邏輯?我們一塊來(lái)看一看。
1、像人一樣思考
大模型相當(dāng)于人類(lèi)的“大腦”,負(fù)責(zé)理解并分析輸入的自然語(yǔ)言指令,比如輸入指令“在京東點(diǎn)一份湘菜外賣(mài),要求店鋪評(píng)價(jià)高,明天中午12點(diǎn)送到”。大模型將需要多步操作才能完成的復(fù)雜任務(wù),分解成一系列可操作執(zhí)行的子任務(wù)。
對(duì)于上述點(diǎn)外賣(mài)任務(wù),大模型大致會(huì)拆解為以下步驟:找到并打開(kāi)京東App,搜索湘菜,并選擇銷(xiāo)量高、星級(jí)高的餐廳,然后加入購(gòu)物車(chē),進(jìn)行結(jié)算、支付,并且確定哪些重要步驟需要用戶(hù)確認(rèn)或介入操作。
2、像人一樣看懂App頁(yè)面
只有大模型這個(gè)“大腦”還不行,還需要像人類(lèi)一樣,有“眼睛”,能識(shí)別出App頁(yè)面的基本信息,知道哪些是按鈕、輸入框、列表等。
這里的核心是計(jì)算機(jī)視覺(jué)技術(shù)。
計(jì)算機(jī)視覺(jué)技術(shù),能對(duì)屏幕截圖進(jìn)行圖像分析,識(shí)別UI元素(按鈕、輸入框、列表、圖標(biāo)等)的位置。AI能像人一樣識(shí)別和理解應(yīng)用程序界面上的各種元素。它通過(guò)“視覺(jué)理解”能力解析屏幕上的信息,為下一步點(diǎn)擊、輸入和滑動(dòng)等操作提供支持。
3、像人一樣操作App
有了大模型作為“大腦”,進(jìn)行決策;也有了計(jì)算機(jī)視覺(jué)作為“眼睛”,能夠看懂App頁(yè)面。最后一步,就是按照決策指令,找到App頁(yè)面,像人的“手”一樣進(jìn)行點(diǎn)擊、輸入、滑動(dòng)等操作。
Android和iOS系統(tǒng)都提供了輔助功能服務(wù),可直接獲取當(dāng)前屏幕的UI層級(jí)信息,就像開(kāi)發(fā)者調(diào)試工具一樣。這樣AI Agent就能直接調(diào)用這些屏幕UI控件,按照前面拆解的步驟,對(duì)App頁(yè)面進(jìn)行操作,完成點(diǎn)外賣(mài)任務(wù)。
更具體地說(shuō),AI Agent能夠模擬人操作手機(jī)一樣,通過(guò)指令,給手機(jī)App發(fā)出操作請(qǐng)求。
比如在京東App,識(shí)別“秒送外賣(mài)”按鈕在屏幕上的坐標(biāo),然后發(fā)送一個(gè)點(diǎn)擊觸屏事件,就能進(jìn)入到“秒送外賣(mài)”頁(yè)面。
此外,還能模擬人類(lèi)操作,找到輸入框輸入文字,還能對(duì)手機(jī)進(jìn)行滑動(dòng)等。
4、交互與確認(rèn)
在Agent點(diǎn)外賣(mài)的過(guò)程,對(duì)于關(guān)鍵節(jié)點(diǎn),比如支付等涉及資金安全的環(huán)節(jié),它會(huì)暫停并請(qǐng)求用戶(hù)確認(rèn),或者讓用戶(hù)接管手機(jī)進(jìn)行操作。
此外,用戶(hù)可以隨時(shí)終止任務(wù),不再進(jìn)行后續(xù)任務(wù)。
用戶(hù)在AutoGLM頁(yè)面看到AI Agent操作京東App下單的過(guò)程,實(shí)際上是它在遠(yuǎn)程操作用你賬號(hào)登錄的“云手機(jī)”,并將操作過(guò)程實(shí)時(shí)同步到你的AutoGLM客戶(hù)端進(jìn)行展示。
當(dāng)完成下單后,你的本地手機(jī)上,打開(kāi)京東App,能看到完成支付的外賣(mài)訂單。
5、面臨的挑戰(zhàn)和局限
盡管AI Agent能夠完成點(diǎn)外賣(mài)的大部分操作,但用戶(hù)體驗(yàn)仍有提升空間,比如反應(yīng)速度比較慢,穩(wěn)定性不夠,偶爾會(huì)出現(xiàn)中斷或失敗等異常情況。
并且Agent對(duì)指令的理解也會(huì)存在偏差,比如讓它第二天中午12點(diǎn)送到,但它配送時(shí)間為上午10點(diǎn)多。而且選擇的配送地址,也是很早之前用的舊地址。
在操作過(guò)程中,有幾次點(diǎn)擊“終止任務(wù)”后,它沒(méi)有終止任務(wù),而是繼續(xù)進(jìn)行后續(xù)操作,這也讓我對(duì)它是否能完全按照我的指令執(zhí)行有所擔(dān)心。
并且,對(duì)賬號(hào)安全有一些擔(dān)憂(yōu),比如你登錄在“云手機(jī)”上的京東賬號(hào),在下單完成后,它是否會(huì)退出登錄,如果不退出,仍然存在賬號(hào)安全風(fēng)險(xiǎn)。
此外,如果頻繁使用Agent自動(dòng)操作App,可能會(huì)觸發(fā)平臺(tái)的風(fēng)控機(jī)制,導(dǎo)致賬號(hào)被臨時(shí)限制或要求驗(yàn)證。
三、結(jié)語(yǔ)
總而言之,AI Agent能夠像人一樣思考,理解任務(wù),并規(guī)劃操作步驟;像人一樣,看懂手機(jī)屏幕上的信息,包括文字、圖標(biāo)、按鈕等;像人一樣,去操作手機(jī),進(jìn)行點(diǎn)擊、滑動(dòng)、輸入等。
既然AI Agent能點(diǎn)外賣(mài),從技術(shù)來(lái)講,理論上它就能給你買(mǎi)火車(chē)票,訂機(jī)票酒店,也可以給你的好友發(fā)消息。
雖然這款A(yù)I Agent并不完美,用戶(hù)體驗(yàn)還有不少提升空間,但不得不承認(rèn),這是AI Agent邁出的重要一步,相信隨著AI技術(shù)的快速發(fā)展,處理速度和用戶(hù)體驗(yàn)的不斷提升,距離產(chǎn)品真正落地那一天,也許并不遠(yuǎn)了。
作者:劉剛,微信公眾號(hào):產(chǎn)品經(jīng)理之路
本文由作者@劉剛 原創(chuàng)/授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
但很多商家的第一個(gè)菜品不是主菜,是一些收藏贈(zèng)送啥的,不滿(mǎn)足起送條件,這時(shí)候會(huì)報(bào)錯(cuò)嗎還是找下一家
現(xiàn)在AI Agent 竟然能夠幫忙點(diǎn)外賣(mài)了?真的好神奇??!那不是又有好多事情AI可以直接跑腿兒?