這個AI新賽道火了!給Agent做瀏覽器,千萬融資估值3億美金
AI技術(shù)的發(fā)展催生了新的賽道——Agent瀏覽器,它為AI代理提供了一個集中操作的環(huán)境,使得它們能更高效地完成任務(wù)。文章將探討這一新興領(lǐng)域的創(chuàng)業(yè)公司如何通過提供Agent瀏覽器產(chǎn)品獲得千萬美金融資,并分析了這些產(chǎn)品的特點和它們在AI生態(tài)中扮演的角色。隨著AI代理在信息獲取和任務(wù)執(zhí)行方面展現(xiàn)出巨大潛力,Agent瀏覽器可能成為未來AI應用的關(guān)鍵組成部分。
在去年年底的采訪里,合伙人Konstantine Buhler說,今年將成為Agent元年。
原因在于,Agent獲取信息的方式和工作流上已經(jīng)發(fā)生了巨大變化,它們不僅可以能同時打開多個網(wǎng)頁,從網(wǎng)絡(luò)中獲取信息、思考內(nèi)容,還能調(diào)用多個工具來完成任務(wù)。
Agent能力的變化,也帶來了新的機會。今年以來,Agent瀏覽器開始火了起來,Browser Use、Fellou、Dia等Agent瀏覽器產(chǎn)品逐漸爆火海內(nèi)外。
所謂Agnet專用瀏覽器,就好比一群AI組團在你的電腦上打工,而且他們被折疊在一個瀏覽器這個空間內(nèi),不占用界面和資源。
這個新興賽道,正在受到投資人關(guān)注。
Browserbase成立剛滿一年,就已融資千萬美金、估值上億美金。而由于Manus而爆火的Browser Use,也在最近拿到了千萬美金種子輪。
由于產(chǎn)品形態(tài)過于早期,這些公司對Agent瀏覽器的理解也有著巨大差異。今天,烏鴉君就帶你來看看這個由Agent催生的新賽道。
01 為什么Agent需要一個瀏覽器?
在今年3月,Manus橫空出世,這個能像人類一樣熟練操作瀏覽器的智能體,瞬間點燃了行業(yè)熱情。
但也催生了很多基礎(chǔ)設(shè)施的變化,比如瀏覽器。
簡單來說,瀏覽器的使用者正在逐漸從人類用戶轉(zhuǎn)移到AI Agent,傳統(tǒng)瀏覽器產(chǎn)品更多是基于人類用戶操作習慣而設(shè)計的,無法滿足AI Agent自動化抓取、交互和實時數(shù)據(jù)處理的需求。
在Browserbase創(chuàng)始人的早期備忘錄里,曾詳細闡述傳統(tǒng)瀏覽器在AI時代的不足:
普通瀏覽器,數(shù)據(jù)抓取困難。這種瀏覽器的網(wǎng)站動態(tài)加載、交互復雜,部分網(wǎng)頁還有反爬蟲機制,且網(wǎng)頁結(jié)構(gòu)多變,解析數(shù)據(jù)不易。
無界面瀏覽器(headless browser)頁面加載過慢,Agent抓取容易出錯。這種瀏覽器原來用于網(wǎng)頁處理、爬蟲、自動化測試等。在無界面模式下,頁面元素的加載時間長,元素未完全加載完畢,就可能被Agent自動化抓取或交互,從而出錯。
在這種情況下,“Agent專用瀏覽器”的討論逐漸進入人們的視野。
今年以來,越來越多AI公司開始推出Agent瀏覽器產(chǎn)品。比如,今年2月,Perplexity CEO Aravind宣布,公司將推出自己的瀏覽器。
在Aravind看來,瀏覽器是構(gòu)建Agents的唯一方式。原因是目前沒有其他方式能讓AI代理同時控制多個應用,尤其是在iOS上,甚至無法訪問其他應用,這是蘋果生態(tài)的限制。而瀏覽器是一個非常好的解決方案。
除了Perplexity下場外,還有一些做Agent瀏覽器的AI創(chuàng)業(yè)公司也開始拿到融資,并且在商業(yè)化上取得了突破。
其中,Browserbase是最早一批做Agent瀏覽器的研發(fā)商,該公司也才剛成立一年。4月22日,Browserbase完成最新B輪融資,由Notable Capital領(lǐng)投。
據(jù)“投資實習所”透露,該公司此輪投后估值達到3億美金。在此之前,該公司已完成3輪融資,總?cè)谫Y2750萬美元。
瀏覽器自動化代理Browser Use,也在今年拿到了1700 萬美元融資,由 Felicis Ventures 領(lǐng)投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund 等跟投。
曾推出Arc瀏覽器的AI明星公司The Browser Company,也在今年推出了自己的Agent瀏覽器Dia。
4月21日,云服務(wù)商Authing的創(chuàng)始人謝揚公布了Agent瀏覽器Fellou。據(jù)介紹,F(xiàn)ellou是全球首個Agentic Browser,即行動型瀏覽器,你可以理解為是一群AI組團在你的電腦上打工,且它們可以隱身在一個影子空間內(nèi),不影響你的操控。
那么這些各家在設(shè)計產(chǎn)品時,思路上各有什么不同?
02 選AI-native,還是易用性?
以下是市面上幾家Agent瀏覽器的產(chǎn)品形態(tài)和各自特點:
Browserbase:自帶視覺模型的理解系統(tǒng),功能豐富
Browserbase沒有圖形化界面,直接在內(nèi)存中完成所有操作,包括點擊鏈接、抓取網(wǎng)頁內(nèi)容等,而無需關(guān)心服務(wù)器的管理和維護。另一方面,它能利用大模型(LLM)和視覺語言模型(VLM),理解網(wǎng)頁語義和自適應頁面變化,從而實現(xiàn)自然語言交互。
它降低了Agent開發(fā)的門檻,包括幫助繞過反爬蟲措施、管理和協(xié)調(diào)多賬號操作,并且能夠提供一個穩(wěn)定、不易因網(wǎng)絡(luò)問題中斷的執(zhí)行環(huán)境。特別是在處理那些缺乏現(xiàn)代API的傳統(tǒng)網(wǎng)頁時,發(fā)揮著重要作用。它還允許會話回放,逐頁回放瀏覽器會話,以檢查操作和網(wǎng)絡(luò)請求。
Browser Use:把網(wǎng)頁拆解成“結(jié)構(gòu)化文本”讓AI理解
Browser Use創(chuàng)始人Magnus Müller認為,當前大多數(shù)AI代理依賴于基于計算機視覺的方法來“觀察”和瀏覽網(wǎng)頁,這種方法存在速度慢、成本高,且效果不穩(wěn)定的問題。
“許多代理依賴于視覺系統(tǒng),試圖通過屏幕截圖來理解網(wǎng)站,但這種方式常常出現(xiàn)問題?!彼忉尩溃拔覀儗⒕W(wǎng)站轉(zhuǎn)化為代理能夠理解的結(jié)構(gòu)化內(nèi)容。這意味著我們可以以更低的成本重復執(zhí)行相同的任務(wù)?!?/p>
讓AI更容易瀏覽網(wǎng)站,是Browser Use產(chǎn)品的核心邏輯。簡單來說,Browser Use把網(wǎng)站上的按鈕和元素拆解成一種更容易理解、更像“文本”的格式給Agent用。這能幫助Agent搞清楚網(wǎng)頁有哪些選項,運行多個AI代理,然后自主做出決策。
具體來說,Agent可以用Browser Use做這些:
- 兼容GPT-4、Claude、Llama等;
- 支持異步編程,讓AI代理能非阻塞地執(zhí)行網(wǎng)絡(luò)請求和瀏覽器操作;
- 支持多標簽頁管理、視覺識別、內(nèi)容提??;
- 能記錄和重復執(zhí)行特定動作;
- 支持開發(fā)者自定義動作,如保存文件、推送到數(shù)據(jù)庫等。
Dia:超級搜索框,Agent處理精細度高
Dia看起來極簡,只有搜索框,但對AI對搜索內(nèi)容的分析精細度和融入Agent能力突出。
其產(chǎn)品邏輯是將AI作為核心構(gòu)建理念,打造一個由AI驅(qū)動的瀏覽環(huán)境,讓AI深度融入瀏覽器的各個環(huán)節(jié),成為瀏覽器底層的能力。最主要的兩個方面:
一是以AI為核心的交互模式。Dia通過智能輸入建議,在用戶輸入時提供續(xù)寫、擴寫或總結(jié)等功能。用戶還能通過地址欄輸入自然語言命令,指示瀏覽器執(zhí)行查找文檔、發(fā)送郵件、從網(wǎng)頁提取數(shù)據(jù)填入文檔等任務(wù)。
二是類似操作系統(tǒng)的定位。創(chuàng)始人Josh Miller的野心是把瀏覽器從單純的內(nèi)容展示工具,變成操作系統(tǒng)般的存在,使產(chǎn)品管理個人偏好和行為,在系統(tǒng)層面實現(xiàn)跨設(shè)備的AI體驗。
舉例來說,Dia產(chǎn)品基于Chromium引擎特定版本,輸入問題后有Google/Chat選項,Chat可調(diào)用自帶大模型給出答案,有歷史聊天記錄,遇到復雜問題會聯(lián)網(wǎng)搜索。交互設(shè)計方面,劃詞后右側(cè)能直接提供查找或解釋功能,支持通過“@”調(diào)用各個網(wǎng)頁標簽。
▲ Dia瀏覽器邀請碼在二手市場最高被賣到888元
Fellou:交付結(jié)果PPT化,幫助用戶高效吸收
Fellou定位于“瀏覽器型的AI助手”,重點在于任務(wù)結(jié)果的交付。與多數(shù)以對話為主的Agnet瀏覽器不同,F(xiàn)ellou做了交付結(jié)果的可視化。這種PPT或者是圖化的知識呈現(xiàn)對用戶來說,是非常高效的。
具體來說,它將瀏覽器、Agent、工作流自動化,三者整合成了“行動型瀏覽器(Agentic Browser)”。
用戶只需要一句話,F(xiàn)ellou就能自動解析指令、智能拆解任務(wù),并跨多個網(wǎng)頁和系統(tǒng)調(diào)度操作,從數(shù)據(jù)采集、表單填寫到最終報告生成。比如,用戶在Threads上發(fā)布的內(nèi)容,要求fellow抓取后在Twitter上發(fā)布,并按照內(nèi)容本身的threads形式發(fā)布多條動態(tài)。
Fellou還增加了對本地電腦的控制,行動空間更大。一般Agent瀏覽器跟微信、釘釘?shù)壬鷳B(tài)不兼容,但是Fellou開箱即用。如manus、OpenAI的Agent,也只能在公開網(wǎng)站上來運行,訪問領(lǐng)英等網(wǎng)站時會因為虛擬機而受到限制,而本地運行的Fellou就不存在這個問題。
03 總結(jié)
作為大模型目前能調(diào)用的最重要的工具之一,瀏覽器在Agent落地中擁有著相當重要的場景價值。這也是OpenAI有興趣收購Chrome的原因。
不過,作為一個新興的產(chǎn)品形態(tài),Agent瀏覽器的發(fā)展仍然處于早期。未來的Agnet瀏覽器形態(tài),答案到底在誰那里?讓我們一起期待。
文/朗朗
本文由人人都是產(chǎn)品經(jīng)理作者【烏鴉智能說】,微信公眾號:【烏鴉智能說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
最近一直聽到說瀏覽器在Agent落地中擁有著相當重要的場景價值,我覺得更重要還是得自己親身感受和認知才行,不然完全會是一頭霧水
咩咩……