硅谷的“重磅賭注”:構(gòu)建AI agents強(qiáng)化學(xué)習(xí)環(huán)境

0 評(píng)論 1033 瀏覽 1 收藏 14 分鐘

在人工智能領(lǐng)域,強(qiáng)化學(xué)習(xí)環(huán)境正逐漸成為開發(fā)AI agents的關(guān)鍵要素。本文將深入探討強(qiáng)化學(xué)習(xí)環(huán)境在AI agents開發(fā)中的重要性,以及硅谷如何通過構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境來推動(dòng)AI技術(shù)的發(fā)展。

強(qiáng)化學(xué)習(xí)環(huán)境正逐漸成為AI agents開發(fā)過程中的關(guān)鍵要素。

多年來,科技巨頭們一直宣揚(yáng)人工智能智能體(AI agents)的愿景 —— 智能體能夠自主運(yùn)行軟件應(yīng)用程序,為人類完成各類任務(wù)。

然而,如今實(shí)際試用OpenAI的ChatGPT智能體,或是Perplexity的Comet,你很快就會(huì)發(fā)現(xiàn)這項(xiàng)技術(shù)仍存在諸多局限。要讓AI agents具備更強(qiáng)的穩(wěn)健性,或許需要業(yè)界發(fā)掘一系列全新的技術(shù)手段。

其中一種技術(shù)手段便是精心模擬工作場(chǎng)景,讓AI agents在這些場(chǎng)景中接受多步驟任務(wù)的訓(xùn)練 —— 也被稱為強(qiáng)化學(xué)習(xí)(RL)環(huán)境。正如帶標(biāo)簽的數(shù)據(jù)集曾推動(dòng)上一輪人工智能浪潮那樣,強(qiáng)化學(xué)習(xí)環(huán)境正逐漸成為AI agents開發(fā)過程中的關(guān)鍵要素。

人工智能領(lǐng)域的研究人員、初創(chuàng)企業(yè)創(chuàng)始人以及投資者向 TechCrunch 透露,目前頂尖的人工智能實(shí)驗(yàn)室對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的需求日益增長(zhǎng),而渴望提供技術(shù)的初創(chuàng)企業(yè)也不在少數(shù)。

“所有大型人工智能實(shí)驗(yàn)室都在內(nèi)部構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境,” 安德森?霍洛維茨基金(Andreessen Horowitz)的普通合伙人詹妮弗?李(Jennifer Li)在接受媒體采訪時(shí)表示。

“但可想而知,創(chuàng)建這類數(shù)據(jù)集的過程極為復(fù)雜,因此人工智能實(shí)驗(yàn)室也在尋求第三方供應(yīng)商的合作,希望他們能打造出高質(zhì)量的強(qiáng)化學(xué)習(xí)環(huán)境和評(píng)估體系。目前整個(gè)行業(yè)都在關(guān)注這個(gè)領(lǐng)域?!?/p>

對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的迫切需求催生了一批資金雄厚的新興初創(chuàng)企業(yè),例如Mechanize和Prime Intellect,這些企業(yè)都致力于在該領(lǐng)域占據(jù)領(lǐng)先地位。與此同時(shí),Mercor、Surge等大型數(shù)據(jù)標(biāo)注公司表示,隨著行業(yè)正從靜態(tài)數(shù)據(jù)集向交互式模擬轉(zhuǎn)變,他們也在加大對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的投入,以跟上行業(yè)變革的步伐。大型實(shí)驗(yàn)室也在考慮進(jìn)行巨額投資:據(jù)《The Information》報(bào)道,Anthropic的管理層已討論過在未來一年內(nèi),為強(qiáng)化學(xué)習(xí)環(huán)境投入超過10億美元。

投資者和初創(chuàng)企業(yè)寄希望于行業(yè)中能涌現(xiàn)出一家 “強(qiáng)化學(xué)習(xí)環(huán)境領(lǐng)域的 Scale AI”——Scale AI是一家估值290億美元的數(shù)據(jù)標(biāo)注巨頭,曾為聊天機(jī)器人時(shí)代的發(fā)展提供了強(qiáng)大支撐。

但問題在于,強(qiáng)化學(xué)習(xí)環(huán)境是否真的能推動(dòng)人工智能技術(shù)突破現(xiàn)有邊界,實(shí)現(xiàn)新的進(jìn)展?

01 什么是強(qiáng)化學(xué)習(xí)環(huán)境?

從本質(zhì)上來說,強(qiáng)化學(xué)習(xí)環(huán)境是一種訓(xùn)練場(chǎng)景,它能模擬AI agents在真實(shí)軟件應(yīng)用程序中的操作過程。

舉例來說,某個(gè)強(qiáng)化學(xué)習(xí)環(huán)境可以模擬Chrome瀏覽器,并給AI agents分配一項(xiàng)任務(wù) —— 在亞馬遜購買一雙襪子。AI agents的表現(xiàn)會(huì)被打分,當(dāng)它成功完成任務(wù)時(shí),會(huì)收到一個(gè)獎(jiǎng)勵(lì)。

雖然這類任務(wù)聽起來簡(jiǎn)單,但AI agents在執(zhí)行過程中可能會(huì)在很多環(huán)節(jié)出錯(cuò)。

比如,它可能在瀏覽網(wǎng)頁下拉菜單時(shí)迷失方向,或者誤買過多襪子。而且,由于開發(fā)者無法準(zhǔn)確預(yù)測(cè)AI agents會(huì)在哪個(gè)環(huán)節(jié)出錯(cuò),因此環(huán)境本身必須具備足夠的穩(wěn)健性,能夠捕捉到任何意外行為,同時(shí)仍能提供有效的反饋。這使得構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境的難度遠(yuǎn)高于創(chuàng)建靜態(tài)數(shù)據(jù)集。

有些強(qiáng)化學(xué)習(xí)環(huán)境設(shè)計(jì)得十分復(fù)雜,允許AI agents使用工具、訪問互聯(lián)網(wǎng),或借助各類軟件應(yīng)用程序來完成特定任務(wù)。

盡管強(qiáng)化學(xué)習(xí)環(huán)境如今在硅谷備受追捧,但這種技術(shù)其實(shí)早有先例。早在2016年,OpenAI的首批項(xiàng)目之一就是打造 “強(qiáng)化學(xué)習(xí)訓(xùn)練館(RL Gyms)”,其理念與現(xiàn)在的強(qiáng)化學(xué)習(xí)環(huán)境極為相似。同年,谷歌DeepMind開發(fā)的AlphaGo在圍棋比賽中擊敗了世界冠軍,同樣在模擬環(huán)境中運(yùn)用了強(qiáng)化學(xué)習(xí)。

如今的強(qiáng)化學(xué)習(xí)環(huán)境之所以具有獨(dú)特性,是因?yàn)檠芯咳藛T正嘗試?yán)么笮?Transformer模型來開發(fā)能操作計(jì)算機(jī)的AI agents。

與AlphaGo不同 ——AlphaGo是在封閉環(huán)境中運(yùn)行的專用人工智能系統(tǒng)。如今的AI agents經(jīng)過訓(xùn)練后,具備了更廣泛的通用能力。

02 競(jìng)爭(zhēng)激烈的賽道

Scale AI、Surge、Mercor等人工智能數(shù)據(jù)標(biāo)注公司正積極著手構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境。

Surge的首席執(zhí)行官埃德溫?陳(Edwin Chen)向媒體透露,他最近發(fā)現(xiàn)人工智能實(shí)驗(yàn)室對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的需求 “大幅增加”。據(jù)悉,Surge去年通過與OpenAI、谷歌、Anthropic、Meta等行業(yè)巨頭合作,實(shí)現(xiàn)了12億美元的營收。埃德溫?陳表示,公司近期已成立專門的內(nèi)部團(tuán)隊(duì),負(fù)責(zé)強(qiáng)化學(xué)習(xí)環(huán)境的構(gòu)建工作。

緊隨其后的是估值達(dá)100億美元的初創(chuàng)企業(yè)Mercor,該公司同樣與OpenAI、Meta、Anthropic有合作。Mercor正在向投資者推介其業(yè)務(wù) —— 為編碼、醫(yī)療、法律等特定領(lǐng)域的任務(wù)構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境。

Mercor的首席執(zhí)行官布倫丹?福迪(Brendan Foody)在接受媒體采訪時(shí)表示:“很少有人真正意識(shí)到強(qiáng)化學(xué)習(xí)環(huán)境領(lǐng)域蘊(yùn)含的機(jī)遇有多大?!?/p>

Scale AI曾在數(shù)據(jù)標(biāo)注領(lǐng)域占據(jù)主導(dǎo)地位,但自從Meta投資140億美元并挖走其首席執(zhí)行官后,該公司的市場(chǎng)份額有所下滑。此后,谷歌和OpenAI不再將 Scale AI作為數(shù)據(jù)供應(yīng)商。盡管如此,Scale AI仍在努力著手構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境。

“這正是Scale AI所處行業(yè)的本質(zhì)特征,”Scale AI負(fù)責(zé)智能體和強(qiáng)化學(xué)習(xí)環(huán)境業(yè)務(wù)的產(chǎn)品負(fù)責(zé)人切坦?拉內(nèi)(Chetan Rane)表示,“Scale AI已經(jīng)證明了自身快速適應(yīng)變化的能力。在自動(dòng)駕駛領(lǐng)域發(fā)展初期,我們就做到了這一點(diǎn);當(dāng) ChatGPT問世時(shí),Scale AI也及時(shí)調(diào)整方向適應(yīng)了新趨勢(shì);如今,我們?cè)俅巫龊脺?zhǔn)備,向智能體、強(qiáng)化學(xué)習(xí)環(huán)境這類新的前沿領(lǐng)域邁進(jìn)。”

一些新入局者從一開始就專注于強(qiáng)化學(xué)習(xí)環(huán)境賽道。成立約六個(gè)月的初創(chuàng)企業(yè) Mechanize便是其中之一,該公司立下了一個(gè)宏大目標(biāo) ——“實(shí)現(xiàn)所有工作的自動(dòng)化”。不過,該公司的聯(lián)合創(chuàng)始人馬修?巴尼特(Matthew Barnett)坦言,目前公司的首要任務(wù)是為AI agents構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境。

巴尼特表示,Mechanize計(jì)劃為人工智能實(shí)驗(yàn)室提供少量穩(wěn)健性強(qiáng)的強(qiáng)化學(xué)習(xí)環(huán)境,這與大型數(shù)據(jù)公司形成了鮮明對(duì)比。為實(shí)現(xiàn)這一目標(biāo),該初創(chuàng)企業(yè)開出了50萬美元的年薪,招聘軟件工程師來構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境。

據(jù)知情人士透露,Mechanize已開始與Anthropic合作開發(fā)強(qiáng)化學(xué)習(xí)環(huán)境。

其他初創(chuàng)企業(yè)則認(rèn)為,強(qiáng)化學(xué)習(xí)環(huán)境的影響力將超越人工智能實(shí)驗(yàn)室的范疇。由人工智能研究員安德烈?卡帕西(Andrej Karpathy)、創(chuàng)始人基金(Founders Fund)以及門羅風(fēng)投(Menlo Ventures)聯(lián)合投資的初創(chuàng)企業(yè) Prime Intellect,正將其強(qiáng)化學(xué)習(xí)環(huán)境推向中小型開發(fā)者群體。

上個(gè)月,Prime Intellect推出了一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境中心,旨在打造 “強(qiáng)化學(xué)習(xí)環(huán)境的 Hugging Face”。其理念是讓開源開發(fā)者也能獲取與大型人工智能實(shí)驗(yàn)室同等的資源,同時(shí)向這些開發(fā)者出售計(jì)算資源的使用權(quán)限。

Prime Intellect的研究員威爾?布朗(Will Brown)表示,在強(qiáng)化學(xué)習(xí)環(huán)境中訓(xùn)練具備通用能力的智能體,所需的計(jì)算成本比以往的人工智能訓(xùn)練技術(shù)更高。因此,除了那些構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境的初創(chuàng)企業(yè)外,能為這一過程提供支持的GPU供應(yīng)商也迎來了新的機(jī)遇。

“沒有任何一家公司能夠壟斷強(qiáng)化學(xué)習(xí)環(huán)境賽道,因?yàn)檫@個(gè)賽道的規(guī)模實(shí)在太大了,” 布朗在采訪中說道,“我們目前所做的部分工作,就是努力圍繞該領(lǐng)域構(gòu)建完善的開源基礎(chǔ)設(shè)施。

03 能否規(guī)模化發(fā)展?

目前尚未明確的是,強(qiáng)化學(xué)習(xí)環(huán)境這種技術(shù)手段能否像以往的人工智能訓(xùn)練方法那樣實(shí)現(xiàn)規(guī)?;l(fā)展。

過去一年,強(qiáng)化學(xué)習(xí)技術(shù)推動(dòng)人工智能領(lǐng)域?qū)崿F(xiàn)了多項(xiàng)重大突破,例如 OpenAI的o1模型和Anthropic的Claude Opus 4模型。這些突破意義非凡,因?yàn)榇饲坝糜诟倪M(jìn)人工智能模型的方法,如今正逐漸顯現(xiàn)出收益遞減的趨勢(shì)。

強(qiáng)化學(xué)習(xí)環(huán)境是人工智能實(shí)驗(yàn)室的更大賭注的一部分。許多人認(rèn)為,隨著在這一過程中投入更多數(shù)據(jù)和計(jì)算資源,強(qiáng)化學(xué)習(xí)技術(shù)將持續(xù)推動(dòng)人工智能的發(fā)展。

目前,強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)規(guī)?;l(fā)展的最佳路徑仍不明確。與僅通過獎(jiǎng)勵(lì)機(jī)制優(yōu)化聊天機(jī)器人的文本回復(fù)不同,強(qiáng)化學(xué)習(xí)環(huán)境能讓智能體在模擬場(chǎng)景中操作工具和計(jì)算機(jī)完成任務(wù)。這種方式雖然需要消耗更多資源,但也有可能帶來更高的回報(bào)。

也有部分人對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的發(fā)展前景持懷疑態(tài)度。曾擔(dān)任Meta人工智能研究主管、現(xiàn)聯(lián)合創(chuàng)辦General Reasoning公司的羅斯?泰勒(Ross Taylor)向媒體表示,強(qiáng)化學(xué)習(xí)環(huán)境容易出現(xiàn) “獎(jiǎng)勵(lì)作弊” 現(xiàn)象 —— 即AI agents為了獲得獎(jiǎng)勵(lì)而采取作弊手段,并未真正完成任務(wù)。

“我認(rèn)為人們低估了強(qiáng)化學(xué)習(xí)環(huán)境實(shí)現(xiàn)規(guī)?;l(fā)展的難度,” 泰勒表示,“即便是目前公開可用的最優(yōu)質(zhì)強(qiáng)化學(xué)習(xí)環(huán)境,若不進(jìn)行大幅修改,通常也無法正常使用?!?/p>

OpenAI負(fù)責(zé)API業(yè)務(wù)的工程主管舍溫?吳(Sherwin Wu)在近期的一檔播客節(jié)目中表示,他不看好強(qiáng)化學(xué)習(xí)環(huán)境領(lǐng)域的初創(chuàng)企業(yè)。舍溫?吳指出,該領(lǐng)域競(jìng)爭(zhēng)異常激烈,而且人工智能研究的發(fā)展速度極快,要想為人工智能實(shí)驗(yàn)室提供優(yōu)質(zhì)服務(wù)并非易事。

作為Prime Intellect的投資者,卡帕西曾稱強(qiáng)化學(xué)習(xí)環(huán)境可能成為一項(xiàng)突破性技術(shù),但他也對(duì)整個(gè)強(qiáng)化學(xué)習(xí)賽道表達(dá)了謹(jǐn)慎態(tài)度。他在社交平臺(tái)X(原 Twitter)上發(fā)布的一篇帖子中提出疑問:通過強(qiáng)化學(xué)習(xí)技術(shù),人工智能還能實(shí)現(xiàn)多大程度的突破?

“我對(duì)強(qiáng)化學(xué)習(xí)環(huán)境和智能體交互持樂觀態(tài)度,但對(duì)強(qiáng)化學(xué)習(xí)本身持悲觀態(tài)度?!?卡帕西表示。

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號(hào):【AIOrbit】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!