在线天堂资源www中文,亚洲国产日韩精品一区二区三区 ,自拍偷自拍亚洲精品情侣

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

硅谷的“重磅賭注”：構(gòu)建AI agents強(qiáng)化學(xué)習(xí)環(huán)境

AI新智能

2025-09-18

0 評(píng)論 1033 瀏覽 1 收藏

14 分鐘

在人工智能領(lǐng)域，強(qiáng)化學(xué)習(xí)環(huán)境正逐漸成為開發(fā)AI agents的關(guān)鍵要素。本文將深入探討強(qiáng)化學(xué)習(xí)環(huán)境在AI agents開發(fā)中的重要性，以及硅谷如何通過構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境來推動(dòng)AI技術(shù)的發(fā)展。

強(qiáng)化學(xué)習(xí)環(huán)境正逐漸成為AI agents開發(fā)過程中的關(guān)鍵要素。

多年來，科技巨頭們一直宣揚(yáng)人工智能智能體（AI agents）的愿景 —— 智能體能夠自主運(yùn)行軟件應(yīng)用程序，為人類完成各類任務(wù)。

然而，如今實(shí)際試用OpenAI的ChatGPT智能體，或是Perplexity的Comet，你很快就會(huì)發(fā)現(xiàn)這項(xiàng)技術(shù)仍存在諸多局限。要讓AI agents具備更強(qiáng)的穩(wěn)健性，或許需要業(yè)界發(fā)掘一系列全新的技術(shù)手段。

其中一種技術(shù)手段便是精心模擬工作場(chǎng)景，讓AI agents在這些場(chǎng)景中接受多步驟任務(wù)的訓(xùn)練 —— 也被稱為強(qiáng)化學(xué)習(xí)（RL）環(huán)境。正如帶標(biāo)簽的數(shù)據(jù)集曾推動(dòng)上一輪人工智能浪潮那樣，強(qiáng)化學(xué)習(xí)環(huán)境正逐漸成為AI agents開發(fā)過程中的關(guān)鍵要素。

人工智能領(lǐng)域的研究人員、初創(chuàng)企業(yè)創(chuàng)始人以及投資者向 TechCrunch 透露，目前頂尖的人工智能實(shí)驗(yàn)室對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的需求日益增長(zhǎng)，而渴望提供技術(shù)的初創(chuàng)企業(yè)也不在少數(shù)。

“所有大型人工智能實(shí)驗(yàn)室都在內(nèi)部構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境，” 安德森?霍洛維茨基金（Andreessen Horowitz）的普通合伙人詹妮弗?李（Jennifer Li）在接受媒體采訪時(shí)表示。

“但可想而知，創(chuàng)建這類數(shù)據(jù)集的過程極為復(fù)雜，因此人工智能實(shí)驗(yàn)室也在尋求第三方供應(yīng)商的合作，希望他們能打造出高質(zhì)量的強(qiáng)化學(xué)習(xí)環(huán)境和評(píng)估體系。目前整個(gè)行業(yè)都在關(guān)注這個(gè)領(lǐng)域?！?/p>

對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的迫切需求催生了一批資金雄厚的新興初創(chuàng)企業(yè)，例如Mechanize和Prime Intellect，這些企業(yè)都致力于在該領(lǐng)域占據(jù)領(lǐng)先地位。與此同時(shí)，Mercor、Surge等大型數(shù)據(jù)標(biāo)注公司表示，隨著行業(yè)正從靜態(tài)數(shù)據(jù)集向交互式模擬轉(zhuǎn)變，他們也在加大對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的投入，以跟上行業(yè)變革的步伐。大型實(shí)驗(yàn)室也在考慮進(jìn)行巨額投資：據(jù)《The Information》報(bào)道，Anthropic的管理層已討論過在未來一年內(nèi)，為強(qiáng)化學(xué)習(xí)環(huán)境投入超過10億美元。

投資者和初創(chuàng)企業(yè)寄希望于行業(yè)中能涌現(xiàn)出一家 “強(qiáng)化學(xué)習(xí)環(huán)境領(lǐng)域的 Scale AI”——Scale AI是一家估值290億美元的數(shù)據(jù)標(biāo)注巨頭，曾為聊天機(jī)器人時(shí)代的發(fā)展提供了強(qiáng)大支撐。

但問題在于，強(qiáng)化學(xué)習(xí)環(huán)境是否真的能推動(dòng)人工智能技術(shù)突破現(xiàn)有邊界，實(shí)現(xiàn)新的進(jìn)展？

01 什么是強(qiáng)化學(xué)習(xí)環(huán)境？

從本質(zhì)上來說，強(qiáng)化學(xué)習(xí)環(huán)境是一種訓(xùn)練場(chǎng)景，它能模擬AI agents在真實(shí)軟件應(yīng)用程序中的操作過程。

舉例來說，某個(gè)強(qiáng)化學(xué)習(xí)環(huán)境可以模擬Chrome瀏覽器，并給AI agents分配一項(xiàng)任務(wù) —— 在亞馬遜購買一雙襪子。AI agents的表現(xiàn)會(huì)被打分，當(dāng)它成功完成任務(wù)時(shí)，會(huì)收到一個(gè)獎(jiǎng)勵(lì)。

雖然這類任務(wù)聽起來簡(jiǎn)單，但AI agents在執(zhí)行過程中可能會(huì)在很多環(huán)節(jié)出錯(cuò)。

比如，它可能在瀏覽網(wǎng)頁下拉菜單時(shí)迷失方向，或者誤買過多襪子。而且，由于開發(fā)者無法準(zhǔn)確預(yù)測(cè)AI agents會(huì)在哪個(gè)環(huán)節(jié)出錯(cuò)，因此環(huán)境本身必須具備足夠的穩(wěn)健性，能夠捕捉到任何意外行為，同時(shí)仍能提供有效的反饋。這使得構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境的難度遠(yuǎn)高于創(chuàng)建靜態(tài)數(shù)據(jù)集。

有些強(qiáng)化學(xué)習(xí)環(huán)境設(shè)計(jì)得十分復(fù)雜，允許AI agents使用工具、訪問互聯(lián)網(wǎng)，或借助各類軟件應(yīng)用程序來完成特定任務(wù)。

盡管強(qiáng)化學(xué)習(xí)環(huán)境如今在硅谷備受追捧，但這種技術(shù)其實(shí)早有先例。早在2016年，OpenAI的首批項(xiàng)目之一就是打造 “強(qiáng)化學(xué)習(xí)訓(xùn)練館（RL Gyms）”，其理念與現(xiàn)在的強(qiáng)化學(xué)習(xí)環(huán)境極為相似。同年，谷歌DeepMind開發(fā)的AlphaGo在圍棋比賽中擊敗了世界冠軍，同樣在模擬環(huán)境中運(yùn)用了強(qiáng)化學(xué)習(xí)。

如今的強(qiáng)化學(xué)習(xí)環(huán)境之所以具有獨(dú)特性，是因?yàn)檠芯咳藛T正嘗試?yán)么笮?Transformer模型來開發(fā)能操作計(jì)算機(jī)的AI agents。

與AlphaGo不同 ——AlphaGo是在封閉環(huán)境中運(yùn)行的專用人工智能系統(tǒng)。如今的AI agents經(jīng)過訓(xùn)練后，具備了更廣泛的通用能力。

02 競(jìng)爭(zhēng)激烈的賽道

Scale AI、Surge、Mercor等人工智能數(shù)據(jù)標(biāo)注公司正積極著手構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境。

Surge的首席執(zhí)行官埃德溫?陳（Edwin Chen）向媒體透露，他最近發(fā)現(xiàn)人工智能實(shí)驗(yàn)室對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的需求 “大幅增加”。據(jù)悉，Surge去年通過與OpenAI、谷歌、Anthropic、Meta等行業(yè)巨頭合作，實(shí)現(xiàn)了12億美元的營收。埃德溫?陳表示，公司近期已成立專門的內(nèi)部團(tuán)隊(duì)，負(fù)責(zé)強(qiáng)化學(xué)習(xí)環(huán)境的構(gòu)建工作。

緊隨其后的是估值達(dá)100億美元的初創(chuàng)企業(yè)Mercor，該公司同樣與OpenAI、Meta、Anthropic有合作。Mercor正在向投資者推介其業(yè)務(wù) —— 為編碼、醫(yī)療、法律等特定領(lǐng)域的任務(wù)構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境。

Mercor的首席執(zhí)行官布倫丹?福迪（Brendan Foody）在接受媒體采訪時(shí)表示：“很少有人真正意識(shí)到強(qiáng)化學(xué)習(xí)環(huán)境領(lǐng)域蘊(yùn)含的機(jī)遇有多大?！?/p>

Scale AI曾在數(shù)據(jù)標(biāo)注領(lǐng)域占據(jù)主導(dǎo)地位，但自從Meta投資140億美元并挖走其首席執(zhí)行官后，該公司的市場(chǎng)份額有所下滑。此后，谷歌和OpenAI不再將 Scale AI作為數(shù)據(jù)供應(yīng)商。盡管如此，Scale AI仍在努力著手構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境。

“這正是Scale AI所處行業(yè)的本質(zhì)特征，”Scale AI負(fù)責(zé)智能體和強(qiáng)化學(xué)習(xí)環(huán)境業(yè)務(wù)的產(chǎn)品負(fù)責(zé)人切坦?拉內(nèi)（Chetan Rane）表示，“Scale AI已經(jīng)證明了自身快速適應(yīng)變化的能力。在自動(dòng)駕駛領(lǐng)域發(fā)展初期，我們就做到了這一點(diǎn)；當(dāng) ChatGPT問世時(shí)，Scale AI也及時(shí)調(diào)整方向適應(yīng)了新趨勢(shì)；如今，我們?cè)俅巫龊脺?zhǔn)備，向智能體、強(qiáng)化學(xué)習(xí)環(huán)境這類新的前沿領(lǐng)域邁進(jìn)。”

一些新入局者從一開始就專注于強(qiáng)化學(xué)習(xí)環(huán)境賽道。成立約六個(gè)月的初創(chuàng)企業(yè) Mechanize便是其中之一，該公司立下了一個(gè)宏大目標(biāo) ——“實(shí)現(xiàn)所有工作的自動(dòng)化”。不過，該公司的聯(lián)合創(chuàng)始人馬修?巴尼特（Matthew Barnett）坦言，目前公司的首要任務(wù)是為AI agents構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境。

巴尼特表示，Mechanize計(jì)劃為人工智能實(shí)驗(yàn)室提供少量穩(wěn)健性強(qiáng)的強(qiáng)化學(xué)習(xí)環(huán)境，這與大型數(shù)據(jù)公司形成了鮮明對(duì)比。為實(shí)現(xiàn)這一目標(biāo)，該初創(chuàng)企業(yè)開出了50萬美元的年薪，招聘軟件工程師來構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境。

據(jù)知情人士透露，Mechanize已開始與Anthropic合作開發(fā)強(qiáng)化學(xué)習(xí)環(huán)境。

其他初創(chuàng)企業(yè)則認(rèn)為，強(qiáng)化學(xué)習(xí)環(huán)境的影響力將超越人工智能實(shí)驗(yàn)室的范疇。由人工智能研究員安德烈?卡帕西（Andrej Karpathy）、創(chuàng)始人基金（Founders Fund）以及門羅風(fēng)投（Menlo Ventures）聯(lián)合投資的初創(chuàng)企業(yè) Prime Intellect，正將其強(qiáng)化學(xué)習(xí)環(huán)境推向中小型開發(fā)者群體。

上個(gè)月，Prime Intellect推出了一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境中心，旨在打造 “強(qiáng)化學(xué)習(xí)環(huán)境的 Hugging Face”。其理念是讓開源開發(fā)者也能獲取與大型人工智能實(shí)驗(yàn)室同等的資源，同時(shí)向這些開發(fā)者出售計(jì)算資源的使用權(quán)限。

Prime Intellect的研究員威爾?布朗（Will Brown）表示，在強(qiáng)化學(xué)習(xí)環(huán)境中訓(xùn)練具備通用能力的智能體，所需的計(jì)算成本比以往的人工智能訓(xùn)練技術(shù)更高。因此，除了那些構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境的初創(chuàng)企業(yè)外，能為這一過程提供支持的GPU供應(yīng)商也迎來了新的機(jī)遇。

“沒有任何一家公司能夠壟斷強(qiáng)化學(xué)習(xí)環(huán)境賽道，因?yàn)檫@個(gè)賽道的規(guī)模實(shí)在太大了，” 布朗在采訪中說道，“我們目前所做的部分工作，就是努力圍繞該領(lǐng)域構(gòu)建完善的開源基礎(chǔ)設(shè)施。

03 能否規(guī)模化發(fā)展？

目前尚未明確的是，強(qiáng)化學(xué)習(xí)環(huán)境這種技術(shù)手段能否像以往的人工智能訓(xùn)練方法那樣實(shí)現(xiàn)規(guī)?；l(fā)展。

過去一年，強(qiáng)化學(xué)習(xí)技術(shù)推動(dòng)人工智能領(lǐng)域?qū)崿F(xiàn)了多項(xiàng)重大突破，例如 OpenAI的o1模型和Anthropic的Claude Opus 4模型。這些突破意義非凡，因?yàn)榇饲坝糜诟倪M(jìn)人工智能模型的方法，如今正逐漸顯現(xiàn)出收益遞減的趨勢(shì)。

強(qiáng)化學(xué)習(xí)環(huán)境是人工智能實(shí)驗(yàn)室的更大賭注的一部分。許多人認(rèn)為，隨著在這一過程中投入更多數(shù)據(jù)和計(jì)算資源，強(qiáng)化學(xué)習(xí)技術(shù)將持續(xù)推動(dòng)人工智能的發(fā)展。

目前，強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)規(guī)?；l(fā)展的最佳路徑仍不明確。與僅通過獎(jiǎng)勵(lì)機(jī)制優(yōu)化聊天機(jī)器人的文本回復(fù)不同，強(qiáng)化學(xué)習(xí)環(huán)境能讓智能體在模擬場(chǎng)景中操作工具和計(jì)算機(jī)完成任務(wù)。這種方式雖然需要消耗更多資源，但也有可能帶來更高的回報(bào)。

也有部分人對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的發(fā)展前景持懷疑態(tài)度。曾擔(dān)任Meta人工智能研究主管、現(xiàn)聯(lián)合創(chuàng)辦General Reasoning公司的羅斯?泰勒（Ross Taylor）向媒體表示，強(qiáng)化學(xué)習(xí)環(huán)境容易出現(xiàn) “獎(jiǎng)勵(lì)作弊” 現(xiàn)象 —— 即AI agents為了獲得獎(jiǎng)勵(lì)而采取作弊手段，并未真正完成任務(wù)。

“我認(rèn)為人們低估了強(qiáng)化學(xué)習(xí)環(huán)境實(shí)現(xiàn)規(guī)?；l(fā)展的難度，” 泰勒表示，“即便是目前公開可用的最優(yōu)質(zhì)強(qiáng)化學(xué)習(xí)環(huán)境，若不進(jìn)行大幅修改，通常也無法正常使用?！?/p>

OpenAI負(fù)責(zé)API業(yè)務(wù)的工程主管舍溫?吳（Sherwin Wu）在近期的一檔播客節(jié)目中表示，他不看好強(qiáng)化學(xué)習(xí)環(huán)境領(lǐng)域的初創(chuàng)企業(yè)。舍溫?吳指出，該領(lǐng)域競(jìng)爭(zhēng)異常激烈，而且人工智能研究的發(fā)展速度極快，要想為人工智能實(shí)驗(yàn)室提供優(yōu)質(zhì)服務(wù)并非易事。

作為Prime Intellect的投資者，卡帕西曾稱強(qiáng)化學(xué)習(xí)環(huán)境可能成為一項(xiàng)突破性技術(shù)，但他也對(duì)整個(gè)強(qiáng)化學(xué)習(xí)賽道表達(dá)了謹(jǐn)慎態(tài)度。他在社交平臺(tái)X（原 Twitter）上發(fā)布的一篇帖子中提出疑問：通過強(qiáng)化學(xué)習(xí)技術(shù)，人工智能還能實(shí)現(xiàn)多大程度的突破？

“我對(duì)強(qiáng)化學(xué)習(xí)環(huán)境和智能體交互持樂觀態(tài)度，但對(duì)強(qiáng)化學(xué)習(xí)本身持悲觀態(tài)度?！?卡帕西表示。

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】，微信公眾號(hào)：【AIOrbit】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App