Kimi Researcher團(tuán)隊(duì)自述:Agent不是縫合怪,它就是模型

0 評(píng)論 1962 瀏覽 5 收藏 27 分鐘

月之暗面團(tuán)隊(duì)推出了首個(gè)AI Agent——Kimi Researcher,它并非簡單的搜索工具,而是一個(gè)能生成帶引用來源的深度研究報(bào)告的智能體。該Agent采用端到端強(qiáng)化學(xué)習(xí)訓(xùn)練,通過大量自主探索和試錯(cuò)來學(xué)習(xí)完成任務(wù)的策略,而非依賴人類預(yù)設(shè)的固定流程。在高難度基準(zhǔn)測(cè)試中,Kimi Researcher取得了優(yōu)異成績,展現(xiàn)了強(qiáng)大的研究能力。

月之暗面(Moonshot AI)有了它的首個(gè)AI Agent。

最近,Kimi Researcher(深度研究)開啟內(nèi)測(cè)。根據(jù)官方介紹,其定位并非一個(gè)簡單的“搜索工具”,而是一個(gè)能夠生成帶引用來源的深度研究報(bào)告的AI Agent。根據(jù)技術(shù)博客披露的數(shù)據(jù),Kimi Researcher在實(shí)際運(yùn)行中平均會(huì)搜索超過200個(gè)URL,運(yùn)行70多次搜索查詢,最終生成超過1萬字的深度報(bào)告。在Humanity’s Last Exam(HLE)這一高難度基準(zhǔn)測(cè)試中,其得分達(dá)到26.9%,創(chuàng)下了該測(cè)試的最高紀(jì)錄。

2024年以來,AI Agent領(lǐng)域呈現(xiàn)兩個(gè)明顯趨勢(shì):

一是從“外掛式”向“內(nèi)化式”轉(zhuǎn)變,即從依賴外部工具調(diào)用轉(zhuǎn)向提升模型本身的能力;

二是從規(guī)則驅(qū)動(dòng)向?qū)W習(xí)驅(qū)動(dòng)轉(zhuǎn)變,讓AI通過大規(guī)模訓(xùn)練自主發(fā)現(xiàn)解決問題的策略。

Kimi Researcher的推出,正是這一趨勢(shì)的具體體現(xiàn)。

在當(dāng)前AI領(lǐng)域,Agent被普遍認(rèn)為是通往通用人工智能(AGI)的重要方向。目前,行業(yè)內(nèi)構(gòu)建Agent的主流方法之一,是采用“工作流(Workflow)”模式。例如,Devin 和 Manus 都采用了明顯的任務(wù)拆分 + 預(yù)定義執(zhí)行流程架構(gòu):先由 Planner 制定多階段計(jì)劃,然后 Executor 調(diào)用工具一步步完成任務(wù),并根據(jù)反饋繼續(xù)調(diào)整。

這種方法通過提示詞工程(Prompt Engineering)和模塊化設(shè)計(jì),將大語言模型與各種外部工具進(jìn)行鏈接,其優(yōu)勢(shì)在于流程清晰、可控性強(qiáng)。但同時(shí),這種依賴人類預(yù)先設(shè)計(jì)流程的模式,在面對(duì)開放、復(fù)雜任務(wù)時(shí),也存在靈活性不足、難以泛化等挑戰(zhàn),這促使一些團(tuán)隊(duì)開始探索新的技術(shù)路徑。

Kimi Researcher所選擇的,就是另一條不同的技術(shù)路線:端到端的強(qiáng)化學(xué)習(xí)(End-to-End Reinforcement Learning, E2E RL)。這一方法的核心,是讓模型在一個(gè)模擬的環(huán)境中通過大量的自主探索和試錯(cuò)來學(xué)習(xí),目標(biāo)是讓模型自己“領(lǐng)悟”出完成任務(wù)的策略,而不是嚴(yán)格遵循一套由人類編寫的固定步驟。這種將能力“內(nèi)化”于模型自身的思路,與“工作流”模式下模型作為“調(diào)用者”的思路有顯著不同。

采用端到端強(qiáng)化學(xué)習(xí)訓(xùn)練Agent面臨諸多技術(shù)挑戰(zhàn),首先是環(huán)境的不穩(wěn)定性,網(wǎng)絡(luò)搜索結(jié)果會(huì)隨時(shí)間變化;其次是長序列決策問題,一個(gè)研究任務(wù)可能需要上百個(gè)步驟;最后是計(jì)算資源消耗,每次訓(xùn)練迭代都需要大量的“試錯(cuò)”過程。月之暗面通過部分展開(Partial Rollout)等技術(shù)創(chuàng)新,將訓(xùn)練效率提升了1.5倍。

值得注意的是,將E2E RL應(yīng)用于研究型Agent的探索并非孤例。OpenAI官方Deep Research系統(tǒng)卡中提到,該模型學(xué)習(xí)了包括瀏覽、使用Python工具進(jìn)行計(jì)算分析以及推理整合大量網(wǎng)站信息的能力。其訓(xùn)練方法與o1模型所使用的強(qiáng)化學(xué)習(xí)方法一脈相承。

根據(jù)OpenAI團(tuán)隊(duì)成員Isa Fulford 和 Josh Tobin在紅杉資本的播客《OpenAI’s Deep Research on Training AI Agents End-to-End》中的分享,Deep Research 并非通過手動(dòng)將模型和工具拼成 workflow,而是用端到端強(qiáng)化學(xué)習(xí)在瀏覽+推理任務(wù)上訓(xùn)練模型,讓其自主規(guī)劃、回退、調(diào)整策略,Deep Research使用了類似的端到端強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,由于Deep Research處理的任務(wù)往往沒有標(biāo)準(zhǔn)可驗(yàn)證的答案來提供獎(jiǎng)勵(lì)信號(hào),分析表明他們可能使用了LLM as Judge(大型語言模型作為評(píng)判者)來實(shí)施強(qiáng)化學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)機(jī)制是核心,而LLM as Judge是一種通過語言模型評(píng)估Agent行為并提供反饋的方法。這種方法特別適用于沒有明確獎(jiǎng)勵(lì)信號(hào)的復(fù)雜任務(wù),能夠優(yōu)化Agent的表現(xiàn)。

而當(dāng)不同團(tuán)隊(duì)不約而同地選擇相似的技術(shù)方向時(shí),他們各自積累的技術(shù)基礎(chǔ)可能會(huì)帶來最終產(chǎn)品的差異。例如,月之暗面以其長上下文(Long Context)技術(shù)為基礎(chǔ),而OpenAI則以其通用推理能力見長的模型系列為基礎(chǔ),這些不同的技術(shù)側(cè)重,可能會(huì)影響其Agent在處理任務(wù)時(shí)的具體表現(xiàn)和能力邊界。

在產(chǎn)品層面,Kimi Researcher將后端的技術(shù)以“雙報(bào)告系統(tǒng)”的形式呈現(xiàn)給用戶:一份是包含詳細(xì)文字和可溯源引用的深度報(bào)告,另一份則是動(dòng)態(tài)、可視化的網(wǎng)頁報(bào)告,后者通過思維導(dǎo)圖和圖表來提升信息獲取效率。此外,產(chǎn)品在交互上會(huì)嘗試主動(dòng)澄清用戶的模糊需求,以幫助定義清晰的問題。

要理解這一技術(shù)選擇背后的具體思考、挑戰(zhàn)與驚喜,來自其團(tuán)隊(duì)核心成員的第一人稱分享,提供了最直接的視角。

以下為月之暗面研究員馮一塵、毛紹光在知乎問題《月之暗面 Kimi 首個(gè) Agent 開啟內(nèi)測(cè),可生成易追溯的萬字報(bào)告,有哪些技術(shù)亮點(diǎn)?》下的回答,已獲得官方授權(quán)。

馮一塵回答

謝邀, 很高興和大家分享Kimi智能體(Agent)首個(gè)產(chǎn)品Kimi Researcher背后的一些技術(shù)思考。

Kimi-Researcher,是一個(gè)人類最后一場(chǎng)考試(Humanity’s Last Exam)(由非營利組織 Center for AI Safety(CAIS)與 Scale AI 于 2024 年聯(lián)合創(chuàng)建的大規(guī)模多學(xué)科閉合問答基準(zhǔn)測(cè)試,包含約 3000 道專家級(jí)高難度問題,涵蓋生物、化學(xué)、物理、數(shù)學(xué)、人文等領(lǐng)域,被視為檢驗(yàn) AI 系統(tǒng)是否具備真正專家級(jí)推理能力的終極挑戰(zhàn)。)達(dá)到SOTA(State-Of-The-Art,指當(dāng)前最優(yōu)/最先進(jìn)的成績) 26.9%、可生成萬字追溯報(bào)告的模型Agent,也是我們用端到端強(qiáng)化學(xué)習(xí)(RL)從0到1打磨出來的首個(gè)大模型Agent產(chǎn)品。我們構(gòu)建Kimi-Researcher的核心理念是:我們并非在搭建一個(gè)“搜索工具”,而是在訓(xùn)練一個(gè)真正會(huì)“做研究”的AI Agent。

為了實(shí)現(xiàn)這一點(diǎn),我們選擇了一條更難走、但我們堅(jiān)信是通往更強(qiáng)智能Agent的必經(jīng)之路:端到端的強(qiáng)化學(xué)習(xí) (End-to-End Reinforcement Learning)。

其實(shí)這個(gè)項(xiàng)目從去年上半年立項(xiàng),到10月份探索版發(fā)布,我們內(nèi)部也經(jīng)歷了不少認(rèn)知上的轉(zhuǎn)變。隨著thinking模型路線逐步清晰,我們意識(shí)到有兩個(gè)關(guān)鍵變量極其重要:

一是要做“能長思考”的Agent,二是要用端到端強(qiáng)化學(xué)習(xí)。為什么要做長思考模型,F(xiàn)lood(月之暗面研究員Flood Sung)在這個(gè)回答(https://www.zhihu.com/question/10114790245/answer/84028353434)已經(jīng)解釋得很詳細(xì),我就重點(diǎn)講講我們?yōu)槭裁磮?jiān)持端到端RL。

傳統(tǒng)Agent方法的局限

目前主要有兩種做法:

  1. Workflow(工作流,指預(yù)先定義的任務(wù)執(zhí)行步驟和邏輯。傳統(tǒng)Agent通過組合不同的工作流來完成任務(wù),如“搜索→分析→總結(jié)”的固定流程)拼裝:比如基于OpenAI/Claude去搭建(通過API調(diào)用底層模型,再通過預(yù)設(shè)規(guī)則組合各種工具)“多Agent+規(guī)劃器+子任務(wù)”,靠手動(dòng)Prompt和條件規(guī)則,把復(fù)雜任務(wù)拆分成小模塊。每換一次底層模型,整個(gè)workflow就要大改一遍,靈活性受限。而且基于OpenAI/Claude搭建的Agent在國內(nèi)也無法開放使用。
  2. SFT(模仿學(xué)習(xí)):人工標(biāo)注完整任務(wù)軌跡,Agent模仿這些軌跡,提升Agent整體的能力。但這里面收集數(shù)據(jù)很耗費(fèi)人力,難以Scale到大量的數(shù)據(jù)。

這些方案本質(zhì)都受限于“人能設(shè)計(jì)/人能標(biāo)注”的上限,不符合我們相信的scaling。

端到端強(qiáng)化學(xué)習(xí)(RL)的優(yōu)勢(shì):讓模型自己“進(jìn)化”

在強(qiáng)化學(xué)習(xí)的設(shè)定下,我們?yōu)锳gent建立了一個(gè)虛擬的環(huán)境,讓它像一個(gè)真正的“科研”新手一樣,通過海量的自主探索、試錯(cuò)、并從“做對(duì)了”的成功經(jīng)驗(yàn)中學(xué)習(xí),最終“進(jìn)化”出強(qiáng)大的研究能力。對(duì)比傳統(tǒng)方法的好處:

  • 掙脫“固定流程”的束縛,更靈活通用。RL Agent的行為不是被規(guī)則寫死的,而是根據(jù)當(dāng)前任務(wù)動(dòng)態(tài)生成的。這讓它在面對(duì)聞所未聞的復(fù)雜問題時(shí),有能力探索出創(chuàng)造性的解決方案。我們升級(jí)底層模型時(shí),也無需重構(gòu)整個(gè)Agent體系。
  • 能力上限更高,用“數(shù)據(jù)”而非“設(shè)計(jì)”來驅(qū)動(dòng)增長 當(dāng)我們發(fā)現(xiàn)Agent在某類問題上表現(xiàn)不佳時(shí),我們的解決方案不是去絞盡腦汁地修改Prompt或Workflow,而是將這類問題加入到訓(xùn)練數(shù)據(jù)中,通過增加“訓(xùn)練題量”和算力,讓模型自己學(xué)會(huì)如何解決。前者的天花板是“人的智慧”,后者的天花板是“數(shù)據(jù)和算力”——我們堅(jiān)信后者要高得多。
  • 能Scale。相比SFT依賴人類標(biāo)注,RL路線可以讓Agent在環(huán)境中不斷探索,只要我們能準(zhǔn)確判斷任務(wù)是否成功(即提供準(zhǔn)確的獎(jiǎng)勵(lì)信號(hào)),加大算力去Rollout(在強(qiáng)化學(xué)習(xí)中,指讓Agent在環(huán)境中執(zhí)行一系列動(dòng)作并收集經(jīng)驗(yàn)數(shù)據(jù)的過程,對(duì)于長任務(wù),Rollout會(huì)消耗大量計(jì)算資源和時(shí)間),就能獲得源源不斷的、高質(zhì)量的on-policy訓(xùn)練數(shù)據(jù)(指在當(dāng)前策略下收集的數(shù)據(jù),這些數(shù)據(jù)更能反映模型的實(shí)際行為模式,訓(xùn)練效果優(yōu)于使用歷史數(shù)據(jù)或其他模型產(chǎn)生的數(shù)據(jù)),讓模型持續(xù)不斷地自我迭代和提升。(感興趣的同學(xué)可以去讀下The Bitter Lesson)(由強(qiáng)化學(xué)習(xí)之父Richard Sutton撰寫的著名文章,核心觀點(diǎn)是:在AI研究中,依賴人類知識(shí)的復(fù)雜方法最終會(huì)被那些能更好利用大規(guī)模計(jì)算的通用方法所超越。)

RL的效果和“涌現(xiàn)”的驚喜

這條路雖然難,但端到端強(qiáng)化學(xué)習(xí)給我?guī)砹撕芏囿@喜。

在Humanity’s Last Exam(人類的最后一場(chǎng)考試)這個(gè)榜單上,我們的Agent模型得分從最初的8.6%躍升至26.9%,這一巨大增長幾乎完全歸功于強(qiáng)化學(xué)習(xí)。這一成績也走到了世界前沿,相比OpenAI Deep Research團(tuán)隊(duì)在相關(guān)工作上從20分左右 (o3) 提升到26.6分的成果,進(jìn)一步證明了強(qiáng)化學(xué)習(xí)在Agent訓(xùn)練上的巨大價(jià)值。

在HLE這個(gè)評(píng)測(cè)集上,我們的pass@4(pass@k是評(píng)估AI模型的常用指標(biāo),表示在k次嘗試中至少有一次成功的概率 )指標(biāo)達(dá)到了40.17%,這意味著即使面對(duì)非常困難的問題,Agent 在4次自主嘗試內(nèi),就有超過四成的概率能成功解決。對(duì)于訓(xùn)練而言,只要Agent能探索到正確的路徑,我們就有機(jī)會(huì)把它轉(zhuǎn)化為模型的內(nèi)在能力。

更有意思的是,我們觀察到了很多智能的“涌現(xiàn)”:

  • 模型在已經(jīng)很快找到初步答案后,并不會(huì)立即停止,而是會(huì)主動(dòng)進(jìn)行多輪搜索,從不同來源的信息進(jìn)行交叉驗(yàn)證,以確保結(jié)論的準(zhǔn)確性。
  • 我們甚至觀察到,模型在遇到一個(gè)極度專業(yè)的問題、現(xiàn)有信息無法解答時(shí),它會(huì)“思考”并產(chǎn)生一個(gè)action——“給這篇論文的作者發(fā)郵件尋求解答”。(當(dāng)然,出于安全原因我們攔截了這種action)

這些行為都不是我們預(yù)先設(shè)計(jì)的,而是模型在追求“完成任務(wù)”這個(gè)最終目標(biāo)的過程中,自己學(xué)會(huì)的有效策略。這讓我們看到了通往更通用智能的希望。

Kimi-Researcher能做什么

它能幫你對(duì)一個(gè)陌生領(lǐng)域快速上手,生成一份帶引用的深度報(bào)告;能幫你做論文研讀和文獻(xiàn)綜述;甚至能成為你的科研Copilot。我們自己也常用 Kimi-Researcher 做信息搜集與分析。

場(chǎng)景1: 盡調(diào)與搜索

我們自己就用Kimi-Researcher去調(diào)研“有哪些衡量模型推理能力、且SOTA分?jǐn)?shù)在20分以內(nèi)的benchmark”,它成功找到了幾個(gè)我們團(tuán)隊(duì)尚未關(guān)注到的最新的benchmark,非常有價(jià)值。

Kimi 除了找到了AGI-2,HLE,OlympiadBench,還找到FrontierMath和6月1日新發(fā)布的Seal QA。

Prompt:Survey all advanced benchmarks that all frontier LLM scores lower than 20%, focus on text. example like HLE

場(chǎng)景2:知識(shí)體系梳理

Kimi researcher 可以幫你理解復(fù)雜知識(shí)結(jié)構(gòu),比如下面這個(gè)案例,Kimi 依時(shí)間線梳理關(guān)鍵事件、制度差異及影響因素,幫助快速把握三大體系的邏輯脈絡(luò),為課堂講解和研究寫作提供了結(jié)構(gòu)化材料。

Prompt:分析人類歷史上三大貨幣體系的演變:金本位、布雷頓森林體系、浮動(dòng)匯率制度

場(chǎng)景3: Make a 101

可以快速了解一個(gè)陌生領(lǐng)域,比如隱私法,有一個(gè)overview:

Prompt:I’m an in-house lawyer at a Chinese robotic company, and the management is considering expanding into Southeast Asian countries. However, I’m not quite confident about the data and privacy requirements in those countries. Could you help me list the names of the data and privacy laws of Southeast Asian countries (on a country-by-country basis), and preferably provide a brief summary and key takeaways of those laws?

Kimi 在十幾分鐘內(nèi)生成了一份信息全面、結(jié)構(gòu)清晰的萬字報(bào)告,內(nèi)容涵蓋10個(gè)國家的關(guān)鍵法規(guī)和政策信息、以及核心條款的對(duì)比。

關(guān)鍵數(shù)據(jù)點(diǎn)在可交互報(bào)告中一目了然。哪國更寬松、哪國要求更嚴(yán),不再需要逐段比對(duì)文本。

場(chǎng)景4: 陪你探索你的熱愛

甚至能基于虛擬漫畫世界中的比賽數(shù)據(jù)分析人物角色的技術(shù)特點(diǎn):

Prompt:研究一下灌籃高手的各個(gè)球隊(duì)中主力隊(duì)員在籃球技術(shù)面板的實(shí)際能力,給出球探分析報(bào)告

場(chǎng)景5: 幫你挑選參數(shù)復(fù)雜、需求個(gè)性化的商品

Prompt:我最近在考慮入手一個(gè)便攜榨汁杯,主要是想早上做早餐的時(shí)候快速打一杯果汁或代餐奶昔。但我發(fā)現(xiàn)現(xiàn)在市面上這種榨汁杯五花八門,價(jià)格差異也很大,有的只要五六十元,有的能賣到三四百,甚至看到一些小眾品牌比大牌還貴。功能介紹上也都差不多,比如“磁吸充電”“一鍵啟動(dòng)”“輕音高速電機(jī)”等等。
請(qǐng)你從一個(gè)行業(yè)內(nèi)人士的角度,幫我講講:為什么便攜榨汁杯在相似功能下價(jià)格差這么多?
哪些宣傳功能是實(shí)用的,哪些只是噱頭?
在一百元左右的預(yù)算內(nèi),有哪些值得推薦、質(zhì)量靠譜的款式?
我希望你能分析得詳細(xì)一些,幫我少踩點(diǎn)坑。

也歡迎大家分享更多使用案例,以及建議??偠灾?,Kimi Researcher不只是一個(gè)新功能,更是我們?cè)贏gent技術(shù)路線上的一次堅(jiān)定探索和階段性成果。我們相信,通過強(qiáng)化學(xué)習(xí),未來的AI Agent將不再僅僅是“工具”,而是能與人類深度協(xié)作的“伙伴”。

產(chǎn)品后續(xù)還會(huì)持續(xù)更新和開源,非常歡迎大家體驗(yàn)和關(guān)注我們的技術(shù)博客(https://moonshotai.github.io/Kimi-Researcher/)。

毛紹光回答

謝邀,非常開心能參與到Kimi-Researcher這個(gè)工作,很激動(dòng)看到這個(gè)模型/產(chǎn)品的落地。作為一個(gè)Agent方向的研究者,這段工作對(duì)我個(gè)人是一段非常精彩難忘的旅程。借此機(jī)會(huì)分享一些對(duì)Agent方向發(fā)展的思考和Kimi-Researcher工作中的一些思考。

如我們這Tech Blog中提到,Kimi-Researcher是一個(gè)完全依靠RL訓(xùn)練的Agent 模型(RL即Reinforcement Learning強(qiáng)化學(xué)習(xí),這是AI領(lǐng)域的一種訓(xùn)練方法,通過試錯(cuò)和獎(jiǎng)勵(lì)機(jī)制讓模型學(xué)習(xí)最優(yōu)策略),這件事情走通是一件很酷的事情。

Agent在ChatGPT之后,這個(gè)概念再次復(fù)興,在前司也參與過一些和Agent相關(guān)的早期工作(2019年加入微軟,通用人工智能組資深研發(fā)工程師,主要研究方向?yàn)榛谡Z言模型的推理,AI智能體及多智能體系統(tǒng)。開發(fā)的相關(guān)技術(shù)被應(yīng)用于微軟Microsoft 365 Word等產(chǎn)品),包括最早在23年初利用Prompt把ChatGPT鏈接API擴(kuò)展模型的能力和MultiAgent的一些工作。

早期Agent領(lǐng)域有一些非常不錯(cuò)的工作,隨著搭了越來越多的框架和應(yīng)用demo后(LangChain、AutoGPT等),這個(gè)概念越來越火。再后來,Agent進(jìn)入到了一個(gè)“有些奇怪”的方向,在一段時(shí)間內(nèi),做Agent的人和做模型的人分道揚(yáng)鑣,似乎模型層和應(yīng)用層被劃開了,Agent變成了針對(duì)模型層面的Prompt Engineering和工程側(cè)外接不同模塊,做Agent的工作逐漸趨同,工作差異性小,無外乎寫Prompt調(diào)用工具,定Workflow等等,看不到特別讓人興奮的論文 or 工作。和同行的一些研究員們聊的時(shí)候,我們也會(huì)感到這個(gè)方向越來越?jīng)]意思了,有點(diǎn)加速衰亡的感覺。

大概在去年下半年開始,我開始認(rèn)為Agent應(yīng)該是一個(gè)模型本身,而不只是Model + Workflow。在我看來,Workflow雖然擴(kuò)充了模型的邊界,但是隨著任務(wù)的復(fù)雜程度提高,要定義的workflow的復(fù)雜程度指數(shù)上升,而在Workflow Agent運(yùn)行過程中,這種Workflow Agent很難產(chǎn)生泛化,也比較難對(duì)沒有處理的任務(wù)產(chǎn)生通用性,這會(huì)使得Workflow Agent變成打補(bǔ)丁,遇到一個(gè)問題,解決一個(gè)問題。

因此我們面臨了兩個(gè)選擇,第一,等基礎(chǔ)模型變得更強(qiáng),基于API搭Workflow,穩(wěn)定得拿搭Workflow的增益,第二,讓Agent的能力進(jìn)入到模型本身,從Reasoner(具備推理能力的語言模型)走到Agent,Agent自己本身就是模型。

機(jī)緣巧合,在今年年初加入了Kimi,來到這里后發(fā)現(xiàn)大家的vision非常一致,就是提高模型的智能,提高模型的邊界,或者說就是要做AGI。自然我們堅(jiān)定地選擇了第二條路,訓(xùn)一個(gè)Agent Model會(huì)面臨很多的挑戰(zhàn),盡管RL在訓(xùn)練Reasoning Model時(shí)展現(xiàn)出驚人的效果,但Agent RL還是面臨許多不一樣的挑戰(zhàn),比如說Agent是工作在真實(shí)環(huán)境中的,他面臨的環(huán)境是動(dòng)態(tài)的,比如環(huán)境會(huì)時(shí)常發(fā)生一些抖動(dòng),同一個(gè)工具在不同的情況下會(huì)產(chǎn)生不同的調(diào)用結(jié)果,再比如Agent的任務(wù)是long-horizon的(指需要模型進(jìn)行多步驟、長序列的推理和決策才能完成的復(fù)雜任務(wù),Agent需要完成的研究任務(wù)可能包含數(shù)十甚至上百個(gè)步驟,每一步都會(huì)影響后續(xù)決策),這對(duì)于模型本身的context長度管理,rollout的效率以及訓(xùn)練的穩(wěn)定性都帶來了很多的挑戰(zhàn),再比如如何找到可以激發(fā)模型Agent能力的訓(xùn)練數(shù)據(jù),以及每條成功的Trajectory(在強(qiáng)化學(xué)習(xí)語境中,指Agent從初始狀態(tài)到終止?fàn)顟B(tài)所經(jīng)歷的一系列狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的完整序列)都是極長的context,怎樣有效的學(xué)習(xí)。一些具體的細(xì)節(jié)我們寫在了技術(shù)blog(https://http://moonshotai.github.io/Kimi-Researcher/)中,未來也會(huì)有technical report分享更多details。

AI領(lǐng)域日新月異,每天都會(huì)有新的新聞,四個(gè)月前剛加入Moonshot,到今天,有種很久的感覺:)

這段旅程的最大感受是 認(rèn)知+堅(jiān)持,在前期用充分的實(shí)驗(yàn)?zāi)谜J(rèn)知,確定好方向,要堅(jiān)持做下去,給訓(xùn)練一些耐心,也給自己一些沉淀。在Kimi的工作是非常有爽感,模型/產(chǎn)品/開發(fā)/數(shù)據(jù)的溝通交互非常高效,認(rèn)知、數(shù)據(jù)的共享也加快了我們的項(xiàng)目進(jìn)度,身邊的同事對(duì)AI充滿信心又才華橫溢。

Kimi-Researcher從6.20起已逐步開始向大家開放,但礙于服務(wù)的穩(wěn)定性,我們需要一段時(shí)間逐步推向更大的用戶群體,希望Kimi-Researcher可以給大家?guī)砩疃葓?bào)告和好的體驗(yàn)。 Kimi-Researcher只是這段旅程的一個(gè)開始,他驗(yàn)證了我們可以通過RL的形式將Agent需要的能力內(nèi)化進(jìn)模型本身,未來我們會(huì)繼續(xù)增加Task和工具,讓模型進(jìn)一步在探索中泛化,General Agent就在不遠(yuǎn)的“明天”!

本文看法僅代表個(gè)人觀點(diǎn),與Moonshot AI不構(gòu)成直接關(guān)系:)

作者:月之暗面研究員馮一塵、毛紹光
注釋、編輯:周一笑

本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號(hào):【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!