AlphaEvolve:陶哲軒背書的知識發(fā)現(xiàn) Agent,AI 正進(jìn)入自我進(jìn)化范式
DeepMind 發(fā)布 AlphaEvolve:用進(jìn)化算法+自研 evaluator,讓 AI 像生物一樣自我迭代。陶哲軒一周內(nèi)兩破 18 年紀(jì)錄,谷歌訓(xùn)練 infra 提速 23%。關(guān)鍵不在模型多強(qiáng),而在人類如何造“裁判”——一旦 evaluator 夠準(zhǔn),AI 就能無限逼近最優(yōu)解。
DeepMind 在今年 5 月發(fā)布了 AlphaEvolve 白皮書,人類數(shù)學(xué)家通過與 AlphaEvolve 合作,在一周內(nèi)兩次刷新了 18 年未破的數(shù)學(xué)紀(jì)錄,甚至菲爾茲獎得主陶哲軒也直接參與了 AlphaEvolve 的數(shù)學(xué)應(yīng)用探索工作。
此外,AlphaEvolve 還在 Google 內(nèi)部解決了許多實際問題,比如它將 training infra 中的關(guān)鍵計算模塊的運行速度提升了 23%,這一突破性進(jìn)展也標(biāo)志著 AI 正在進(jìn)入自我改進(jìn)范式。
AlphaEvolve 由 FunSearch 演化而來,核心定位是一個基于 LLM 進(jìn)化算法和 evaluator 的通用算法發(fā)現(xiàn)與優(yōu)化平臺,它不僅能生成代碼,還能自主評估這些代碼的表現(xiàn),然后根據(jù)評估結(jié)果調(diào)整策略、迭代生成更好的方案,本質(zhì)上模擬了”算法自然進(jìn)化”的過程。
本文是我們結(jié)合 AlphaEvolve 的技術(shù)博客、核心開發(fā)者訪談的深度編譯,詳細(xì)解讀了 AlphaEvolve 的運行機(jī)制以及對未來的影響:
- AlphaEvolve真正的突破在于它能夠持續(xù)進(jìn)行高強(qiáng)度、長時間的探索與優(yōu)化,從而能真正挖掘出在高難度問題中極具價值的發(fā)現(xiàn);
- AlphaEvolve團(tuán)隊認(rèn)為,讓AI實現(xiàn)更深層次、更廣泛的自我改進(jìn)是完全可行的,核心在于能否構(gòu)建出有效的evaluator,evaluator的質(zhì)量將成為AI解鎖更高級的自我改進(jìn)能力的關(guān)鍵;
- 未來,人類的價值將在目標(biāo)設(shè)定和規(guī)則制定中體現(xiàn)得更加深刻,比如在AlphaEvolve中,衡量解決方案優(yōu)劣的關(guān)鍵機(jī)制,即evaluator,將是人類智慧的體現(xiàn)。
01.AlphaEvolve 是什么?
AlphaEvolve 的核心在于進(jìn)化算法
今年 5 月,Google 發(fā)布了最新的 AI 系統(tǒng) AlphaEvolve,它結(jié)合了 Gemini 模型的創(chuàng)造性問題解決能力與自動化的 evaluator,具備發(fā)現(xiàn)和設(shè)計全新算法的能力。
AlphaEvolve 白皮書
值得注意的是,AlphaEvolve 的核心在于進(jìn)化算法,通過不斷的迭代與優(yōu)化,逐步開發(fā)出性能更好的程序,從而攻克包括算法在內(nèi)的不同領(lǐng)域的難題。
進(jìn)化算法(evolutionary algorithm)是一類受生物進(jìn)化過程啟發(fā)的優(yōu)化和搜索算法,通過模擬“適者生存”的原理,在一群候選解(稱為“種群”)中,迭代地尋找問題的最優(yōu)解或近似最優(yōu)解。
Evaluator 是一種自動化系統(tǒng),用于對 AI 的輸出信息或行為進(jìn)行質(zhì)量評估與反饋,幫助 AI 判斷“什么是好的”,從而實現(xiàn)自我優(yōu)化和自我改進(jìn)。
目前 AlphaEvolve 不僅成功提升了 Google 數(shù)據(jù)中心的運行效率,還優(yōu)化了芯片設(shè)計流程,加速了 AI 模型訓(xùn)練,AlphaEvolve 自身的模型訓(xùn)練進(jìn)程也因此加快。此外,AlphaEvolve 還在如何設(shè)計更快的矩陣乘法算法和為開放性數(shù)學(xué)難題尋找全新解法等問題上取得了突破,顯示出了在多個領(lǐng)域的應(yīng)用潛力。
AlphaEvolve 整體架構(gòu)
一直以來,如何讓 AI 學(xué)會自主發(fā)現(xiàn)新算法都是一個關(guān)鍵課題,因為算法早已融入了我們生活的方方面面。這一探索的源頭可追溯至 AlphaGo。當(dāng)時 AlphaGo 擊敗了圍棋世界冠軍,依靠的是它能很快地推演棋盤上所有可能的變化,并找出最好的落子方法。這一突破讓許多圍棋專家和科學(xué)家都感到很意外,因為他們曾認(rèn)為 AI 在圍棋上超越人類還需要很長時間。
但 AlphaGo 有力地證明了,大規(guī)模神經(jīng)網(wǎng)絡(luò)系統(tǒng)能夠在巨大的搜索空間中進(jìn)行高效地推理和探索,并能為特定領(lǐng)域帶來意想不到的全新見解。比如在圍棋領(lǐng)域,AI 就下出了著名的第 37 手,這是由 AI 發(fā)現(xiàn)的極具創(chuàng)造性的新招法。
第 37 手(move 37) 指的是 AlphaGo 對戰(zhàn)李世石時下出的震驚棋界的五路碰,以顛覆性的選點著稱。
Google 前員工對 AlphaEvolve 的評價
沿著這個思路,如果把 agent 在圍棋中高效搜索的理念遷移到算法空間,用來直接探索算法本身,會發(fā)生什么?
正是在這一設(shè)想上的探索,促使了 AlphaTensor 的誕生。AlphaTensor 最初的切入點是一個極其重要、無處不在的基礎(chǔ)算子:矩陣乘法,矩陣乘法在計算機(jī)科學(xué)、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)以及 AI 等不同領(lǐng)域都發(fā)揮著重要作用。
矩陣乘法是一個非常基礎(chǔ)的運算方法,人們曾長期認(rèn)為它的時間復(fù)雜度是立方階。1969 年,德國數(shù)學(xué)家 Volker Strassen 提出了一種巧妙的矩陣乘法算法,首次降低了復(fù)雜度。2022 年,AlphaTensor 通過強(qiáng)化學(xué)習(xí),在高維搜索空間中發(fā)現(xiàn)了之前沒有發(fā)現(xiàn)的高效算法。
2022 年 AlphaTensor 發(fā)布,這是一個基于 RL 的 AI 系統(tǒng),專門用于解決矩陣乘法等具體的基礎(chǔ)計算問題。它首次證明了,AI agent 可以自主發(fā)現(xiàn)比人類現(xiàn)有成果更優(yōu)、結(jié)構(gòu)完全不同的新算法。因此,AlphaTensor 成為了首個有力支持“AI 有能力在算法發(fā)現(xiàn)上超越人類”這一觀點的系統(tǒng)。
AlphaTensor 發(fā)現(xiàn)新算法
不過,AlphaTensor 是一套專門為矩陣乘法優(yōu)化的系統(tǒng),只能在一個特定、有限的操作空間中進(jìn)行搜索,因此,如何讓 AI agent 能在更廣泛的領(lǐng)域中繼續(xù)發(fā)揮“超人類”的能力,就成了急需解決的問題。這也正是 FunSearch 誕生的契機(jī)。
FunSearch 最初發(fā)布于 2023 年 12 月,是一個將 LLM 和 evaluator 結(jié)合起來的 agent,evaluator 允許 LLM 提出新的猜想或產(chǎn)生解決問題的新想法,在這種特殊情況下,LLM 的幻覺甚至都是有幫助的,因為一些幻覺可能是之前人類沒有想到的新見解。
雖然當(dāng)時模型能力有限、方法也比較初級,但 FunSearch 卻意外地找到了長期以來數(shù)學(xué)家都沒有發(fā)現(xiàn)的全新算法,也就是說 FunSearch 首次證明了 AI 能夠提出全新的解決方案,不過它仍需要人類先設(shè)定一個算法模板,模型才能在這個框架內(nèi)搜索。
FunSearch 運行流程
而 AlphaEvolve 本質(zhì)上正是 FunSearch 進(jìn)一步的演化。因為 AlphaEvolve 去除了對算法模板的依賴,具備更強(qiáng)的自主性。它不僅能探索大規(guī)模、復(fù)雜的算法結(jié)構(gòu),還能在更少的函數(shù)調(diào)用下,通過更高效的搜索策略,更快地發(fā)現(xiàn)高質(zhì)量的新算法,能力遠(yuǎn)超最初的 FunSearch。
為什么人類沒有發(fā)現(xiàn) AI 提出的更優(yōu)解法?
AI 展現(xiàn)出的能力正在幫助工程師打破常規(guī)思維,發(fā)現(xiàn)全新解決方案。與此同時,AI 背后的機(jī)制也值得我們思考,尤其是當(dāng) AI 能在一些具有重大意義的問題上(如提升矩陣乘法效率)提出更優(yōu)解法的時候:為什么這些更好的方法,過去一直沒被人類發(fā)現(xiàn)?
這個問題可以從問題本身的復(fù)雜性和 AI 整體發(fā)展歷程這兩個角度來解讀。
在問題的復(fù)雜性上,以前文提到的 Volker Strassen 在 50 多年前提出的矩陣乘法算法為例,這個算法結(jié)構(gòu)非常精巧,但僅適用于 2×2 矩陣。當(dāng)問題規(guī)模擴(kuò)大時,搜索空間將變得異常龐大,算法構(gòu)造方式也越發(fā)不直觀,問題的解法幾乎不可能被偶然發(fā)現(xiàn),也不是人類自然思維的產(chǎn)物。
在 AI 整體發(fā)展歷程上,AlphaEvolve 所攻克的問題,不論是數(shù)學(xué)理論中的矩陣乘法,還是實際工程中的關(guān)鍵系統(tǒng)優(yōu)化,一直以來都吸引著大量頂尖人類研究者的深入研究與持續(xù)改進(jìn)。比如矩陣乘法是計算科學(xué)領(lǐng)域公認(rèn)的難題,人類已經(jīng)研究了幾十年;而在 Google 內(nèi)部,那些關(guān)鍵 infra 也早已在工程團(tuán)隊的多輪打磨下達(dá)到高度優(yōu)化的狀態(tài)。
因此,AlphaEvolve 能在這些已被人類深度優(yōu)化過的領(lǐng)域取得新突破,這本身就說明了兩個關(guān)鍵點:
1. 這確實是真正意義上的全新突破,不然的話,這些優(yōu)化早就被人類實現(xiàn)了;
2. 這個突破的實現(xiàn)難度極高,即使有眾多優(yōu)秀人類研究者的長期努力,也未能攻克。
AlphaEvolve 如何幫助 Google 構(gòu)建更高效的數(shù)字生態(tài)系統(tǒng)
AlphaEvolve 運行機(jī)制類似自然界的進(jìn)化過程
然而,AlphaEvolve 在算法優(yōu)化上的突破,并不意味著人類在矩陣乘法或數(shù)據(jù)中心優(yōu)化等關(guān)鍵問題上的研究就失去了意義,相反,這一成果恰恰直觀展示了 AI 是如何推動算法領(lǐng)域的進(jìn)步的。
以優(yōu)化數(shù)據(jù)中心調(diào)度(data center scheduling)為例,我們可以看到 AlphaEvolve 是如何從初始代碼開始逐步優(yōu)化、最終演進(jìn)為一個可以節(jié)省數(shù)百萬美元電費的解決方案的。
整個實現(xiàn)過程的核心在于用戶對問題的精準(zhǔn)定義。使用 AlphaEvolve 的關(guān)鍵前提是用戶必須提供一個被稱為 evaluator 的核心組件。這個組件扮演著重要的“裁判”角色:對于系統(tǒng)生成的每個候選解決方案,它都能進(jìn)行客觀、量化的效能評估。簡單來說,用戶通過 evaluator 定義了什么是優(yōu)秀的解決方案。
左圖:AlphaEvolve 針對 Google 的任務(wù)負(fù)載和資源容量定制的函數(shù);
右圖:評估函數(shù)的可視化結(jié)果,黃色區(qū)域表示評分較高,紫色區(qū)域表示評分較低
在數(shù)據(jù)中心調(diào)度優(yōu)化的場景中,evaluator 通常是一個已經(jīng)存在的調(diào)度模擬器。這個模擬器能夠接收不同的調(diào)度算法,模擬它們在實際環(huán)境中的運行效果,并輸出關(guān)鍵性能指標(biāo)。正是這種評估能力構(gòu)成了創(chuàng)新的基礎(chǔ),因為任何實質(zhì)性的改進(jìn)都需要依賴可靠的手段來驗證真實效果。
一旦用戶通過 evaluator 明確了問題邊界,AlphaEvolve 便能智能地推動解決方案的生成。它既可以根據(jù)用戶的指令,從零開始進(jìn)行完全自主且富有創(chuàng)造性的探索,提出全新的解法;也可以在用戶提供的、經(jīng)過長期優(yōu)化的初始解決方案的基礎(chǔ)上,進(jìn)一步迭代優(yōu)化。
數(shù)據(jù)中心調(diào)度案例采用的正是后一種策略,將現(xiàn)有、成熟的調(diào)度算法作為優(yōu)化的起點。核心工作機(jī)制在于高層次的協(xié)同融合:LLM 負(fù)責(zé)發(fā)揮創(chuàng)造力,提出創(chuàng)新性的改進(jìn)方案,用戶提供的 evaluator 則作為嚴(yán)格的篩選標(biāo)準(zhǔn),精確評估每個解決方案的效果,剔除無效方案。整個過程被嵌入到一個進(jìn)化算法的框架中,實現(xiàn)持續(xù)優(yōu)化與迭代。
AlphaEvolve 的目標(biāo)就是能夠全面探索解法空間,避免陷入特定類型的局部最優(yōu),同時保留潛在方案的多樣性。更關(guān)鍵的是,它能夠在持續(xù)優(yōu)化過程中整合不同方案中的關(guān)鍵思想,實現(xiàn)解法的漸進(jìn)演化,最終生成足以支撐關(guān)鍵 infra 部署的高性能算法。
AlphaEvolve 運作流程
總的來說,AlphaEvolve 的運行機(jī)制類似自然界的進(jìn)化過程。生物進(jìn)化過程的本質(zhì)就是在繼承和變異中持續(xù)趨近于一個更優(yōu)狀態(tài)。
對于 AlphaEvolve 來說,它在每一輪迭代中,都會基于前一代的最優(yōu)個體,即當(dāng)前最佳解決方案,進(jìn)行優(yōu)化。具體來說,AlphaEvolve 會通過重組當(dāng)前最佳方案里的要素,或是引入全新的、具有突破性的構(gòu)想,來生成性能更強(qiáng)大的下一代解決方案。因此,每一輪迭代都會推動解決方案整體性能的代際躍遷,使結(jié)果更加接近全局最優(yōu)的那個目標(biāo)。
但 AlphaEvolve 這種運作規(guī)模與迭代特性需要解決兩個核心問題:
1. AI 如何適應(yīng)不同規(guī)模與難度的問題;
2. AI 迭代次數(shù)應(yīng)該如何預(yù)測。
而這兩個問題也正是 AlphaEvolve 的優(yōu)勢所在。
首先,AlphaEvolve 有強(qiáng)大的規(guī)模適應(yīng)性。AlphaEvolve 能夠根據(jù)問題的內(nèi)在難度,智能地調(diào)整自身探索的深度與廣度。當(dāng)問題本身相對簡單,甚至難度可能被高估了的時候,AlphaEvolve 往往能以極快的速度收斂,幾乎瞬間就能給出可行的解決方案。
但當(dāng)挑戰(zhàn)那些公認(rèn)的難題,比如困擾科學(xué)界數(shù)十年的開放性問題,或涉及在 Google 核心業(yè)務(wù)上實際應(yīng)用的算法優(yōu)化時,AlphaEvolve 會投入更長的計算時間,進(jìn)行更深入的空間探索與更復(fù)雜的思路融合。雖然“運行時間越長,結(jié)果越好”是一個常識,但在實際應(yīng)用中,打造一個能夠在長時間運行過程中保持穩(wěn)定、高效,并能持續(xù)取得進(jìn)展的自動化 agent,其實是一項極具挑戰(zhàn)性的技術(shù)任務(wù)。
AlphaEvolve 真正的突破也就在于它能夠持續(xù)進(jìn)行這種高強(qiáng)度、長時間的探索與優(yōu)化,從而真正產(chǎn)生在高難度問題中極具價值的發(fā)現(xiàn)。
此外,預(yù)測達(dá)成目標(biāo)所需的具體迭代次數(shù)也是一個極大的挑戰(zhàn)。有時,一個看似簡單的問題可能實際上非常復(fù)雜,需要耗費大量計算資源;而另一些看似困難的問題,卻可能存在意想不到的捷徑。AlphaEvolve 的價值在于,它不需要用戶對迭代次數(shù)有精確預(yù)判,用戶只需持續(xù)運行系統(tǒng),AlphaEvolve 就會驅(qū)動解決方案不斷優(yōu)化。
例如,在優(yōu)化 Google 的 computational infra 的過程中,AlphaEvolve 就是系統(tǒng)性地識別并挖掘了潛在的改進(jìn)空間。這表明,AlphaEvolve 不僅能提升單一模塊的性能,更具備在整個技術(shù)棧中實現(xiàn)高價值突破的潛力。
為此,開發(fā)團(tuán)隊著重拓展了 AlphaEvolve 在多個技術(shù)層級的應(yīng)用,并在發(fā)布的白皮書中展示了 AlphaEvolve 在提升數(shù)據(jù)中心效率、優(yōu)化硬件設(shè)計、增強(qiáng)關(guān)鍵軟件性能等方面的實際成果。這也進(jìn)一步體現(xiàn)了開發(fā)團(tuán)隊的核心理念:AlphaEvolve 是一個真正通用的工具,具備跨越整個技術(shù)棧的廣泛適用性。
AlphaEvolve 白皮書
目前,AlphaEvolve 已經(jīng)在 Google 內(nèi)部被用于解決多種實際問題,但還有大量復(fù)雜的計算難題有待攻克。開發(fā)團(tuán)隊認(rèn)為未來會有越來越多依靠 AlphaEvolve 實現(xiàn)的成果涌現(xiàn)出來。
02.AlphaEvolve 的關(guān)鍵組件是 evaluator
引入強(qiáng)大的 evaluator 作為質(zhì)檢官
當(dāng)前,越來越多的普通開發(fā)者開始使用 coding agent,但有一個待解決的問題是,這些 agent 在面對相對瑣碎的問題時,常常會“迷失方向”,難以自主找到可靠方案。而 AlphaEvolve 的出現(xiàn),為解決這一難題提供了一個重要思路。
通常,人們通過自然語言向 agent 下達(dá)指令,例如要求 agent 嘗試用 X 完成 Y,但這往往只是部分信息,而非完整描述,因此 agent 據(jù)此生成的代碼結(jié)果可能碰巧正確,也可能存在錯誤,關(guān)鍵在于用戶如何判斷結(jié)果是否正確。
AlphaEvolve 能發(fā)揮出很大作用的關(guān)鍵就在于引入了一個強(qiáng)大的 evaluator 來充當(dāng)嚴(yán)格的質(zhì)量檢測官。
首先,AlphaEvolve 在探索過程中會不斷涌現(xiàn)出創(chuàng)造性的想法,這難免產(chǎn)生錯誤,即幻覺,由于人們無法預(yù)判結(jié)果的正誤,evaluator 在這個過程中就顯得尤為關(guān)鍵。對于每個新想法,AI 會進(jìn)行以下驗證:
- 詳盡測試:在模擬器或海量實例上運行,檢驗結(jié)論的適配性;
- 全局驗證:確保方案在整個目標(biāo)問題上有效,而非僅適用于局部。
接下來,AI 會對生成的方案進(jìn)行智能篩選,這正是 AlphaEvolve 的巧妙之處。AlphaEvolve 能夠提出多樣化的解決方案,evaluator 會嚴(yán)格篩選這些方案,淘汰無效或低效的方案,保留有創(chuàng)意的方案。隨后,AI 會進(jìn)一步整合這些優(yōu)質(zhì)方案中的核心思路,不斷迭代優(yōu)化,最終產(chǎn)出強(qiáng)大且可靠的算法。
雖然當(dāng)前 AlphaEvolve 主要依賴程序化的 evaluator,還沒有與人類產(chǎn)生交互,但在某些特定情境下,引入人類評估者可能是有價值的。例如,當(dāng) AlphaEvolve 針對一個數(shù)學(xué)問題生成多個性能相似的算法時,如何選出最佳的那個算法,就可能需要人類介入,因為這不僅涉及算法性能,還涉及算法是否優(yōu)雅、是否易于理解等主觀性較強(qiáng)的人類評價維度。
但 AlphaEvolve 在某些領(lǐng)域能否脫離物理實驗,單憑算法推動科學(xué)發(fā)現(xiàn)的邊界,還取決于 evaluator 與現(xiàn)實的貼合程度。如果算法被認(rèn)為完全可靠,那么實驗室驗證就不是必須進(jìn)行的了,但一旦算法和現(xiàn)實之間存在偏差,就需要將結(jié)果與現(xiàn)實世界的實驗反饋相匹配。
未來 LLM 自身可以成為 evaluator
雖然當(dāng)前 AI agent 在執(zhí)行任務(wù)時受限于 evaluator 的能力,即它們能否很好判斷一個方案是否有效、是否優(yōu)越,但 AlphaEvolve 也為突破這些限制提供了兩個思路。
首先,雖然 AlphaEvolve 這類 agent 確實高度依賴精確的 evaluator,但這也恰恰凸顯了這類 agent 的核心價值,因為這意味著,如果我們能針對一個關(guān)鍵問題構(gòu)建出極其精準(zhǔn)的 evaluator,那么這類 agent 就有潛力發(fā)現(xiàn)遠(yuǎn)超人類能力的解決方案。AlphaEvolve 之所以能取得成功,關(guān)鍵就在于它所應(yīng)用的問題本身已經(jīng)有明確的、可量化的評估標(biāo)準(zhǔn)。
而且模型本身有可能協(xié)助構(gòu)建更優(yōu)秀的自動化 evaluator,因此,開發(fā)更精確、能覆蓋更多領(lǐng)域的 evaluator 是一個值得重點投入的方向。
其次,構(gòu)建精確的 evaluator 并不是最重要的,未來最重要的是如何降低對完美 evaluator 的依賴。在實際應(yīng)用中,用戶往往難以像專業(yè)的產(chǎn)品經(jīng)理那樣清晰地表達(dá)需求,很多時候只能用模糊的自然語言向 coding agent 描述任務(wù)。這時,AI 就需要通過不斷地與人協(xié)作來澄清需求,或者依賴有效的任務(wù)跟蹤機(jī)制來推進(jìn)工作。
有一種可行的路徑就是利用 LLM 自身來進(jìn)行評估。例如,LLM 可以判斷一個解決方案是否有前景,或者指出其中存在的具體問題。DeepMind 推出的 AI co-scientist 項目就是一個有力的例證:它讓語言模型對自然語言提出的想法進(jìn)行有意義的分析和判斷,從而成功區(qū)分出優(yōu)劣。這表明,LLM 本身可以成為評估的重要工具。
DeepMind 的 AI co?scientist 是由多個基于 Gemini 2.0 的 AI agent 組成的協(xié)同系統(tǒng),目的是協(xié)助科研人員從海量文獻(xiàn)中生成、評估、推演科學(xué)假說,從而加速藥物重定位和生物醫(yī)學(xué)發(fā)現(xiàn)。該工具已在斯坦福大學(xué)和帝國理工的肝纖維化實驗中驗證了 AI 的建議策略具備潛在抑制效果,展示了 AI 在科學(xué)研究中的價值。
AI co-scientist 概覽
上述兩種方案看起來就像是處于兩個極端,一端是精準(zhǔn)、嚴(yán)格的評估機(jī)制,能夠提供具體明確的評分;另一端則是基于 LLM 的自然語言評價,但介于兩者之間的,還有模擬器和各種輔助評估的函數(shù)。盡管這些方法可能并不完美,但只要它們與真實目標(biāo)存在一定關(guān)聯(lián),就可以借助進(jìn)化算法等,圍繞這些不完美的 evaluator 不斷迭代優(yōu)化。盡管過程可能需要更多輪次,但依然有可能帶來實質(zhì)性的進(jìn)展,比如,AlphaEvolve 的 evaluator 就不是完美的。
模擬器指的是一個可交互的虛擬環(huán)境,能模擬現(xiàn)實世界或特定系統(tǒng)的行為,可以用來訓(xùn)練和評估 agent 在其中的表現(xiàn)。它允許 AI 在無需現(xiàn)實成本的情況下進(jìn)行大量試驗與學(xué)習(xí)。
但模擬器通常只在特定問題上有效。要驗證解決方案的普適性或特定屬性(如“始終滿足某種性能”),可能需要額外工作,比如引入一個“證明 agent”來嘗試形式化驗證。
值得一提的是,agent,尤其是采用進(jìn)化策略(即利用種群進(jìn)行搜索)構(gòu)建的 agent,在大規(guī)模搜索方面非常高效。它們能在廣闊的解空間中探索,為那些困擾人類多年甚至數(shù)十年的重要問題,找到出人意料的創(chuàng)新方案。
當(dāng)沒有模擬器時,基于 LLM 的 evaluator 可以審視解決方案并對它的質(zhì)量進(jìn)行推測。這種方法在實踐中已被證明非常有效,比如 DeepMind 的 AI co-scientist 采用多 agent 協(xié)作,讓 agent 自己判斷哪些假設(shè)在新穎性、重要性和影響力上更優(yōu),從而確定優(yōu)先級。令人驚訝的是,這種機(jī)制最終產(chǎn)生的結(jié)果,超越了基礎(chǔ)大模型單獨生成的能力。這意味著,通過精心設(shè)計,人們確實能夠引導(dǎo) agent 發(fā)現(xiàn)超越模型原始能力的新知識。
03.AI 正在進(jìn)入自我改進(jìn)范式早期階段
目前,AlphaEvolve 已展現(xiàn)出強(qiáng)大的自我改進(jìn)能力,比如在 Google 的 training infra 中,成功將關(guān)鍵計算模塊的運行效率提升了 23%,優(yōu)化了訓(xùn)練流程,使得下一代模型(如 Gemini)的訓(xùn)練變得更加高效。
這一突破性進(jìn)展標(biāo)志著 AI 可能正在進(jìn)入遞歸式自我改進(jìn)范式,這將影響技術(shù)演進(jìn)的核心路徑。
不過,我們也需要清晰認(rèn)識到當(dāng)前成果的缺陷:這種進(jìn)步主要體現(xiàn)在效率層面,而非模型在認(rèn)知能力上的根本突破。有一個重要但還沒有得到驗證的問題是:優(yōu)化訓(xùn)練流程是否不僅能加快訓(xùn)練速度,還能顯著提升底層模型在關(guān)鍵認(rèn)知任務(wù)中的表現(xiàn)?這也是該領(lǐng)域未來值得深入探索的重要方向。
此外,目前 AI 自我改進(jìn)的反饋周期相對較長。AlphaEvolve 對 training infra 的優(yōu)化效果主要是體現(xiàn)在下一代模型的訓(xùn)練過程中的,這意味著反饋周期可能長達(dá)幾個月,因此,雖然 AlphaEvolve 展現(xiàn)了 AI 自我改進(jìn)的能力,但距離實時、緊密的遞歸循環(huán)還有一定差距。
但理論上,實現(xiàn)更深層次、更廣泛的 AI 自我改進(jìn)是完全可能的,關(guān)鍵在于能否設(shè)計出高效且可靠的 evaluator,比如 evaluator 需要能準(zhǔn)確判斷某個改進(jìn)方案是否真的會產(chǎn)生預(yù)期中的良好結(jié)果。目前沒有理由認(rèn)為這樣的 evaluator 是無法構(gòu)建的,但需要持續(xù)的研究投入和工程努力。Evaluator 的質(zhì)量是實現(xiàn)更高級的 AI 自我改進(jìn)能力的關(guān)鍵。
值得注意的是,AlphaEvolve 展示了 AI 自我改進(jìn)并非只有一種路徑,而是有多種潛在的發(fā)展方向:
- 一次性突破:AI的自我改進(jìn)可能僅獲得一次顯著提升,之后會停滯不前;
- 收益遞減:AI的自我改進(jìn)能夠持續(xù)發(fā)生,但每次提升的幅度會逐漸減小,最終趨近于某個能力上限;
- 持續(xù)累積突破:AI的自我改進(jìn)不斷發(fā)生,且提升效果持續(xù)放大,形成指數(shù)級的增長潛力。
AI 的自我改進(jìn)最終會遵循哪種模式,或者是否會出現(xiàn)其他未曾預(yù)料的方式,科學(xué)家尚無法給出確切的答案。
04.如何重新定義科學(xué)發(fā)現(xiàn)的邊界?
AlphaEvolve 重塑科學(xué)研究的范式
推動科研進(jìn)步的重要方向之一就是利用 AI 加速知識發(fā)現(xiàn)與創(chuàng)新。目前,AlphaEvolve 主要專注于數(shù)學(xué)和計算機(jī)科學(xué)領(lǐng)域,因為這些學(xué)科本身擁有強(qiáng)大的自動化評估機(jī)制,能夠高效地判斷各種方案的優(yōu)劣。
但這并不是 AlphaEvolve 能力的邊界,比如在生物學(xué)或化學(xué)領(lǐng)域,我們在設(shè)計新分子的時候也可以利用模擬器或預(yù)測模型構(gòu)建 evaluator,從而預(yù)測候選方案的效果。只要具備這樣的評估機(jī)制,AlphaEvolve 就具備應(yīng)用潛力。而且,AlphaEvolve 的進(jìn)化之路仍在繼續(xù),開發(fā)團(tuán)隊正致力于提升它的能力和通用性,未來,AlphaEvolve 能在多個科學(xué)領(lǐng)域有廣泛的應(yīng)用。
從更深層次看,科學(xué)探索的本質(zhì)是“搜索”,也就是尋找合適的結(jié)構(gòu)、解決方案或候選對象等。雖然傳統(tǒng)科研常依賴偶然發(fā)現(xiàn),但科學(xué)家們始終在努力提高這一過程的效率。如今,科研正朝著更加“理性化”的方向發(fā)展,計算方法與可量化的評估機(jī)制變得更加重要。
科學(xué)的“理性化”指的是用邏輯、證據(jù)和系統(tǒng)化的方法來解釋自然現(xiàn)象,排除感性、迷信或傳統(tǒng)權(quán)威的影響,將世界視為可以理解和控制的對象。
這也正是 AlphaEvolve、FunSearch 等 AI agent 的價值所在:它們能夠在廣闊、有時甚至是反直覺的解空間中進(jìn)行高效搜索,并充分利用評估機(jī)制,幫助科學(xué)家深入挖掘原本難以觸及的復(fù)雜可能性,從而大幅拓展探索的邊界。因此,這不僅是技術(shù)層面的突破,更代表著以 AlphaEvolve 和 FunSearch 等為代表的 AI agent 技術(shù)正在持續(xù)重塑整個科學(xué)研究的方式,標(biāo)志著由 AI 驅(qū)動的科學(xué)方法正在發(fā)生根本性轉(zhuǎn)變。
AlphaEvolve 更像是人類在實踐中的協(xié)作伙伴
隨著自動化評估和 AI 驅(qū)動的搜索技術(shù)逐步進(jìn)入現(xiàn)實世界中的實驗室,人類科學(xué)家和工程師的核心角色也面臨重新定義。
首先,人類的價值將更加集中地體現(xiàn)在目標(biāo)設(shè)定和規(guī)則制定上。在 AlphaEvolve 的運行中,evaluator 這一核心機(jī)制正是人類智慧的體現(xiàn)。它不僅僅是一個簡單的性能衡量指標(biāo),更是對解決方案需要滿足的多重屬性和復(fù)雜約束的系統(tǒng)性表達(dá)。
以藥物研發(fā)為例,科學(xué)家必須明確設(shè)定一系列關(guān)鍵條件,比如藥效、成本控制、無細(xì)胞毒性、副作用可控以及可行的遞送機(jī)制等。這些復(fù)雜的需求有些會被納入評估標(biāo)準(zhǔn),有些需要轉(zhuǎn)化為具體的約束條件,并被準(zhǔn)確傳達(dá)給 AlphaEvolve 等 AI agent,確保 agent 在龐大的搜索空間中構(gòu)建方案時始終遵循這些原則。
在這個過程中,人類還需要擁有深厚的專業(yè)直覺與洞察力,能夠給 AI 提供關(guān)鍵線索與合理的起點,幫助 AI 聚焦搜索方向,從而提高探索效率并減少無效嘗試。
值得注意的是,雖然 AlphaEvolve 擁有自主運行的能力,但在實際應(yīng)用中,它常以強(qiáng)大協(xié)作伙伴的角色出現(xiàn)。AlphaEvolve 的獨特之處在于,它尋找的不是單一的答案,而是生成解決方案的算法本身。相比一個靜態(tài)結(jié)果,這種能“揭示構(gòu)建方法”的能力更有價值,因為它展現(xiàn)了問題背后的邏輯與思維方式。
代碼可解釋性也正是 AlphaEvolve 與人類能夠協(xié)作的關(guān)鍵因素之一,這意味著 AlphaEvolve 生成的代碼和程序是人類可讀的、可理解的,具備高度透明性。開發(fā)團(tuán)隊的親身經(jīng)歷表明,這些代碼往往呈現(xiàn)出人類熟悉的風(fēng)格,但其中的步驟組合和邏輯結(jié)構(gòu)卻常常令人意外。正是這種可解釋性,讓科學(xué)家和工程師可以直接審查 AI 生成的代碼,深入理解工作原理,并據(jù)此做出是否部署的決策。
比如,數(shù)學(xué)家們會認(rèn)真研究 AlphaEvolve 輸出的代碼,分析其中的結(jié)構(gòu)與策略,逐步理解那些每一步背后的意圖,進(jìn)而了解整個解法為什么會有效。這種過程不僅是技術(shù)的應(yīng)用,更是一種人與 AI 共同參與的知識探索過程,推動人類對問題本質(zhì)有更深的理解。
這與依賴“黑箱”神經(jīng)網(wǎng)絡(luò)模型做關(guān)鍵決策形成了鮮明對比,后者往往只能依賴信任,而 AlphaEvolve 的輸出讓人類可以在清晰理解的基礎(chǔ)上掌握最終判斷權(quán)。
有一個有趣的例子是 AlphaEvolve 與數(shù)學(xué)家 Jordan Ellenberg 合作解決上限集(Cap Set)問題時,AlphaEvolve 不僅找出了有效解法,更通過算法結(jié)構(gòu)揭示出了數(shù)學(xué)家此前未曾察覺的對稱性,帶來了全新的數(shù)學(xué)見解。
推廣 AlphaEvolve 的挑戰(zhàn)在于 evaluator 的構(gòu)建和計算資源的高要求
雖然 AlphaEvolve 目前主要在 Google 內(nèi)部使用,但開發(fā)團(tuán)隊希望 AlphaEvolve 未來能夠被更廣泛的群體使用。為此,團(tuán)隊發(fā)起了“信任測試員”計劃,面向公眾征集真實應(yīng)用場景案例,希望能夠了解 AlphaEvolve 在實際問題中能夠發(fā)揮怎樣的作用,以及在什么樣的使用方式下能釋放出最大的潛力。
盡管 AlphaEvolve 目前必須具備明確且可操作的評估機(jī)制來判斷方案優(yōu)劣,但這項計劃可以幫助團(tuán)隊積累寶貴的使用經(jīng)驗,這些反饋也將直接影響未來的產(chǎn)品設(shè)計和策略。
但推廣 AlphaEvolve 的挑戰(zhàn)不僅在于如何構(gòu)建合適的 evaluator,還包括 AlphaEvolve 對計算資源有較高的要求。因為 AlphaEvolve 的運行方式并非一次性調(diào)用模型即可完成任務(wù),而是需要反復(fù)生成、評估大量候選方案。問題越復(fù)雜、解空間越大,所需的計算量也越多。對于簡單問題,它可能在短時間內(nèi)就能得出有效結(jié)果;而面對復(fù)雜任務(wù),則可能需要進(jìn)行成千上萬次試驗。
因此,團(tuán)隊接下來的關(guān)鍵任務(wù)之一是構(gòu)建一個高效、可擴(kuò)展的整體系統(tǒng),讓更多用戶能夠充分體會到 AlphaEvolve 的能力,同時不被高昂的資源消耗所限制。
本文由人人都是產(chǎn)品經(jīng)理作者【海外獨角獸】,微信公眾號:【海外獨角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
哇哦
點贊