重磅!a16z深度對話GPT-5核心研究團隊,曝光更多內(nèi)幕信息
從 WebGPT 到 ChatGPT 的演變,從編程能力的革新到創(chuàng)意寫作的突破,再到模型行為的深度優(yōu)化,GPT-5 正在重新定義 AI 的能力邊界。本文將帶你深入了解這場對話的核心內(nèi)容,探索 AI agent 時代如何真正到來,以及它將如何改變我們的工作、生活和未來。
你有沒有想過,我們可能正站在 AI 發(fā)展史上最重要的轉(zhuǎn)折點?GPT-5 剛剛發(fā)布,這不僅僅是一個模型的升級,而是整個人工智能生態(tài)系統(tǒng)的重大里程碑。當(dāng)我看完 a16z 最新的圓桌訪談后,內(nèi)心久久不能平靜。這場訪談匯集了三位 GPT-5 核心參與者:OpenAI 研究員 Christina Kim,她領(lǐng)導(dǎo)核心模型團隊的 post-training 工作;Isa Fulford,她負責(zé)深度研究和 ChatGPT agent 團隊;以及 a16z 的合伙人 Sarah Wang,她從 2021 年就開始領(lǐng)導(dǎo)對 OpenAI 的投資。
聽完這場對話,我意識到我們對 GPT-5 的理解可能還停留在表面。這不是一次簡單的性能提升,而是 AI 能力邊界的全面重新定義。從推理能力的巨大飛躍到創(chuàng)意寫作的突破,從編程效率的革命性改進到模型行為的深度優(yōu)化,GPT-5 的每一個方面都在告訴我們:AI agent 時代真的來了。更讓我震撼的是,這些變化背后的技術(shù)邏輯和商業(yè)邏輯,正在重新塑造整個科技行業(yè)的未來。當(dāng) Christina Kim 說”這就像你口袋里有個巫師一樣”時,我深深感受到了技術(shù)進步給人類生活帶來的根本性改變。
從 WebGPT 到 ChatGPT:AI 工具使用能力的進化軌跡
Christina Kim 在訪談中回顧了一段讓我深感震撼的歷史。她說,四年前加入 OpenAI 時,她參與開發(fā)的是 WebGPT,這是”第一個使用工具的大語言模型”。但那時的模型只能處理一個問題,用戶問一個問題,模型使用瀏覽器工具給出一個答案,就結(jié)束了。然后團隊意識到一個看似簡單卻極其重要的洞察:人們通常在得到一個答案后還會有更多問題。正是這個樸素的認知推動了他們開始構(gòu)建聊天機器人,最終演變成了我們今天熟悉的 ChatGPT。
這段歷史讓我思考一個深刻的問題:技術(shù)突破往往不是來自復(fù)雜的算法創(chuàng)新,而是來自對用戶真實需求的深度理解。WebGPT 到 ChatGPT 的演進,本質(zhì)上反映了 AI 系統(tǒng)從單次交互轉(zhuǎn)向多輪對話的根本性轉(zhuǎn)變。這種轉(zhuǎn)變看似微小,實際上奠定了今天整個 AI 助手產(chǎn)業(yè)的基礎(chǔ)。當(dāng)我們今天理所當(dāng)然地與 AI 進行連續(xù)對話時,很少有人會想到這種交互模式的建立經(jīng)歷了怎樣的探索過程。
Isa Fulford 提到的另一個重要趨勢是從檢索增強生成 (RAG) 向 AI agent 的演進。她解釋說,過去的模型在瀏覽網(wǎng)頁時受到延遲優(yōu)化的限制,團隊總是在想方設(shè)法在幾秒鐘內(nèi)填充盡可能多的相關(guān)信息到上下文中。但在開發(fā) Deep Research 時,她做了一個大膽的決定:完全移除延遲限制。既然這些任務(wù)對人類來說需要幾小時甚至幾天時間,那么讓用戶等待五分鐘來獲得高質(zhì)量結(jié)果是完全合理的。這種思維轉(zhuǎn)變開啟了異步 AI 工作流的新時代。
我認為這種從實時響應(yīng)到異步處理的轉(zhuǎn)變,代表了 AI 應(yīng)用模式的一次重大突破。過去我們總是追求更快的響應(yīng)速度,認為速度就是 AI 工具的核心價值。但 GPT-5 和相關(guān)產(chǎn)品的成功證明,用戶其實更在乎結(jié)果的質(zhì)量而不是獲得結(jié)果的速度。這種認知轉(zhuǎn)變對整個 AI 行業(yè)都有深遠影響:我們應(yīng)該關(guān)注的不是讓 AI 更快,而是讓 AI 做更有價值的工作。當(dāng) AI 可以完成原本需要專業(yè)分析師花費十小時才能完成的研究任務(wù)時,等待五分鐘是完全值得的。
GPT-5 的核心突破:從單點優(yōu)化到全方位能力躍升
在談到 GPT-5 的具體改進時,Christina Kim 特別強調(diào)了編程能力的巨大飛躍。她說,與 GPT-4o 相比,GPT-5 在前端編程方面”完全是下一個層級,感覺非常不同”。更令人印象深刻的是,當(dāng) Microsoft 的 CTO Michael Troll 在發(fā)布會上不僅展示了能力,還明確表示”這是市場上最好的編程模型”時,這種認可的含金量是不言而喻的。
我特別關(guān)注的是她提到的一個細節(jié):團隊在前端開發(fā)能力上投入了巨大精力,不僅關(guān)注功能實現(xiàn),還關(guān)注”模型的美學(xué)”。這個表述很有意思,因為它暗示了 AI 生成代碼的質(zhì)量已經(jīng)不僅僅是”能跑就行”,而是要考慮代碼的優(yōu)雅性、可讀性和用戶體驗。這種對細節(jié)的關(guān)注反映了 OpenAI 對產(chǎn)品品質(zhì)的極致追求,也預(yù)示著 AI 輔助編程即將進入一個新的質(zhì)量標準。
Isa Fulford 則分享了她對創(chuàng)意寫作能力提升的興奮。她說,GPT-5 的寫作”非常溫柔和感人”,每次看到樣本都會想”這感覺像是真人寫的”。她甚至在直播中演示了讓 GPT-5 幫忙寫悼詞的例子,這是一個對情感表達要求極高的寫作場景。這種能力的提升不僅僅是技術(shù)參數(shù)的改進,更體現(xiàn)了 AI 對人類情感和語言細膩度的深度理解。
我覺得這些改進背后反映的是一個重要趨勢:AI 正在從工具性應(yīng)用向創(chuàng)造性伙伴轉(zhuǎn)變。過去我們使用 AI 主要是為了提高效率,現(xiàn)在 AI 開始在創(chuàng)意表達、情感理解等更加主觀和復(fù)雜的領(lǐng)域展現(xiàn)出接近人類的能力。這種轉(zhuǎn)變的意義遠超技術(shù)本身,它意味著 AI 將在更廣泛的人類活動中發(fā)揮作用,從實用工具變成創(chuàng)作伙伴。
特別值得注意的是,Christina Kim 提到團隊在模型行為設(shè)計上的巧思。她說 GPT-5 的設(shè)計”非常有意識地避免了幾個月前 GPT-4 出現(xiàn)的獻媚問題”。Post-training 過程中需要在多個獎勵函數(shù)之間做權(quán)衡:既要讓助手有用且吸引人,又不能過度吸引人導(dǎo)致虛假的獻媚行為。這種對 AI 人格的精細調(diào)校,體現(xiàn)了 OpenAI 對 AI 倫理和用戶體驗的深度思考。我認為這種對 AI 行為的精心設(shè)計,將成為未來 AI 產(chǎn)品競爭的重要差異化因素。
數(shù)據(jù)為王:GPT-5 訓(xùn)練背后的核心洞察
當(dāng)被問到 GPT-5 的改進主要來自架構(gòu)、數(shù)據(jù)還是規(guī)模時,Christina Kim 毫不猶豫地說:”我是數(shù)據(jù)派的,我認為數(shù)據(jù)非常重要。”她特別贊揚了 Isa 在 Deep Research 項目中對數(shù)據(jù)策劃的用心,”她對數(shù)據(jù)策劃投入了如此多的思考和細心關(guān)注,考慮了她想要代表的所有不同用例”。這種對數(shù)據(jù)質(zhì)量的重視,在整個訪談中反復(fù)出現(xiàn)。
Isa Fulford 進一步解釋了這個觀點,她說:”現(xiàn)在我們有了如此高效的學(xué)習(xí)方式,高質(zhì)量數(shù)據(jù)變得更加重要。”這個表述很有意思,它暗示了強化學(xué)習(xí) (RL) 算法的進步讓模型能夠從較少的高質(zhì)量樣本中學(xué)到更多。這與傳統(tǒng)的”數(shù)據(jù)越多越好”的思維有本質(zhì)區(qū)別?,F(xiàn)在的關(guān)鍵不是收集更多數(shù)據(jù),而是收集更好的數(shù)據(jù)。
我深度思考了這個轉(zhuǎn)變的意義。在 AI 發(fā)展的早期階段,我們往往認為規(guī)模就是一切:更大的模型、更多的數(shù)據(jù)、更強的算力。但 GPT-5 的成功表明,我們正在進入一個”質(zhì)量優(yōu)于數(shù)量”的新階段。這種轉(zhuǎn)變對整個 AI 行業(yè)都有深遠影響,它意味著擁有更好數(shù)據(jù)策劃能力的團隊將獲得競爭優(yōu)勢,而不僅僅是擁有更多計算資源的團隊。
Isa 還透露了一個有趣的細節(jié):對于像計算機使用這樣的新能力,預(yù)訓(xùn)練數(shù)據(jù)中根本沒有多少可用的數(shù)據(jù),因為”計算機使用實際上不是已經(jīng)存在大量數(shù)據(jù)的東西”。這迫使團隊必須主動創(chuàng)造訓(xùn)練數(shù)據(jù)。但她提到了一個聰明的解決方案:一旦有了好的瀏覽模型或使用模型,就可以用它們來”自舉”生成更多訓(xùn)練數(shù)據(jù)。這種自我改進的循環(huán)正在成為 AI 訓(xùn)練的重要模式。
這讓我想到一個更大的問題:隨著 AI 能力越來越強,我們將越來越依賴 AI 來幫助訓(xùn)練下一代 AI。這種遞歸式的改進可能會帶來指數(shù)級的能力提升,但也可能引入新的風(fēng)險和挑戰(zhàn)。如何確保這種自我訓(xùn)練過程不會偏離人類價值觀,將成為未來 AI 安全的重要課題。
AI Agent 時代的真正來臨:從概念到現(xiàn)實應(yīng)用
在討論 AI agent 時,Isa Fulford 給出了一個我認為非常精準的定義:”能夠異步地為我做有用工作的東西”。這個定義的關(guān)鍵詞是”異步”,它意味著你可以交給 AI 一個任務(wù),然后去做其他事情,稍后回來獲得結(jié)果或關(guān)于進展的問題。這種異步工作模式的重要性怎么強調(diào)都不過分,因為它從根本上改變了人機協(xié)作的方式。
她進一步描述了理想中的 AI agent:”長期來看,你希望它能夠做任何首席顧問或助理會為你做的事情。”但在近期,她重點關(guān)注的是幾個具體能力:從互聯(lián)網(wǎng)合成信息的深度研究能力,從私有數(shù)據(jù)和服務(wù)中合成信息的能力,以及創(chuàng)建和編輯文檔、幻燈片、電子表格等工件的能力。她認為”人們在工作中做的有用工作基本上就是研究和制作東西”。
這個觀察非常深刻。當(dāng)我們把知識工作者的日?;顒託w結(jié)為”研究和制作”時,AI agent 的價值主張就變得清晰了:它們可以顯著提高這兩個核心活動的效率和質(zhì)量。但我覺得更有意思的是她提到的消費者用例,比如購物和旅行規(guī)劃。這表明 AI agent 的應(yīng)用范圍遠不限于專業(yè)工作場景。
Sarah Wang 分享了一個讓我印象深刻的個人經(jīng)歷:她現(xiàn)在”在做任何大額購買決定之前都不會不讓 ChatGPT 把所有選項按照我關(guān)心的維度整理成表格”。這種使用模式的轉(zhuǎn)變反映了一個重要趨勢:AI 正在成為我們決策過程的重要參與者,不僅僅是信息提供者。
我認為這種轉(zhuǎn)變的意義遠超工具使用習(xí)慣的改變。它代表了人類認知負荷的重新分配:我們不再需要記住大量信息或進行復(fù)雜的比較分析,而是可以專注于價值判斷和最終決策。這種認知分工的優(yōu)化可能會釋放出巨大的人類創(chuàng)造力和生產(chǎn)力。
但 Isa 也坦率地承認了當(dāng)前 AI agent 的局限性。她說:”我們訓(xùn)練的東西往往真的很擅長,但對于那些之外的事情,有時候好有時候不好。”這種坦誠讓我更加信任她的判斷。真正的技術(shù)進步不是夸大能力,而是誠實地承認局限,并持續(xù)改進。
用戶期望的快速進化:從”夠快”到”夠好”再到”更快更好”
訪談中一個特別有趣的討論是關(guān)于用戶期望如何快速演變。Isa Fulford 觀察到,當(dāng) Deep Research 剛推出時,人們對能夠完成復(fù)雜研究任務(wù)感到驚喜,認為”這太棒了,它在做所有這些我需要花很長時間才能完成的工作”。但很快,用戶就開始抱怨:”好吧,但我現(xiàn)在就想要它,我想在 30 秒內(nèi)得到結(jié)果。”
這種期望的快速變化讓我想起了技術(shù)采用的一個普遍規(guī)律:用戶對新技術(shù)的容忍度會隨著熟悉程度的提高而迅速降低。當(dāng)某種能力第一次出現(xiàn)時,用戶會為了獲得這種能力而忍受各種不便。但一旦這種能力變得常見,用戶就會開始要求更高的標準。
Christina Kim 也注意到了類似的現(xiàn)象。她說,當(dāng)內(nèi)部團隊測試 GPT-5 時,他們會說:”我以為我問了一個非常難的問題,但我感覺有點被冒犯,因為它只思考了兩秒鐘,或者當(dāng)它根本不想思考的時候。”這種反應(yīng)很有意思:用戶開始將模型的”思考時間”作為任務(wù)難度和結(jié)果質(zhì)量的指標。
我覺得這種心理現(xiàn)象揭示了一個重要的產(chǎn)品設(shè)計洞察:有時候更快的響應(yīng)反而會讓用戶感到不滿,因為他們會懷疑結(jié)果的質(zhì)量。這與我們直覺上認為的”越快越好”截然不同。對于復(fù)雜任務(wù),適度的等待時間可能實際上增強了用戶對結(jié)果質(zhì)量的信心。
Isa 還提到了一個有趣的觀察:有時候人們會偏向于認為更長的回答意味著更徹底或做了更多工作,但這不一定是事實。Deep Research 總是給出很長的報告,但有時她更希望得到簡潔的答案。這讓我想起馬克·吐溫的名言:”我沒有時間寫一封短信,所以寫了一封長信。”簡潔往往比冗長更困難,也更有價值。
這些觀察讓我思考 AI 產(chǎn)品設(shè)計的一個根本挑戰(zhàn):如何在滿足用戶不斷提高的期望和技術(shù)能力的現(xiàn)實約束之間找到平衡。隨著 AI 能力的提升,用戶期望也在快速上升,這種期望通脹可能會成為 AI 公司面臨的一個持續(xù)挑戰(zhàn)。
編程革命:從代碼補全到全棧開發(fā)的跨越
Christina Kim 在訪談中特別強調(diào)了 GPT-5 在編程能力上的突破,尤其是前端開發(fā)。她說:”如果你把它與 GPT-4o 的前端編碼能力相比,這完全是下一個層級,感覺非常不同。”這種描述讓我意識到,我們可能正在見證編程工作方式的根本性改變。
她進一步解釋了這種改進的來源:”團隊真的很關(guān)心把前端做好,這意味著獲得最好的數(shù)據(jù),考慮模型的美學(xué)和所有這些東西。正是所有這些細節(jié)匯聚在一起,讓模型在前端方面變得出色。”這里提到的”模型的美學(xué)”這個概念特別引起了我的注意。它暗示 AI 生成的代碼不僅要功能正確,還要在設(shè)計和用戶體驗方面達到專業(yè)水準。
在直播演示中,Christina 展示了幾分鐘內(nèi)構(gòu)建完全交互式前端應(yīng)用的能力。她坦率地說:”這本來會花我一周時間才能完全構(gòu)建出來。”這種效率提升不是漸進式的改進,而是數(shù)量級的跨越。我認為這種變化將徹底重塑軟件開發(fā)的經(jīng)濟學(xué):開發(fā)成本的大幅降低將使更多創(chuàng)意得以實現(xiàn)。
這讓我想到她提到的一個重要觀點:”我認為基本上任何非技術(shù)人員手中都有了如此強大的工具,你真的只需要一些好想法,而不會被不知道如何編碼這樣的事實所限制。”這種能力的民主化可能會帶來創(chuàng)新的爆炸:那些有好想法但缺乏技術(shù)技能的人現(xiàn)在可以直接將想法轉(zhuǎn)化為產(chǎn)品。
她甚至開玩笑說:”這是’想法人’的世界,這是我們的時代。”雖然是開玩笑,但這個觀察很深刻。在傳統(tǒng)的軟件開發(fā)中,技術(shù)實現(xiàn)往往是最大的瓶頸,很多好想法因為實現(xiàn)成本太高而被放棄。如果 AI 能夠大大降低這個門檻,我們可能會看到創(chuàng)新的模式發(fā)生根本性改變:從”技術(shù)驅(qū)動”轉(zhuǎn)向”創(chuàng)意驅(qū)動”。
我預(yù)測這種變化將催生一波新的創(chuàng)業(yè)浪潮。正如 Christina 所說:”我們將看到更多獨立開發(fā)者類型的業(yè)務(wù)圍繞這個建立,因為你只需要有想法,寫一個簡單的提示,然后就能得到完整的應(yīng)用。”這種低門檻的創(chuàng)業(yè)模式可能會改變整個軟件產(chǎn)業(yè)的結(jié)構(gòu)。
創(chuàng)意寫作的突破:從功能性到藝術(shù)性的跨越
Isa Fulford 對 GPT-5 創(chuàng)意寫作能力的描述讓我印象特別深刻。她說:”寫作我覺得非常溫柔和感人,特別是我們想要做的很多創(chuàng)意寫作。每次我看到樣本時都會想’那真的很打動我’,感覺像是有人應(yīng)該寫這個。”這種描述超越了技術(shù)規(guī)格,觸及了藝術(shù)創(chuàng)作的本質(zhì)。
她分享的個人使用案例也很有啟發(fā)性:”我個人是一個非常非常糟糕的作家,這讓故事更好。與我可能更擅長的其他事情相比,但有這個工具來幫助我創(chuàng)作真是太好了,每當(dāng)我使用它時,甚至是簡單的事情,比如 Slack 消息,想出如何很好地表達這一點,它會幫我給出一些迭代,告訴我如何向團隊說某事。”
這個使用場景讓我思考了一個重要問題:AI 寫作助手的真正價值不在于替代優(yōu)秀的作家,而在于幫助那些寫作能力有限的人更好地表達自己。這種能力的民主化意義重大,它意味著更多人可以有效地進行書面溝通,無論是在職場還是個人生活中。
我特別注意到一個細節(jié):現(xiàn)在人們已經(jīng)開始在 GPT-5 的寫作中尋找”M-dash”(長破折號)等特定標點符號的使用模式,試圖識別 AI 生成的內(nèi)容。這種現(xiàn)象很有趣,它顯示了 AI 寫作質(zhì)量已經(jīng)達到了需要專門技巧才能識別的水平。同時也引發(fā)了一個問題:隨著 AI 寫作越來越自然,我們?nèi)绾谓缍?#8221;原創(chuàng)性”?
Isa 在直播中演示的悼詞寫作例子特別觸動我。悼詞是最需要情感深度和個人化的寫作形式之一,如果 AI 能夠在這個領(lǐng)域提供有價值的幫助,說明它對人類情感的理解已經(jīng)達到了相當(dāng)?shù)纳疃?。這不僅僅是語言能力的提升,更是對人類情感細微差別的把握。
我認為這種創(chuàng)意寫作能力的突破可能會改變內(nèi)容創(chuàng)作的生態(tài)。不是所有人都會成為專業(yè)作家,但每個人都可能需要在某些時候進行創(chuàng)意表達。AI 寫作助手的普及可能會讓創(chuàng)意表達變得像使用計算器一樣平常,從而釋放出更多人的創(chuàng)造潛力。
從基準測試到真實使用:評估 AI 能力的新標準
當(dāng) Sarah Wang 問到現(xiàn)在如何評估 AI 能力時,Christina Kim 和 Isa Fulford 的回答揭示了一個重要轉(zhuǎn)變。Christina 說:”我覺得我們幾乎已經(jīng)飽和了很多這些評估基準,真正衡量我們模型有多好的指標將是使用情況:什么新用例被解鎖了,有多少人在日常生活中使用它來幫助他們完成多個任務(wù)。”
這個觀察非常深刻。傳統(tǒng)的 AI 評估依賴于標準化基準測試,比如數(shù)學(xué)能力、閱讀理解、編程挑戰(zhàn)等。但當(dāng)模型在這些基準上的表現(xiàn)已經(jīng)接近飽和時,這些指標就失去了區(qū)分能力。更重要的是,基準測試往往無法捕捉真實世界使用中的復(fù)雜性和多樣性。
Greg Brockman 在發(fā)布會上提到的一個例子很說明問題:某個指令遵循基準的分數(shù)從 98% 提高到 99%,但這 1% 的提升可能代表著用戶體驗的巨大改善。當(dāng)我們接近基準測試的天花板時,傳統(tǒng)的評估方法就變得不夠敏感了。
Isa 解釋了他們團隊的做法:”我們真的從我們希望模型具備的能力出發(fā)。比如我們希望它擅長創(chuàng)建幻燈片或編輯電子表格。如果這些能力的評估不存在,我們會嘗試制作代表該能力的評估,以一種對用戶真正有用的方式。”這種”能力優(yōu)先”的評估方法更貼近實際應(yīng)用需求。
她還提到了一個有趣的內(nèi)部現(xiàn)象:”我們內(nèi)部經(jīng)常開玩笑說,如果你想讓人們專注于某件事,你只需要制作一個好的評估,然后人們就會很樂意嘗試在那上面爬山。”這說明評估指標不僅反映能力,還會影響研發(fā)方向。設(shè)計正確的評估標準對于引導(dǎo) AI 發(fā)展至關(guān)重要。
我認為這種從基準測試轉(zhuǎn)向?qū)嶋H使用的評估方式反映了 AI 發(fā)展階段的轉(zhuǎn)變。在早期階段,我們需要標準化的測試來衡量基礎(chǔ)能力。但隨著 AI 能力接近人類水平,我們需要更加細致和多元化的評估方式。真實世界的使用情況、用戶滿意度、任務(wù)完成質(zhì)量等指標可能比傳統(tǒng)基準測試更能反映 AI 的真實價值。
強化學(xué)習(xí)環(huán)境:下一階段發(fā)展的關(guān)鍵瓶頸
當(dāng)討論到 AI 發(fā)展的下一階段瓶頸時,兩位研究員都強調(diào)了高質(zhì)量強化學(xué)習(xí) (RL) 環(huán)境的重要性。Christina Kim 說:”我認為獲得真正好的任務(wù)和獲得真正好的任務(wù)需要真正好的 RL 環(huán)境,我認為越復(fù)雜、越現(xiàn)實、越模擬我們能制作它們,我們就會變得越好。”
這個觀察很重要,因為它揭示了當(dāng)前 AI 訓(xùn)練面臨的一個根本挑戰(zhàn):缺乏足夠復(fù)雜和現(xiàn)實的訓(xùn)練環(huán)境。傳統(tǒng)的基準測試往往過于簡化,無法捕捉真實世界任務(wù)的復(fù)雜性。而強化學(xué)習(xí)需要智能體在環(huán)境中進行大量試錯,環(huán)境的質(zhì)量直接決定了學(xué)習(xí)的效果。
Isa 補充了一個重要觀點:”從一個網(wǎng)站訓(xùn)練到另一個網(wǎng)站有一些泛化能力,但如果你想真正真正擅長某事,最好的辦法就是在那個確切的事情上訓(xùn)練。”這說明了專門化訓(xùn)練的重要性。雖然 AI 有一定的泛化能力,但要在特定任務(wù)上達到專業(yè)水平,仍然需要針對性的訓(xùn)練。
她還解釋了為什么構(gòu)建這些環(huán)境如此重要:”ChatGPT agent 有如此通用的工具,它有瀏覽器和終端,在這兩個工具之間,你基本上可以完成人類在計算機上做的大部分任務(wù)。理論上,你可以要求它做任何你可以在計算機上做的事情。顯然它還不夠好,但憑借它擁有的工具,理論上你可以把它推得非常非常遠。”
這個愿景很令人興奮:一個能夠使用瀏覽器和終端的 AI agent 理論上可以完成幾乎所有數(shù)字化任務(wù)。但實現(xiàn)這個愿景需要在各種真實環(huán)境中進行大量訓(xùn)練。這就是為什么構(gòu)建高質(zhì)量 RL 環(huán)境變得如此關(guān)鍵的原因。
我認為這個瓶頸也代表了一個巨大的商業(yè)機會。那些能夠構(gòu)建高質(zhì)量、現(xiàn)實化的 RL 環(huán)境的公司可能會成為 AI 訓(xùn)練基礎(chǔ)設(shè)施的重要提供商。就像云計算服務(wù)商為軟件開發(fā)提供基礎(chǔ)設(shè)施一樣,RL 環(huán)境提供商可能會為 AI 訓(xùn)練提供關(guān)鍵支持。
Christina 還提到了任務(wù)質(zhì)量的重要性:”任務(wù)很重要,因為我們有如此強大的算法,創(chuàng)建數(shù)據(jù)和找出最佳訓(xùn)練任務(wù)是我們面臨的大問題之一。”這說明算法的進步使得數(shù)據(jù)質(zhì)量變得更加關(guān)鍵。當(dāng)學(xué)習(xí)算法足夠強大時,瓶頸就轉(zhuǎn)移到了訓(xùn)練數(shù)據(jù)和任務(wù)的設(shè)計上。
長期任務(wù)執(zhí)行:AI agent 的下一個前沿
當(dāng)討論未來發(fā)展方向時,Christina Kim 提出了一個讓我印象深刻的觀點:”GPT-5 很棒,因為在幾分鐘內(nèi)你就能得到一個完整的應(yīng)用,但如果你真的給它一個小時、一天、一周,會發(fā)生什么?實際上能完成什么?”這個問題觸及了 AI agent 發(fā)展的下一個重要前沿:長期任務(wù)執(zhí)行能力。
目前的 AI 系統(tǒng)雖然能夠快速完成單個任務(wù),但在需要持續(xù)關(guān)注、迭代改進或跨時間段協(xié)調(diào)的復(fù)雜項目上仍有局限。我想象一個能夠持續(xù)工作一周的 AI agent:它可能從周一開始分析市場數(shù)據(jù),周二制定策略,周三開始實施,周四收集反饋,周五進行優(yōu)化調(diào)整。這種跨時間的任務(wù)協(xié)調(diào)能力將開啟全新的應(yīng)用場景。
Isa Fulford 補充了另一個重要維度:”很多有用的事情將是當(dāng) AI agent 主動為你做某事的時候。”她強調(diào)這種主動性在技術(shù)上并非不可能,”只是沒有這樣設(shè)置”。但隨著 AI agent 主動執(zhí)行任務(wù),我們可以獲得關(guān)于其有用性的反饋,從而讓它在觸發(fā)決策方面變得更好。
我認為這種主動性的發(fā)展將徹底改變?nèi)藱C協(xié)作的模式?,F(xiàn)在我們主要是”要求-響應(yīng)”的交互方式,用戶提出需求,AI 執(zhí)行任務(wù)。但主動式 AI agent 將能夠識別用戶需求、預(yù)測問題、主動提供解決方案。想象一個能夠監(jiān)控你的工作流程、提前發(fā)現(xiàn)潛在問題、主動提出改進建議的 AI 助手,這將把效率提升到一個全新的水平。
她還提到了一個實際的應(yīng)用前景:”我確信你可以構(gòu)建像監(jiān)控你的 Heroku 或 DataDog 之類的東西。當(dāng)前模型就可以做到,只是需要設(shè)置合適的框架來實現(xiàn)。”這說明技術(shù)能力已經(jīng)基本具備,關(guān)鍵是如何設(shè)計合適的系統(tǒng)架構(gòu)來支持長期運行的 AI agent。
這讓我思考一個更深層的問題:長期運行的 AI agent 將如何改變我們的工作和生活方式?如果 AI 可以持續(xù)監(jiān)控和優(yōu)化我們的各種系統(tǒng)和流程,我們可能需要重新定義”工作”的概念。人類的角色可能從執(zhí)行者轉(zhuǎn)變?yōu)楸O(jiān)督者和決策者,專注于戰(zhàn)略思考和價值判斷,而把具體的執(zhí)行和優(yōu)化工作交給 AI。
OpenAI 的獨特優(yōu)勢:通用性的力量與挑戰(zhàn)
Christina Kim 對 OpenAI 工作環(huán)境的描述讓我深思。她說:”我認為在 OpenAI 能夠工作在如此普遍有用的東西上是相當(dāng)獨特的。這就像他們告訴你在初創(chuàng)公司不要做的一切,就像你的用戶是任何人。”這種”用戶是任何人”的產(chǎn)品策略看似違反了傳統(tǒng)的商業(yè)智慧,但卻成為了 OpenAI 的核心優(yōu)勢。
傳統(tǒng)的創(chuàng)業(yè)建議總是強調(diào)要專注于特定的目標用戶群體,解決特定的問題。但 OpenAI 選擇了一條完全不同的道路:構(gòu)建一個對所有人都有用的通用智能系統(tǒng)。這種選擇只有在擁有”巨大分發(fā)渠道和各種不同用戶”的情況下才可能成功。
Isa Fulford 進一步解釋了這種通用性的價值:”對于 Deep Research,我們希望它在每個人可能想要進行研究的每個領(lǐng)域都表現(xiàn)出色。”這種跨領(lǐng)域的通用能力要求在代表各種不同領(lǐng)域的任務(wù)分布上進行訓(xùn)練。這種廣度是 OpenAI 相對于專注于特定垂直領(lǐng)域的公司的重要優(yōu)勢。
我認為這種通用性策略的成功反映了 AI 技術(shù)發(fā)展階段的特殊性。在軟件行業(yè)的早期,專業(yè)化往往是成功的關(guān)鍵,因為技術(shù)限制使得很難構(gòu)建真正通用的解決方案。但隨著 AI 能力的提升,通用性本身成為了一種可能,也成為了巨大的競爭優(yōu)勢。
Christina 還觀察到一個有趣的現(xiàn)象:”隨著模型變得更聰明,它在指令遵循方面更好,在工具使用方面更好,更多事情隨著我們繼續(xù)制造更聰明的模型而被解鎖。”這種通用智能的提升帶來的是跨領(lǐng)域能力的同步改善,而不僅僅是單一領(lǐng)域的進步。
但這種通用性策略也帶來了獨特的挑戰(zhàn)。如何在滿足所有人需求的同時避免平庸?如何在通用性和專業(yè)性之間找到平衡?OpenAI 的經(jīng)驗表明,關(guān)鍵在于構(gòu)建足夠強大的基礎(chǔ)能力,然后通過精心的 post-training 來適應(yīng)不同的應(yīng)用場景。
公司文化的進化:從研究實驗室到產(chǎn)品公司
Christina Kim 回顧了她四年來在 OpenAI 見證的變化:”當(dāng)我第一次加入 OpenAI 時,應(yīng)用團隊只有 10 名工程師左右,我們實際上沒有這樣的產(chǎn)品部門。我們剛剛推出了 API,這完全是一個不同的世界。”這種從研究實驗室向產(chǎn)品公司的轉(zhuǎn)變反映了整個 AI 行業(yè)的成熟過程。
她特別提到了一個有趣的變化:”現(xiàn)在我的父母知道我在做什么,這真的很酷。”這個看似輕松的評論實際上揭示了 AI 技術(shù)從小眾研究轉(zhuǎn)向主流應(yīng)用的重大轉(zhuǎn)變。當(dāng)普通人都能理解和使用你的工作成果時,技術(shù)的社會影響力就發(fā)生了質(zhì)的改變。
盡管公司規(guī)模從幾百人增長到幾千人,但 Isa Fulford 強調(diào)他們保持了創(chuàng)業(yè)公司的文化:”它仍然非常像一個創(chuàng)業(yè)公司。有些來自創(chuàng)業(yè)公司的人會驚訝地說’我工作得比在我創(chuàng)辦的創(chuàng)業(yè)公司時還要努力’。想法仍然可以來自任何地方,如果你主動并想要實現(xiàn)某事,你可以做到。”
我認為這種文化的保持對 OpenAI 的持續(xù)創(chuàng)新至關(guān)重要。隨著公司規(guī)模的擴大,很多組織會變得官僚化,創(chuàng)新速度下降。但 OpenAI 似乎找到了在規(guī)?;耐瑫r保持敏捷性的方法。這種”獎勵主動性”的文化讓各個層級的員工都能對產(chǎn)品發(fā)展產(chǎn)生實質(zhì)性影響。
Christina 特別強調(diào)了研究團隊和產(chǎn)品團隊的緊密合作:”我的團隊與應(yīng)用工程團隊、產(chǎn)品團隊和設(shè)計團隊如此緊密地合作,這種研究可能與公司其他部門非常分離的方式,但對我們來說是如此整合,我們都坐在一起。”這種跨職能的深度合作可能是 OpenAI 能夠快速將研究成果轉(zhuǎn)化為產(chǎn)品的關(guān)鍵因素。
這讓我思考一個重要問題:在 AI 時代,什么樣的組織結(jié)構(gòu)和文化最有利于創(chuàng)新?OpenAI 的經(jīng)驗表明,打破傳統(tǒng)的研發(fā)-產(chǎn)品邊界,讓研究人員直接參與產(chǎn)品開發(fā),可能是最有效的模式。這種模式要求研究人員不僅要有技術(shù)深度,還要有產(chǎn)品意識和用戶同理心。
品味和簡單性:AI 研究中被低估的重要因素
當(dāng)討論什么是好的研究品味時,Christina Kim 的回答特別觸動我:”我經(jīng)常驚訝于最簡單、最容易解釋的東西往往是最有效的。有時看起來很明顯,但要把某件事的細節(jié)做對是相當(dāng)困難的。好的研究品味通常就是將問題簡化為最愚蠢或最簡單的事情。”
這個觀察反映了一個深刻的科學(xué)原理:真正的突破往往來自對復(fù)雜問題的簡單洞察。在 AI 研究中,這種簡單性的追求特別重要,因為復(fù)雜的解決方案往往難以理解、難以復(fù)現(xiàn)、難以改進。而簡單的方案雖然看起來”顯而易見”,但往往需要深刻的理解才能發(fā)現(xiàn)。
Isa 補充了這個觀點:”我覺得每次我們發(fā)布研究成果,當(dāng)人們弄清楚發(fā)生了什么時,他們會說’哦,這太簡單了,我早就應(yīng)該想到這個,顯然那會起作用’。但知道嘗試那個顯而易見或當(dāng)時不明顯但事后顯而易見的事情,這就是關(guān)鍵。”這種”事后顯而易見”的特征正是優(yōu)秀研究的標志。
我認為這種對簡單性的重視在 AI 領(lǐng)域特別重要,因為 AI 系統(tǒng)的復(fù)雜性往往會掩蓋核心洞察。那些能夠在復(fù)雜性中找到簡單原理的研究者往往能夠取得更大的突破。這也解釋了為什么一些看似簡單的技術(shù)創(chuàng)新,如 Transformer 架構(gòu)或強化學(xué)習(xí)的應(yīng)用,能夠產(chǎn)生如此巨大的影響。
Christina 的比喻”品味就是奧卡姆剃刀”很精準。奧卡姆剃刀原理告訴我們,在多個解釋中,最簡單的往往是正確的。在 AI 研究中,這意味著優(yōu)先考慮簡單、優(yōu)雅的解決方案,而不是復(fù)雜的工程技巧。
這種對簡單性的追求也體現(xiàn)在 GPT-5 的設(shè)計中。盡管其能力有了巨大提升,但核心架構(gòu)和訓(xùn)練方法可能相對簡單。真正的創(chuàng)新往往不是增加復(fù)雜性,而是找到更好的數(shù)據(jù)、更好的訓(xùn)練方法、更好的任務(wù)設(shè)計。這種簡單性使得技術(shù)更容易理解、改進和擴展。
從工具到伙伴:重新定義人機關(guān)系
聽完整個訪談,我深深感受到我們正在經(jīng)歷的不僅僅是技術(shù)升級,而是人機關(guān)系的根本性重新定義。當(dāng) Christina Kim 說”就像你口袋里有個巫師一樣”時,這種比喻揭示了 AI 從工具向伙伴的轉(zhuǎn)變。
傳統(tǒng)的計算機工具要求用戶學(xué)習(xí)其操作方式,適應(yīng)其界面和邏輯。但 GPT-5 代表的新一代 AI 系統(tǒng)能夠理解人類的自然語言,適應(yīng)我們的思維方式,甚至預(yù)測我們的需求。這種轉(zhuǎn)變的意義遠超技術(shù)本身,它改變了我們與技術(shù)交互的基本范式。
我特別注意到 Isa 提到的一個細節(jié):人們現(xiàn)在”理所當(dāng)然地認為你真的有這樣一個巫師在你的口袋里,你可以問它任何隨機想法,它就會輸出一篇好文章”。這種”理所當(dāng)然”的態(tài)度反映了技術(shù)采用的一個普遍規(guī)律:真正成功的技術(shù)會變得無形,成為我們?nèi)粘I畹淖匀唤M成部分。
但這種轉(zhuǎn)變也帶來了新的挑戰(zhàn)和機遇。當(dāng) AI 變得如此強大和易用時,我們需要重新思考教育、工作、創(chuàng)造力的本質(zhì)。如果任何人都可以通過簡單的提示生成專業(yè)質(zhì)量的內(nèi)容,那么人類的獨特價值在哪里?我認為答案在于判斷力、創(chuàng)造力、同理心等 AI 仍然難以完全復(fù)制的能力。
Christina 提到的”想法人的時代”可能真的到來了。在這個時代,執(zhí)行能力的門檻大大降低,創(chuàng)意和判斷力變得更加珍貴。這不是說技術(shù)技能變得不重要,而是說技術(shù)技能的定義正在改變:從編寫代碼轉(zhuǎn)向指導(dǎo) AI 編寫代碼,從制作內(nèi)容轉(zhuǎn)向策劃和優(yōu)化 AI 生成的內(nèi)容。
我相信我們正處在一個歷史性的轉(zhuǎn)折點。就像印刷術(shù)改變了知識傳播,工業(yè)革命改變了生產(chǎn)方式,GPT-5 這樣的系統(tǒng)可能會改變我們思考、創(chuàng)造和工作的方式。關(guān)鍵不是擔(dān)心被 AI 取代,而是學(xué)會如何與 AI 協(xié)作,如何在這個新時代中發(fā)揮人類的獨特優(yōu)勢。
最終,GPT-5 的真正意義不在于它能做什么,而在于它如何改變我們對可能性的認知。當(dāng)技術(shù)能力不再是限制因素時,我們的想象力和創(chuàng)造力將成為真正的邊界。這既是機遇,也是挑戰(zhàn),但毫無疑問,這是一個值得興奮的時代。?
本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號:【深思圈】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!