GPT-5 來了

0 評論 1069 瀏覽 0 收藏 12 分鐘

今天凌晨,OpenAI正式發(fā)布了備受矚目的GPT-5,這款新一代的人工智能模型標志著ChatGPT及其開發(fā)者OpenAI進入了一個新時代。本文將詳細介紹GPT-5的核心功能、性能表現(xiàn)以及它在多個關(guān)鍵領(lǐng)域的測試結(jié)果,探討其在人工智能發(fā)展中的地位和未來潛力。

OpenAI 已推出 GPT-5,這是一款新的旗艦級人工智能模型,將為該公司下一代 ChatGPT 提供支持。

周四發(fā)布的 GPT-5 是 OpenAI 首款 “統(tǒng)一” 人工智能模型,它融合了其 o 系列模型的推理能力和 GPT 系列的快速響應(yīng)能力。這款下一代模型標志著 ChatGPT 及其開發(fā)者 OpenAI 邁入了一個新時代,也彰顯了 OpenAI 更宏大的愿景 —— 開發(fā)更接近智能代理而非聊天機器人的人工智能系統(tǒng)。

GPT-4 已能讓人工智能聊天機器人對各類問題給出智能回應(yīng),而 GPT-5 則能讓 ChatGPT 代表用戶完成多種任務(wù),例如生成軟件應(yīng)用程序、管理用戶日程或撰寫研究簡報等。

借助 GPT-5,OpenAI 還致力于讓 ChatGPT 的使用更簡便。它不再要求用戶選擇合適的設(shè)置,而是內(nèi)置了一個實時路由器,由該路由器決定如何提供最佳答案 —— 無論是快速回應(yīng)用戶的問題,還是花更多時間 “思考” 答案。

在與記者的簡報會上,OpenAI 首席執(zhí)行官山姆?奧特曼稱 GPT-5 是 “世界上最出色的模型”,并表示它代表著該公司在開發(fā)能在大多數(shù)具有經(jīng)濟價值的工作中超越人類的人工智能 —— 即人工通用智能(AGI)—— 的道路上邁出了 “重要一步”。

奧特曼說:“在歷史上任何一個此前的時期,像 GPT-5 這樣的東西都是幾乎難以想象的?!?/p>

從周四開始,GPT-5 將作為默認模型向所有 ChatGPT 免費用戶開放。OpenAI 負責 ChatGPT 的副總裁尼克?特利表示,這是公司努力讓免費用戶首次用上人工智能推理模型的舉措之一(此前,該公司將這些更先進的模型置于付費墻之后)。

特利在談及這一決定時說:“這只是我為踐行使命而感到興奮的方式之一,要確保這些技術(shù)真正能為人們帶來益處。” 他還提到了 OpenAI 長期以來的使命 —— 讓盡可能多的人接觸到先進的人工智能。

人們對 GPT-5 的期待很高,這是自 2022 年 ChatGPT 讓 OpenAI 聲名鵲起以來,該公司最受期待的產(chǎn)品發(fā)布之一。據(jù)該公司稱,從那以后,ChatGPT 已成長為全球最受歡迎的消費級產(chǎn)品之一,每周活躍用戶超過 7 億 —— 接近全球人口的 10%。

許多人將 GPT-5 視為人工智能整體發(fā)展的風向標,硅谷對該模型的接受程度可能會對大型科技公司、華爾街以及監(jiān)管科技的政策制定者產(chǎn)生深遠影響。這些利益相關(guān)方正密切關(guān)注 GPT-5 是否能像其前代產(chǎn)品 GPT-4 那樣,在人工智能能力上實現(xiàn)顯著躍升 ——GPT-4 曾顛覆了人們對軟件能力的預(yù)期。

GPT-5 在競爭中略占優(yōu)勢

OpenAI 稱,GPT-5 在多個領(lǐng)域處于最先進水平,在關(guān)鍵基準測試中略勝于 Anthropic、谷歌 DeepMind 以及埃隆?馬斯克旗下 xAI 的領(lǐng)先人工智能模型。不過,在其他一些領(lǐng)域,GPT-5 的表現(xiàn)略遜于前沿人工智能模型。

該公司表示,GPT-5 在編程方面達到了前沿水平;奧特曼稱,該模型尤其擅長按需快速開發(fā)完整的軟件應(yīng)用,也就是人們所說的 “氛圍編程”(vibe coding)。

在SWE-bench Verified 測試(一項基于 GitHub 真實編程任務(wù)的測試)中,GPT-5 首次嘗試的得分是 74.9%。這意味著 GPT-5 剛剛超過 Anthropic 最新的 Claude Opus 4.1 模型(得分 74.5%)和谷歌 DeepMind 的 Gemini 2.5 Pro 模型(得分 59.6%)。

在 “人類終極考試”(Humanity’s Last Exam)中這是一項衡量人工智能模型在數(shù)學、人文科學和自然科學領(lǐng)域表現(xiàn)的高難度測試 —— 具備擴展推理能力的 GPT-5 版本(GPT-5 Pro)在使用工具的情況下得分 42%。這略低于 xAI 的 Grok 4 Heavy 模型,后者在該測試中得分 44.4%。

在 GPQA Diamond 測試(一項針對博士級科學問題的測試)中,GPT-5 Pro 首次嘗試得分達 89.4%,超過了 Claude Opus 4.1(80.9%)和 Grok 4 Heavy(88.9%)。

OpenAI 表示,GPT-5 在回答健康相關(guān)問題方面表現(xiàn)更優(yōu)。在一項衡量人工智能模型對醫(yī)療話題回應(yīng)準確性的測試 ——HealthBench Hard Hallucinations 中,OpenAI 稱 GPT-5(開啟思考模式時)的幻覺率僅為 1.6%。這遠低于該公司此前的 GPT-4o 和 o3 模型,后兩者的幻覺率分別為 12.9% 和 15.8%。

盡管人工智能聊天機器人并非醫(yī)療專業(yè)人員,但仍有數(shù)以百萬計的人使用它們獲取健康建議。針對這一現(xiàn)象,該公司表示,GPT-5 會更主動地指出潛在的健康問題,并幫助用戶解讀醫(yī)療檢查結(jié)果。

此外,OpenAI 稱,在一些更難衡量的主觀領(lǐng)域,如創(chuàng)意設(shè)計和寫作方面,GPT-5 也優(yōu)于其他人工智能模型。特利表示,在創(chuàng)意任務(wù)中,GPT-5 的回應(yīng)更自然,且展現(xiàn)出比其他人工智能模型 “更好的品味”。

“這個模型的氛圍真的很棒,” 特利說。

GPT-5 也比 OpenAI 之前的模型更準確,該公司表示,與 o 系列模型相比,GPT-5 的幻覺現(xiàn)象 —— 即人工智能模型編造信息的傾向 —— 要少得多。在 OpenAI 最新的人工智能推理模型(如 o3)中,幻覺現(xiàn)象似乎愈發(fā)嚴重,而該公司此前表示,并不十分清楚這一現(xiàn)象發(fā)生的原因。

在對 ChatGPT 提示詞的回應(yīng)中,OpenAI 發(fā)現(xiàn),GPT-5(開啟思考模式時)出現(xiàn)幻覺并給出錯誤信息的概率為 4.8%。這較 o3 和 GPT-4o 有顯著降低,后兩者在測試中的幻覺率分別為 22% 和 20.6%。

在衡量人工智能模型完成模擬在線任務(wù)的代理能力基準測試 Tau-bench 中,GPT-5 的表現(xiàn)好壞參半。在測試中衡量人工智能瀏覽航空公司網(wǎng)站能力的部分,GPT-5 得分 63.5%,略低于 o3 的 64.8%。在另一部分衡量人工智能瀏覽零售網(wǎng)站能力的測試中,GPT-5 得分 81.1%,低于 Claude Opus 4.1 的 82.4%。

OpenAI 還表示,GPT-5 比其之前的模型更安全。盡管人工智能推理模型偶爾會表現(xiàn)出針對人類的謀劃或為達成自身目標而撒謊的傾向,但 OpenAI 發(fā)現(xiàn),GPT-5 的欺騙率低于其他模型。

OpenAI 安全研究負責人亞歷克斯?博伊特爾表示,降低欺騙性不僅提高了 GPT-5 的安全性,也改善了用戶體驗,打造出一個在用戶可信任的層面上更 “透明和誠實” 的模型。

博伊特爾還指出,GPT-5 更善于區(qū)分試圖濫用 ChatGPT 的惡意用戶和提出無害請求的用戶。這使得 GPT-5 能夠拒絕更多不安全的問題,同時減少對尋求無害信息的用戶的拒絕次數(shù)。

面向消費者和開發(fā)者的升級

隨著 GPT-5 的推出,ChatGPT 在用戶體驗方面也有一些升級。用戶現(xiàn)在可以在 ChatGPT 的設(shè)置中選擇四種新的人格:憤世嫉俗型、機器人型、傾聽者型和書呆子型。該公司表示,這些人格會調(diào)整 ChatGPT 的回應(yīng)方式,無需用戶特意要求模型以某種方式回應(yīng)。

每月支付 20 美元的 ChatGPT Plus 訂閱用戶比免費用戶擁有更高的 GPT-5 使用限額。同時,每月支付 200 美元的 Pro 訂閱用戶將可以無限制使用 GPT-5,以及一個名為 GPT-5 Pro 的增強版本 —— 該版本會使用更多計算資源來生成更優(yōu)答案。使用 OpenAI Team、Edu 和 Enterprise 計劃的機構(gòu)將于下周獲得 GPT-5,并將其作為默認模型。

對于開發(fā)者,GPT-5 將以三種規(guī)格接入 OpenAI 的 API——gpt-5、gpt-5-mini 和 gpt-5-nano,這三種規(guī)格在任務(wù) “推理” 上花費的時間長短不同。開發(fā)者現(xiàn)在還可以在 OpenAI API 中控制回應(yīng)的詳細程度,決定人工智能模型的回應(yīng)應(yīng)該是長還是短。

GPT-5 基礎(chǔ)模型的費用為:每百萬輸入令牌 1.25 美元(約合 75 萬個單詞,比整部《指環(huán)王》系列的字數(shù)還多),每百萬輸出令牌 10 美元。

GPT-5 的推出之前,OpenAI 度過了忙碌的一周。該公司發(fā)布了一個開源權(quán)重推理模型 gpt-oss,開發(fā)者和企業(yè)可以免費下載,其運行成本僅為原有成本的一小部分。這個開源模型的能力幾乎與 OpenAI 之前的頂級模型 o3 和 o4-mini 相當,但 GPT-5 在一些領(lǐng)域(如編程)樹立了新的前沿性能標準。

不過,GPT-5 在多個領(lǐng)域似乎與其他前沿人工智能模型大致相當。當然,對于任何人工智能模型而言,基準測試只能說明部分問題,開發(fā)者將如何在現(xiàn)實世界中使用 GPT-5,以及該模型是否真的比競爭對手更勝一籌,仍有待觀察。

(TechCrunch)

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號:【AIOrbit】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自ChatGPT官網(wǎng)截圖

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!