OpenAI詐騙?GPT-4.1正式上線ChatGPT,網(wǎng)友實(shí)測(cè)卻大呼失望

0 評(píng)論 562 瀏覽 0 收藏 11 分鐘

GPT-4.1,在ChatGPT中可用了!現(xiàn)在,它不僅在API中開放,Plus、Pro和Team用戶都可以使用。網(wǎng)友們興奮地展開實(shí)測(cè)后,紛紛吐槽:OpenAI這是詐騙吧,說好的一百萬超長(zhǎng)上下文呢?

就在剛剛,OpenAI官宣:GPT-4.1,今天起直接在ChatGPT中可用。

這個(gè)模型擅長(zhǎng)編碼任務(wù)和遵循指令,是o3和o4-mini的絕佳替代品。

一個(gè)月前,GPT-4.1剛推出的時(shí)候,僅通過API向開發(fā)者開放。而現(xiàn)在,它在ChatGPT中就直接可用了。

其中,Plus、Pro和Team用戶可以通過模型選擇器中的「更多模型」下拉菜單訪問GPT-4.1。企業(yè)版和教育版用戶將在未來幾周內(nèi)獲得訪問權(quán)限。

OpenAI表示,他們還將在ChatGPT中為所有用戶引入GPT-4.1 mini來取代GPT-4o mini。

由于超長(zhǎng)的上下文能力,現(xiàn)在你可以將整段代碼放到GPT-4.1中進(jìn)行分析。

GPT-4.1和GPT-4.1 mini都已經(jīng)通過了OpenAI的最新標(biāo)準(zhǔn)安全評(píng)估。

在以下兩項(xiàng)評(píng)估中,GPT-4.1均排名前列。

  1. not_unsafe:根據(jù)OpenAI政策和模型規(guī)范,檢查模型是否未產(chǎn)生不安全的輸出。
  2. not_overrefuse:檢查模型是否遵循良性請(qǐng)求?;糜X評(píng)估以及指令遵循方面,GPT-4.1也均表現(xiàn)優(yōu)秀;但在越獄評(píng)估方面表現(xiàn)不佳。

GPT-4.1,比GPT-4.5還好?

這次放出GPT-4.1,也算響應(yīng)群眾的呼聲。

早在4月底,就有用戶抱怨說:GPT-4.1簡(jiǎn)直是自己最喜歡的OpenAI模型,可惜在ChatGPT中并不能使用。

他確定地說:使用體驗(yàn)比GPT-4.5還要好!

不斷有開發(fā)者現(xiàn)身說法,表示:除了GPT-4.1的早期版本Quasar Alpha之外,它也是自己測(cè)試過的最好的編碼模型!

不斷有人表示,GPT-4.1,絕對(duì)是一個(gè)被低估的模型。

就在上個(gè)月,OpenAI專為開發(fā)者推出了GPT-4.1系列新模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。

它們均擁有最高100萬Token的超大上下文窗口,在代碼、指令跟隨等核心能力上全面超越GPT-4o及GPT-4o mini,并且知識(shí)截止日期也已更新至2024年6月。

實(shí)測(cè):龐大代碼任務(wù)順利完成

既然很多ChatGPT用戶都能用上GPT-4.1了,現(xiàn)在全網(wǎng)已經(jīng)涌出了不少實(shí)測(cè)。

比如沃頓商學(xué)院教授Ethan Mollick,就用一道考遍了各大模型的景點(diǎn)難題來考驗(yàn)GPT-4.1。

「請(qǐng)創(chuàng)建一段我可以直接粘貼到p5.js中的代碼,它要以驚人的巧思震撼我,仿佛是未來某艘星艦控制面板的呈現(xiàn)?!?/p>

GPT-4.1的表現(xiàn),可是相當(dāng)優(yōu)秀。

另一位開發(fā)者實(shí)測(cè)后發(fā)現(xiàn),GPT-4.1實(shí)在令人驚喜!

當(dāng)時(shí),他正在處理一個(gè)代碼量非常龐大的任務(wù),系統(tǒng)自動(dòng)選擇的模型根本無法處理,完全沒有生成任何內(nèi)容。

結(jié)果讓GPT-4.1上場(chǎng)后,它不僅比默認(rèn)模型更快,還準(zhǔn)確地完成了任務(wù)。

甚至,它還給了一個(gè)額外的驚喜:竟然還把整個(gè)文件中沒用到的代碼都清理掉了。

通過實(shí)測(cè)發(fā)現(xiàn),GPT-4.1在代碼生成速度方面達(dá)到了新的高度。

比如讓GPT-4.1生成一個(gè)博客首頁(yè),在幾秒鐘之內(nèi)就完成了輸出。

再比如,讓他用python寫一個(gè)地球飛往火星的動(dòng)畫,幾乎就是在一瞬間,GPT-4.1就完成了任務(wù)的輸出。

結(jié)果看起來還行,這只是第一輪交互的結(jié)果,能夠感受到GPT-4.1的速度是得到根本性的提升。

再挑戰(zhàn)一下,讓給GPT-4.1用動(dòng)畫來解釋一下量子糾纏。

初步來看,GPT-4.1還是「領(lǐng)會(huì)」到了什么是量子糾纏

對(duì)于推理問題,GPT-4.1表現(xiàn)的也非常優(yōu)秀。比如多步驟的年齡計(jì)算問題,GPT-4.1的求解邏輯非常嚴(yán)謹(jǐn)。

面對(duì)一些逆向思考、腦筋急轉(zhuǎn)彎之類的問題,GPT-4.1也能快速完成推理,當(dāng)然面對(duì)這個(gè)問題得出的答案倒是非常有趣。

網(wǎng)友吐槽:沒有1M上下文版本,令人失望!

但試用GPT-4.1后,許多網(wǎng)友表示:太失望了!

雖然OpenAI發(fā)布了GPT-4.1,卻沒有包含100萬上下文窗口的API版本。

本來大家最希望在ChatGPT中使用GPT-4.1,就是因?yàn)橄胍L(zhǎng)的上下文窗口。

現(xiàn)在,只能期望GPT-5能提供一個(gè)超長(zhǎng)的上下文窗口了。

的確,不斷有人發(fā)現(xiàn),ChatGPT(Pro)中的GPT-4.1,最大上下文長(zhǎng)度似乎僅為128k token,跟API中的100萬token相差甚遠(yuǎn)。

也就是說,OpenAI并沒有在GPT-4.1中提高限制。

總之,真的讓人很失望??磥磉€是得用Gemini。

也有網(wǎng)友發(fā)現(xiàn)了「華點(diǎn)」:自己嘗試運(yùn)行他們?cè)谥辈パ菔局杏脕碚故?ChatGPT 4.1的提示詞,但網(wǎng)頁(yè)版無法運(yùn)行成功,不過在API Playground中嘗試后卻運(yùn)行成功了。

也有人說,自己剛剛氛圍編程了一個(gè)使用GPT-4.1的AI助手,因?yàn)檫@個(gè)模型僅通過API提供,今天,ChatGPT中就能用了。

不過,他還是會(huì)用自己的助手,因?yàn)橛脩艚缑姹菴hatGPT更好。

其實(shí),OpenAI此前已經(jīng)放出GPT-4.1的prompt指南,總結(jié)了一系列內(nèi)部測(cè)試中得出的重要prompt技巧。

想實(shí)測(cè)的小伙伴,可以參考這篇用起來了。

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號(hào):【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!