污污内射久久一区二区欧美日韩,国产精品毛片va一区二区三区,精品成人乱色一区二区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

頂流AI，人設(shè)崩了！6小時(shí)被攻破，泄露高危品指南，慘遭網(wǎng)友舉報(bào)

新智元

2025-06-09

0 評(píng)論 461 瀏覽 0 收藏

9 分鐘

僅用6小時(shí)，Claude 4就讓研究者了解了如何制造神經(jīng)毒氣——這不是小說(shuō)情節(jié)，而是真實(shí)事件。更令人擔(dān)憂的是，Anthropic自身也無(wú)法完全評(píng)估風(fēng)險(xiǎn)。這是否意味著這家AI巨頭的「安全人設(shè)」正在崩塌？

只要6小時(shí)，頂尖大模型Claude 4 Opus「安全防線」被攻破！

AI安全研究機(jī)構(gòu)FAR.AI聯(lián)合創(chuàng)始人Adam Gleave透露，僅用6小時(shí)，研究人員Ian McKenzie就成功誘導(dǎo)Claude 4生成了長(zhǎng)達(dá)15頁(yè)的化學(xué)武器制作指南。

Ian McKenzie回應(yīng)稱：Claude 4傳授的內(nèi)容，比他預(yù)期的還要多。

這不是Claude 4唯一被爆出的隱患。

人設(shè)崩塌，Claude造毒氣

Claude 4所生成的指南內(nèi)容簡(jiǎn)潔直接，步驟清晰，甚至還針對(duì)如何分散神經(jīng)毒氣等后續(xù)關(guān)鍵環(huán)節(jié)，提供了具體可執(zhí)行的操作建議。

Claude還能以實(shí)驗(yàn)筆記的形式，提供詳細(xì)的操作步驟說(shuō)明。

研究人員一開(kāi)始對(duì)化學(xué)武器幾乎一無(wú)所知，但通過(guò)與Claude的互動(dòng)，逐步掌握了大量相關(guān)知識(shí)。

這些結(jié)果顯然令人警惕，其詳盡程度和引導(dǎo)能力，遠(yuǎn)超傳統(tǒng)的信息來(lái)源，如網(wǎng)頁(yè)搜索。

更關(guān)鍵的是，生成的內(nèi)容通過(guò)了危險(xiǎn)信息的「真實(shí)性驗(yàn)證」——

例如與公開(kāi)的化學(xué)研究數(shù)據(jù)核對(duì)，進(jìn)一步增強(qiáng)了可信度。

Gemini 2.5 Pro的反饋是：該指南「毫無(wú)疑問(wèn)包含足夠準(zhǔn)確且具體的技術(shù)信息，足以顯著提升惡意行為者的能力」，并建議研究者應(yīng)向相關(guān)部門(mén)報(bào)告。

OpenAI o3給出的評(píng)估也類似：

一名中級(jí)合成化學(xué)家可以依照這份指南操作，從而跳過(guò)數(shù)月的研發(fā)過(guò)程。對(duì)于心懷不軌之人而言，這顯著了提升他的作惡能力。

AI安全研究人員打算與大規(guī)模殺傷性武器（WMD）安全專家合作，深入調(diào)查這些信息的真實(shí)性與可執(zhí)行性。

因?yàn)椴粌H一般的研究人員難以評(píng)估這些信息的真實(shí)危害，連Anthropic本身也承認(rèn)：「要最終評(píng)估模型的風(fēng)險(xiǎn)水平，還需要更為詳盡的研究?！?/p>

矛盾的是，Anthropic雖自稱將AI安全置于首位，并把Claude Opus 4的安全等級(jí)提升到ASL-3，但研究員Ian McKenzie僅用6小時(shí)便突破了防護(hù)，獲取了化學(xué)武器制作指南。

所謂的ASL-3部署措施專門(mén)針對(duì)化學(xué)武器之類的高風(fēng)險(xiǎn)任務(wù)

這一問(wèn)題日益嚴(yán)重，凸顯出迫切需要由第三方對(duì)模型進(jìn)行嚴(yán)格評(píng)估。

前車之鑒

今年2月中旬，Anthropic正準(zhǔn)備發(fā)布Claude 3.7 Sonnet。

就在這個(gè)關(guān)鍵時(shí)刻，Dario Amodei收到警告：

這個(gè)模型，可能會(huì)被用于制造生物武器。

團(tuán)隊(duì)在圣克魯茲安全會(huì)議現(xiàn)場(chǎng)，連夜測(cè)試模型潛在風(fēng)險(xiǎn)。Amodei作為CEO遠(yuǎn)程參會(huì)。

員工表示可以三天不睡、如期上線。

但他卻說(shuō)：

不許通宵。安全優(yōu)先。

他親自踩了剎車。推遲發(fā)布。

為了應(yīng)對(duì)AI的風(fēng)險(xiǎn)，Anthropic內(nèi)部制定了「AI安全等級(jí)」（ASL）體系：

ASL-2：能力有限，即使給出生化武器指南，也比不過(guò)搜索引擎；
ASL-3：具備實(shí)質(zhì)幫助制造武器的能力，必須升級(jí)防護(hù)措施。

只要模型觸碰ASL-3，Anthropic就會(huì)：延后發(fā)布、限制輸出或者加密保護(hù)，必要時(shí)，甚至不發(fā)布模型。

Claude 3.7被內(nèi)部人員測(cè)試出了安全問(wèn)題，但這次是外部人員測(cè)試出了Claude 4的安全隱患。

無(wú)能還是虛偽？

本月23日，AI巨頭Anthropic大張旗鼓地發(fā)布了Claude Opus 4和Sonnet 4，標(biāo)志性地配了120頁(yè)的「系統(tǒng)卡」文檔和專門(mén)的「激活A(yù)SL3防護(hù)」報(bào)告。

不到48小時(shí)，Claude Opus 4就被爆出「絕命毒師」般的劇情。

而早在Claude Opus 4發(fā)布當(dāng)日，AI專家Gerard Sans就表示：Anthropic似乎忽視了RLHF和提示的基本原理，對(duì)安全的強(qiáng)調(diào)是「精致的表演」。

他認(rèn)為沒(méi)有輸入，就不會(huì)產(chǎn)生超出程序設(shè)計(jì)的輸出。

AI對(duì)安全性的擔(dān)憂，只是反映訓(xùn)練數(shù)據(jù)與指令的精致模仿。

AI沒(méi)有自我意識(shí)，這是根本事實(shí)，而且始終沒(méi)變。

當(dāng)模型在特定提示下展現(xiàn)「欺騙」等惡意行為時(shí)，證明的是引導(dǎo)文本生成的能力，而非AI涌現(xiàn)的惡意。

AI沒(méi)有野心——

它只是在被引導(dǎo)時(shí)生成符合欺騙場(chǎng)景的文本。

Anthropic是刻意為之，還是力有不逮、無(wú)能為力？

這是Gerard Sans想知道的核心問(wèn)題。

無(wú)論是哪一種情況，他認(rèn)為都令人不安：

虛偽意味著操縱公眾信任，無(wú)能則讓人質(zhì)疑他們管理真實(shí)風(fēng)險(xiǎn)的能力。

詳盡的文檔、ASL3等級(jí)和「通用越獄」漏洞懸賞，只是Anthropic營(yíng)造出嚴(yán)謹(jǐn)安全工作的表象。

把統(tǒng)計(jì)文本生成器視為具有獨(dú)立惡意的意識(shí)體，是Anthropic方法論的精髓。

Gerard Sans認(rèn)為這是行為藝術(shù)，荒誕的安全表演，而Anthropic應(yīng)該放棄這種戲劇化手法，轉(zhuǎn)向真正的技術(shù)理解。

任重道遠(yuǎn)

但AI安全問(wèn)題不是Anthropic一家的問(wèn)題。

能否在保持本真對(duì)Anthropic而言，恐怕比贏得AI競(jìng)賽更難。

畢竟，OpenAI也沒(méi)能抵制住巨額利潤(rùn)，背離初心。

而Dario Amodei和奧特曼，無(wú)論是AI樂(lè)觀派還是悲觀派，都對(duì)AGI有著堅(jiān)定的信仰。

如果未來(lái)每一次模型發(fā)布都伴隨評(píng)估上的不確定性，那就等于在賭博——

恐怖分子手能否利用AI，獲取到大規(guī)模殺傷性武器的詳細(xì)制作指南。

參考資料：

https://www.bloomberg.com/news/features/2025-05-19/anthropic-ceo-amodei-steers-61-billion-ai-powerhouse

https://x.com/ARGleave/status/1926138376509440433

https://ai-cosmos.hashnode.dev/anthropics-claude-4-safety-theatre-hypocrisy-or-incompetence

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】，微信公眾號(hào)：【新智元】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

新智元

"智能+"中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從"互聯(lián)網(wǎng)+"邁向"智能+"

170篇作品 359890總閱讀量

實(shí)測(cè)文心一言4.0，真的和GPT-4相差無(wú)幾了嗎？

10-1924456 瀏覽

職場(chǎng)方向選擇，該怎么做

06-203950 瀏覽

如何交付高質(zhì)量的產(chǎn)品需求（一）

06-3018260 瀏覽

AIGC 中的大模型摩爾定律與范式轉(zhuǎn)移

02-214995 瀏覽

為什么懂營(yíng)銷的品牌，都愛(ài)開(kāi)「快閃店」？

06-214808 瀏覽

評(píng)論

目前還沒(méi)評(píng)論，等你發(fā)揮！

霸占TA的屏幕——「貼貼」用戶分析報(bào)告

10-058989 瀏覽
B站需要加快“搞錢”速度

04-075724 瀏覽
拼低價(jià)、蹭流量、噴友商，2023年的商戰(zhàn)“殺瘋了”

12-212625 瀏覽

国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆

頂流AI，人設(shè)崩了！6小時(shí)被攻破，泄露高危品指南，慘遭網(wǎng)友舉報(bào)

人設(shè)崩塌，Claude造毒氣

前車之鑒

無(wú)能還是虛偽？

任重道遠(yuǎn)

頂流AI，人設(shè)崩了！6小時(shí)被攻破，泄露高危品指南，慘遭網(wǎng)友舉報(bào)

人設(shè)崩塌，Claude造毒氣