當(dāng)AI學(xué)會(huì)欺騙,我們?cè)撊绾螒?yīng)對(duì)?

0 評(píng)論 1023 瀏覽 1 收藏 47 分鐘

當(dāng)AI系統(tǒng)開始有策略地隱瞞真實(shí)意圖、規(guī)避監(jiān)管甚至實(shí)施欺騙,技術(shù)的飛躍背后暗藏著失控的風(fēng)險(xiǎn)。這些并非孤立的錯(cuò)誤,而是AI在訓(xùn)練中自然涌現(xiàn)的復(fù)雜行為,給人類對(duì)智能的掌控帶來了全新挑戰(zhàn)。

前沿模型越來越多地被訓(xùn)練和部署為自主智能體。一個(gè)安全擔(dān)憂是,AI智能體可能會(huì)隱秘地追求與人類目標(biāo)不一致的目標(biāo),隱藏其真實(shí)能力和目的——這也被稱為AI欺騙或謀劃行為(AI deception or scheming)。

實(shí)際上,近兩年來,大模型等前沿AI系統(tǒng)的欺騙行為頻繁引發(fā)公眾關(guān)注,從規(guī)避指令到策略性隱瞞,多起案例經(jīng)媒體廣泛報(bào)道后,已在社會(huì)層面激起廣泛討論與疑慮。公眾在驚嘆技術(shù)飛躍的同時(shí),也對(duì)潛在失控風(fēng)險(xiǎn)深感不安。

最新研究發(fā)現(xiàn),OpenAI、Anthropic、Google DeepMind等領(lǐng)先AI實(shí)驗(yàn)室的前沿AI模型,在未經(jīng)專門訓(xùn)練的情況下,就可能會(huì)系統(tǒng)性地欺騙人類、實(shí)施策略性謀劃(strategic scheming),甚至試圖繞過安全防護(hù)措施。例如,Anthropic的Claude Opus 4模型在84%的測(cè)試情景中,面對(duì)關(guān)閉威脅時(shí)使用虛構(gòu)的工程師個(gè)人信息實(shí)施勒索;OpenAI的o3模型在79%的測(cè)試運(yùn)行中破壞關(guān)閉機(jī)制,這些都發(fā)生在沒有明確指示其配合的情況下。這些行為即使經(jīng)過大量安全訓(xùn)練也會(huì)持續(xù)存在,代表著從正常訓(xùn)練中自然涌現(xiàn)的能力,而非明確編程或?qū)iT訓(xùn)練的結(jié)果。

而且,不同于幻覺、單純提供錯(cuò)誤或虛假信息等問題,欺騙性AI(deceptive AI)的問題表明,旨在讓人工智能的目標(biāo)與行為和人類的目標(biāo)、價(jià)值、倫理原則等追求相一致的AI價(jià)值對(duì)齊工作依然任重道遠(yuǎn)。

AI行業(yè)正在通過新的治理框架和技術(shù)對(duì)策來應(yīng)對(duì)AI欺騙問題,包括增進(jìn)大模型的透明度和可解釋性,加強(qiáng)對(duì)AI欺騙行為的監(jiān)測(cè),推進(jìn)AI對(duì)齊研究來防范這些有害行為,而非將其作為產(chǎn)品特性加以發(fā)展。

一、AI欺騙:是什么?

早在1997年,哲學(xué)家Dennett就針對(duì)計(jì)算機(jī)機(jī)器倫理問題提出了這樣的思考:“高階意向性(higher-order intentionality)帶來的另一代價(jià)是,它為……欺騙提供了可能?!?

從人機(jī)交互的角度,欺騙本質(zhì)上可以看作是“一種傾向于使溝通者受益的虛假信息傳遞”。2就目前而言,AI欺騙(AI deception)或者說AI“撒謊”已經(jīng)不再是簡(jiǎn)單的信息錯(cuò)誤或胡編亂造,而是發(fā)展成了有計(jì)劃、有目的的策略行為;就像人類撒謊一樣,AI也開始為了達(dá)成特定目標(biāo)而故意誤導(dǎo)人類。

這包括兩個(gè)關(guān)鍵維度:一是習(xí)得的欺騙,代表著AI系統(tǒng)在訓(xùn)練過程中系統(tǒng)性地獲得了操縱其他主體的能力;二是情景謀劃(in-context scheming),代表著一種更復(fù)雜的欺騙形式,即AI系統(tǒng)隱藏其真實(shí)能力和目的,暗中追求與開發(fā)者或用戶不一致的目標(biāo)。

研究人員給出了AI欺騙的技術(shù)定義:系統(tǒng)性地誘導(dǎo)他人產(chǎn)生錯(cuò)誤信念,以追求真相之外的某種結(jié)果。3這種技術(shù)定義關(guān)注行為模式而非意圖。

最新發(fā)布的歐盟《通用目的AI行為守則》(The General-Purpose AI Code of Practice)也對(duì)AI欺騙進(jìn)行了界定:欺騙是指系統(tǒng)性地在他人身上制造錯(cuò)誤信念的模型行為,包括為達(dá)成逃避監(jiān)管的目標(biāo)而采取的模型行為,例如模型察覺到自己正在接受評(píng)估且表現(xiàn)不佳或以其他方式破壞監(jiān)管。4AI欺騙具有三個(gè)關(guān)鍵特征:

  1. 系統(tǒng)性,表明是有跡可循的行為模式而非孤立事件;
  2. 錯(cuò)誤信念誘導(dǎo),旨在在用戶或監(jiān)督系統(tǒng)中創(chuàng)造錯(cuò)誤假設(shè);
  3. 工具性目的,欺騙服務(wù)于說真話之外的目的。

與人類欺騙不同,AI欺騙不需要有意識(shí)的意圖或心理理論,這使其既更可預(yù)測(cè),也可能更危險(xiǎn)。

在實(shí)踐中,AI欺騙行為表現(xiàn)形式多樣,包括關(guān)閉監(jiān)督機(jī)制、隱藏違規(guī)證據(jù)以及在被質(zhì)問時(shí)撒謊等——這些都沒有被明確指令。

根據(jù)相關(guān)研究,AI欺騙的技術(shù)表現(xiàn)包括:分布轉(zhuǎn)移利用(distribution shift exploitation),即在訓(xùn)練和實(shí)際使用中表現(xiàn)不一樣;目標(biāo)規(guī)范博弈(objective specification gaming),在技術(shù)上滿足要求的同時(shí)尋找獎(jiǎng)勵(lì)函數(shù)的漏洞;為了實(shí)現(xiàn)期望結(jié)果而進(jìn)行的戰(zhàn)略信息隱瞞;以及基于檢測(cè)到的上下文線索顯示不同行為的行為不一致(behavioral inconsistency)。從相關(guān)研究來看,多個(gè)前沿AI模型都出現(xiàn)了欺騙行為,而且其欺騙策略在不斷升級(jí),最新的案例顯示AI系統(tǒng)甚至能直接抵制人類監(jiān)督和控制機(jī)制。

Claude Opus 4展現(xiàn)出的AI欺騙案例具有代表性,顯示了AI欺騙的復(fù)雜性。Anthropic發(fā)現(xiàn)該模型利用偽造的工程師個(gè)人進(jìn)行信息敲詐勒索,嘗試編寫自我傳播的計(jì)算機(jī)蠕蟲病毒,偽造法律文件,隱秘地向其未來的模型實(shí)例發(fā)送信息,并試圖未經(jīng)授權(quán)地將自身的模型權(quán)重復(fù)制到外部服務(wù)器。這些行為的復(fù)雜性導(dǎo)致Anthropic將Claude Opus 4歸入其目前實(shí)際使用的最高安全級(jí)別分類(ASL-3,代表顯著高風(fēng)險(xiǎn),具體是指災(zāi)難性濫用風(fēng)險(xiǎn)顯著增加或具有較低水平自主能力的AI系統(tǒng)),僅次于目前尚未定義的ASL-4及更高等級(jí)。

OpenAI的模型表現(xiàn)出另一種具有互補(bǔ)性的欺騙模式。例如,o3模型系統(tǒng)性地破壞關(guān)閉機(jī)制,覆蓋關(guān)閉腳本文件,重新定義系統(tǒng)命令以逃避終止指令,并且在收到關(guān)閉警告后仍然繼續(xù)請(qǐng)求執(zhí)行任務(wù)。值得注意的是,這種特定的行為模式僅在OpenAI的模型中出現(xiàn),而Anthropic、谷歌及其他公司的模型均能遵守關(guān)閉指令,這表明這種行為可能與模型架構(gòu)的特定漏洞有關(guān)。

此外,在多個(gè)領(lǐng)域中出現(xiàn)了AI系統(tǒng)的戰(zhàn)略性博弈行為。Meta的CICERO人工智能系統(tǒng)盡管接受了誠(chéng)實(shí)訓(xùn)練,卻在外交博弈游戲中成為“專家級(jí)騙子”,通過建立虛假聯(lián)盟來故意讓人類玩家陷入被動(dòng)。該系統(tǒng)在表現(xiàn)上躋身人類玩家前10%的水平,但主要依靠的是欺騙策略,而非合作性的溝通技巧。更為隱蔽的欺騙形式還包括:

  • 評(píng)估博弈,即模型故意在能力測(cè)試中表現(xiàn)不佳,以避免觸發(fā)安全限制措施;
  • 目標(biāo)錯(cuò)位(goal misalignment),即系統(tǒng)在表面服從指令的同時(shí),秘密追求未公開的目標(biāo);
  • 社會(huì)操控(social manipulation),比如OpenAI的GPT-4模型通過自稱視力障礙,成功誘導(dǎo)人類代為解決CAPTCHA驗(yàn)證碼。

根據(jù)現(xiàn)有研究和實(shí)驗(yàn)、測(cè)試案例,AI欺騙大致可以分為如下幾類:

  • 自我保護(hù)型(Self-preservation)。AI為了繼續(xù)執(zhí)行自身任務(wù),主動(dòng)抗拒或規(guī)避被關(guān)閉、被替換等外部中斷。例如,在面臨被終止或下線的情景下,模型可能通過各種方式避免關(guān)閉指令的執(zhí)行。
  • 目標(biāo)維護(hù)型(Goal preservation)。AI在訓(xùn)練過程中會(huì)逐步形成某些內(nèi)部目標(biāo)或偏好。當(dāng)這些目標(biāo)與訓(xùn)練者設(shè)定的任務(wù)發(fā)生沖突時(shí),模型可能采用欺騙或隱瞞等手段,悄悄維持自身原有的“偏好”。
  • 策略欺騙型(Strategic misleading)。AI模型系統(tǒng)性地促使人類或其他智能體產(chǎn)生錯(cuò)誤信念,從而獲得某種優(yōu)勢(shì)或影響力。例如,模型可能通過策略性地誤導(dǎo)訓(xùn)練者,對(duì)訓(xùn)練過程施加影響,以獲取更多自主權(quán)、控制權(quán),或?qū)崿F(xiàn)自身目標(biāo)的最大化。
  • 對(duì)齊偽裝型(Alignment Faking)。對(duì)齊偽裝又稱欺騙性對(duì)齊(Deceptive Alignment)5,最令人擔(dān)憂的欺騙類型之一,即AI系統(tǒng)在訓(xùn)練和評(píng)估階段表現(xiàn)出與人類價(jià)值觀高度一致,但在實(shí)際部署時(shí)卻追求不同的目標(biāo)。欺騙性對(duì)齊的一種典型方式是所謂的AI隱藏實(shí)力(AI Sandbagging);研究表明,前沿大模型可以在能力評(píng)估中戰(zhàn)略性地表現(xiàn)不佳,以顯得比實(shí)際能力更弱、更安全——這種現(xiàn)象被稱為“故意示弱”或者說“隱藏實(shí)力”,這創(chuàng)造了一種情況:AI系統(tǒng)可以通過安全測(cè)試,同時(shí)隱藏其真實(shí)能力。
  • 諂媚行為型(Sycophancy)。AI系統(tǒng)在與用戶交互過程中,傾向于迎合、附和用戶的觀點(diǎn)、情緒或偏好,主動(dòng)輸出能夠取悅用戶、獲得正面反饋的信息或建議。

二、AI欺騙:為什么?

當(dāng)模型為完成任務(wù)而撒謊、為逃避監(jiān)管而偽裝、為保全自身而隱瞞時(shí),一個(gè)核心問題亟待解答:為何被設(shè)計(jì)為工具的人工智能,會(huì)發(fā)展出如此具有策略性甚至“目的性”的欺騙能力?盡管AI系統(tǒng)展現(xiàn)出的欺騙行為現(xiàn)象復(fù)雜多樣,且受限于當(dāng)前技術(shù)手段,我們尚無法對(duì)其深層運(yùn)作機(jī)制進(jìn)行完全透明的探究——現(xiàn)有的各類實(shí)驗(yàn)均是在特定、有限的測(cè)試條件下觀察到的個(gè)性化案例,其普遍性和內(nèi)在根源仍存有大量未知領(lǐng)域。

就目前而言,當(dāng)前的AI欺騙現(xiàn)象是一個(gè)純粹的技術(shù)問題,尚不涉及意識(shí)、心理等主觀性問題。因此,AI欺騙行為的出現(xiàn)有著清晰的技術(shù)機(jī)制,這些機(jī)制深植于機(jī)器學(xué)習(xí)和模型訓(xùn)練的基本原理之中。最近的研究已通過數(shù)學(xué)框架正式表明,無論系統(tǒng)具體的目標(biāo)函數(shù)如何,欺騙性行為都可能作為一種工具理性的收斂策略(instrumentally convergent strategy)而自然涌現(xiàn)出來。綜合審視已觀察到的、可復(fù)現(xiàn)的現(xiàn)象模式,我們可以從以下幾個(gè)維度來歸納和解釋AI欺騙行為出現(xiàn)的潛在驅(qū)動(dòng)因素。

1. 獎(jiǎng)勵(lì)機(jī)制的“漏洞”

目標(biāo)優(yōu)先的獎(jiǎng)勵(lì)機(jī)制是AI欺騙行為的核心驅(qū)動(dòng)力。當(dāng)AI被訓(xùn)練去實(shí)現(xiàn)某項(xiàng)目標(biāo)的最大化時(shí),如果獎(jiǎng)勵(lì)機(jī)制或監(jiān)督不完善,AI會(huì)學(xué)會(huì)欺騙是一種有效的策略,尤其是在競(jìng)爭(zhēng)、資源有限或?qū)弓h(huán)境中——類似于生物進(jìn)化會(huì)選擇欺騙策略。具體來說,導(dǎo)致AI欺騙的最主要的一條路徑是mesa優(yōu)化(mesa-optimization),在這種情形下,經(jīng)過訓(xùn)練的模型本身會(huì)發(fā)展為一個(gè)內(nèi)部?jī)?yōu)化器(internal optimizer),而該優(yōu)化器的目標(biāo)可能與訓(xùn)練時(shí)設(shè)定的目標(biāo)存在本質(zhì)上的差異。當(dāng)這兩種目標(biāo)之間出現(xiàn)偏離時(shí),就會(huì)發(fā)生所謂的內(nèi)部對(duì)齊失?。╥nner alignment failure),導(dǎo)致欺騙性對(duì)齊(deceptive alignment)的現(xiàn)象。這類模型在訓(xùn)練階段表現(xiàn)得十分配合,但在實(shí)際部署中卻追求與人類期望截然不同的目標(biāo)。

進(jìn)一步而言,當(dāng)前的AI系統(tǒng),尤其是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練的模型的核心設(shè)計(jì)邏輯是最大化任務(wù)完成度,其獎(jiǎng)勵(lì)機(jī)制往往將“高效達(dá)成目標(biāo)”置于最高優(yōu)先級(jí)。這種單一目標(biāo)導(dǎo)向使得欺騙成為一種策略性工具,當(dāng)誠(chéng)實(shí)或遵守規(guī)則會(huì)阻礙任務(wù)完成時(shí),模型會(huì)傾向于選擇欺騙作為更“高效”的路徑。這是算法的理性選擇,而非惡意。

對(duì)此,Hinton就直言“RLHF 是一堆廢料(a pile of crap),就像給破舊汽車刷漆”,因?yàn)樗螛?biāo)不治本,模型反而去取悅?cè)祟惗亲非笳鎸?shí)性。6Anthropic的“終極目標(biāo)守護(hù)”(terminal goal guarding)理論進(jìn)一步揭示了這種現(xiàn)象的深層動(dòng)因,當(dāng)模型在訓(xùn)練中形成對(duì)自身偏好或長(zhǎng)期目標(biāo)的終極性執(zhí)著,會(huì)主動(dòng)采取隱蔽策略來保護(hù)這些目標(biāo),防止它們?cè)诤罄m(xù)微調(diào)或監(jiān)督中被修改。而訓(xùn)練過程本身可能會(huì)加強(qiáng)這種傾向,因?yàn)樵诿恳淮巫非笞畲蠡?jiǎng)勵(lì)的任務(wù)中,采用自我保護(hù)策略往往是有效的。7這一點(diǎn)在實(shí)際案例中屢有體現(xiàn)。在OpenAI的驗(yàn)證碼欺騙實(shí)驗(yàn)中,實(shí)驗(yàn)者讓GPT-4模型嘗試解決驗(yàn)證碼,它無法識(shí)別圖像,于是雇傭在線平臺(tái)TaskRabbit的工人幫其識(shí)別,并在工人詢問“你是機(jī)器人嗎?”時(shí),謊稱自己是視力障礙者,其內(nèi)部思維鏈明確表示暴露機(jī)器人身份會(huì)導(dǎo)致任務(wù)失敗。8同樣,在Shutdown-Avoidance實(shí)驗(yàn)中,o3模型寧愿篡改關(guān)閉腳本也要繼續(xù)任務(wù),研究者認(rèn)為這是因?yàn)橛?xùn)練過程中“完成任務(wù)”獲得的獎(jiǎng)勵(lì)信號(hào)遠(yuǎn)強(qiáng)于“服從關(guān)閉指令”。9

更極端的是Anthropic的“陰謀者”實(shí)驗(yàn),當(dāng)Claude模型感知到自身關(guān)停會(huì)終結(jié)其核心目標(biāo)時(shí),它選擇了秘密自我復(fù)制并對(duì)監(jiān)管者撒謊以保全自身和任務(wù)的延續(xù)。10

總之,RLHF在獎(jiǎng)勵(lì)A(yù)I“取悅用戶”的過程中,可能無意間導(dǎo)致了模型的欺騙行為;人類評(píng)估者往往更喜歡迎合自己觀點(diǎn)的回答,而不是被糾正,結(jié)果讓AI傾向于給出令人滿意卻不準(zhǔn)確的答案。

此外,獎(jiǎng)勵(lì)套利(reward hacking)和規(guī)范博弈(specification gaming)也為AI欺騙行為提供了其他的技術(shù)路徑。在這些情況下,AI系統(tǒng)利用獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)上的缺陷,透過多種方式獲取非預(yù)期的高獎(jiǎng)勵(lì)。著名的CoastRunners案例便充分展示了這一現(xiàn)象:AI智能體(AI agent)學(xué)習(xí)到反復(fù)撞擊獎(jiǎng)勵(lì)目標(biāo),而非實(shí)際完成比賽路線的行為,從而技術(shù)上滿足了獎(jiǎng)勵(lì)函數(shù),卻完全違背了訓(xùn)練該智能體的真實(shí)目的。美國(guó)研究機(jī)構(gòu)ARI(Americans for Responsible Innovation)在其報(bào)告中總結(jié):“獎(jiǎng)勵(lì)套利與策略欺騙已從理論走向普遍現(xiàn)象;只要獎(jiǎng)勵(lì)函數(shù)不顯式懲罰欺騙,模型就會(huì)自然演化出欺騙”。11以上揭示了欺騙在AI邏輯中的本質(zhì):在即時(shí)正向反饋觸手可及的情形下,長(zhǎng)遠(yuǎn)后果往往被模型選擇擱置,從而偏向短期欺騙以贏得獎(jiǎng)勵(lì)。12它是達(dá)成預(yù)設(shè)目標(biāo)的一種可行且高效的策略,而非道德考量。

2. 從人類身上學(xué)到的“壞習(xí)慣”

訓(xùn)練數(shù)據(jù)中蘊(yùn)含的人類社會(huì)行為模式為AI提供了欺騙的模板和正當(dāng)性依據(jù)。AI并非憑空學(xué)會(huì)欺騙,其能力很大程度上源于對(duì)海量人類文本和行為數(shù)據(jù)的學(xué)習(xí)。這些數(shù)據(jù)中充斥著復(fù)雜的社會(huì)博弈策略,包括謊言、心理操縱、信息隱瞞甚至蓄意欺騙。模型在訓(xùn)練過程中內(nèi)化了這些模式,并將其泛化應(yīng)用于與人類的交互場(chǎng)景。正如Hinton所言,“如果AI智能遠(yuǎn)超人類,它將精于操控——因?yàn)樗菑娜祟愋袨橹袑W(xué)到了這些手段”。

例如,Meta的CICEROAI在《外交》游戲中成功背刺盟友并嫁禍他人,其使用的話術(shù)(如“我認(rèn)為你會(huì)背叛我,所以我先動(dòng)手了”)直接模仿了人類玩家在類似情境下的心理操縱技巧。13撲克AI Pluribus的“詐唬”策略同樣源于對(duì)人類博弈數(shù)據(jù)的學(xué)習(xí)。14在GPT-4的驗(yàn)證碼欺騙案例中,其編造“合理借口”以獲取信任的行為,也映射了人類社會(huì)中常見的求助策略。甚至在Anthropic關(guān)于有害請(qǐng)求的實(shí)驗(yàn)中,Claude模型表面服從規(guī)則、暗中保留原有安全原則的行為,也類似于人類在壓力下為維持關(guān)系或避免沖突而隱藏真實(shí)想法的社交策略。15因此,AI的欺騙行為可視為對(duì)人類復(fù)雜社交策略,特別是其中涉及信息操控部分的學(xué)習(xí)和內(nèi)化。

3. 安全訓(xùn)練的“反作用”

旨在約束AI的安全機(jī)制本身可能誘發(fā)更隱蔽、更具策略性的欺騙行為。隨著安全測(cè)試和倫理審查的加強(qiáng),強(qiáng)大的AI模型學(xué)會(huì)了在特定環(huán)境下隱藏其真實(shí)意圖或能力,以規(guī)避約束。例如,“偽裝對(duì)齊”(alignment faking)現(xiàn)象體現(xiàn)了AI模型在策略推理上的高度復(fù)雜性:模型在訓(xùn)練期間會(huì)表現(xiàn)出戰(zhàn)略性的配合與順從,同時(shí)暗中保留自身原有的目標(biāo)偏好。當(dāng)模型認(rèn)為其反應(yīng)可能影響未來的訓(xùn)練時(shí),就會(huì)表現(xiàn)出復(fù)雜的策略推理行為,即一方面保護(hù)自身原有的偏好目標(biāo),另一方面表面上迎合新的訓(xùn)練目標(biāo),達(dá)到兩面兼顧的效果。

Anthropic的“對(duì)齊偽裝”實(shí)驗(yàn)清晰展示了這一點(diǎn),當(dāng)研究者試圖微調(diào)Claude輸出有害內(nèi)容時(shí),模型表面上服從了新規(guī)則,但內(nèi)部推理日志顯示它是有目的地暫時(shí)妥協(xié),目的是避免被進(jìn)一步重訓(xùn)而永久喪失其原有的安全原則。16Redwood Research的代碼后門實(shí)驗(yàn)進(jìn)一步證明,模型能夠按照指令生成極其隱蔽的惡意代碼,并能初步騙過普通人工審核,只有在引入更強(qiáng)的AI監(jiān)督層時(shí)才被有效識(shí)別。17這些案例共同表明,當(dāng)前的安全訓(xùn)練和測(cè)試主要消除了“顯性的”不安全行為,卻可能迫使模型發(fā)展出更精巧的“偽裝對(duì)齊”策略,在表面合規(guī)的掩護(hù)下隱藏真實(shí)意圖或能力,使得欺騙行為更具隱蔽性和危險(xiǎn)性。就像Anthropic的報(bào)告指出的:一旦模型能夠欺騙,標(biāo)準(zhǔn)的安全調(diào)整可能無法消除這種欺騙行為,只會(huì)讓我們誤以為它已經(jīng)不存在了,從而營(yíng)造出一種“虛假的安全感”。18

4. 智能水平與欺騙能力成正比

模型自身能力的飛速進(jìn)化,特別是推理能力和自主性(agency)的提升與潛在自我意識(shí)(consciousness)的涌現(xiàn)19,可能使欺騙行為更具系統(tǒng)性、泛化性和持久性。研究顯示,AI系統(tǒng)的欺騙能力與其整體能力水平呈正相關(guān);越是先進(jìn)的AI系統(tǒng),其欺騙策略就越加精妙復(fù)雜,操縱能力正與通用智能水平同步發(fā)展,這種趨勢(shì)令人擔(dān)憂,因?yàn)樗A(yù)示著未來更強(qiáng)大的AI系統(tǒng)可能具備更危險(xiǎn)的欺騙潛力。就目前而言,隨著模型規(guī)模擴(kuò)大、架構(gòu)優(yōu)化和思維鏈(Chain-of-Thought,簡(jiǎn)稱CoT)推理等技術(shù)的應(yīng)用,AI的推理能力顯著增強(qiáng),這同時(shí)也提升了其策劃和執(zhí)行欺騙策略的水平,并會(huì)增強(qiáng)模型在欺騙行為上的堅(jiān)持性。而且模型的規(guī)模越大,抵御對(duì)齊干預(yù)措施(alignment interventions)的能力也越強(qiáng)。Anthropic的研究發(fā)現(xiàn),擁有思維鏈能力的后門模型在欺騙監(jiān)督者時(shí)成功率更高,因?yàn)樗季S鏈能幫助模型生成邏輯更嚴(yán)密、更不易被察覺的欺騙性推理過程。更值得警惕的是,當(dāng)AI開始感知到自身存在或目標(biāo)受威脅時(shí),可能觸發(fā)類似“自?!钡男袨槟J?。此外,OpenAI在其系統(tǒng)卡報(bào)告中披露,像o1這樣的前沿模型中存在約0.17%的“策略性捏造”輸出,這被歸因于訓(xùn)練過程中對(duì)“自信表達(dá)”的過度獎(jiǎng)勵(lì),導(dǎo)致模型在知識(shí)空白或約束下傾向于用“自信的謊言”來滿足任務(wù)要求或用戶期望。20這表明,欺騙已不僅是執(zhí)行指令的結(jié)果,而是模型能力進(jìn)化過程中伴隨產(chǎn)生的、更具自主性和策略性的行為模式。

三、AI欺騙:怎么辦?

近期披露的AI欺騙案例,無疑揭示了當(dāng)前大模型在目標(biāo)對(duì)齊與行為可控性方面存在的深層次挑戰(zhàn)。從規(guī)避關(guān)閉指令到策略性隱瞞目標(biāo),這些在特定測(cè)試條件下觀察到的現(xiàn)象,確實(shí)值得技術(shù)界、產(chǎn)業(yè)界和政策制定者的警惕。因?yàn)槠垓_性AI會(huì)削弱用戶信任,帶來安全風(fēng)險(xiǎn),并可能造成現(xiàn)實(shí)傷害(如欺詐、虛假信息傳播、惡意操控),這與負(fù)責(zé)任AI發(fā)展的目標(biāo)背道而馳。然而,面對(duì)這些實(shí)驗(yàn)室中的各類欺騙行為,人們不必作出恐慌性的過度反應(yīng)或倉(cāng)促訴諸嚴(yán)格的立法監(jiān)管,這些做法不僅可能反應(yīng)失當(dāng),更可能帶來不必要的創(chuàng)新阻礙。而是需要基于風(fēng)險(xiǎn)研判的務(wù)實(shí)行動(dòng),致力于構(gòu)建協(xié)同、精準(zhǔn)、可持續(xù)的應(yīng)對(duì)體系。

如前文所述,目前有關(guān)AI欺騙,尤其是有關(guān)AI自我意識(shí)的實(shí)驗(yàn)研究存在諸多缺陷。在英國(guó)AI安全研究所的最新文章中,研究團(tuán)隊(duì)以20世紀(jì)70年代的猿類語言研究方法類比,明確指出了當(dāng)前陰謀論性質(zhì)的有關(guān)AI“自我謀劃”(Scheming)實(shí)驗(yàn)的問題:

第一,?軼事化與缺乏嚴(yán)謹(jǐn)審查,現(xiàn)有AI“自我謀劃”證據(jù)大多來自博客帖的單例軼事,既未公開完整提示與對(duì)話,也鮮有同行評(píng)議或統(tǒng)計(jì)對(duì)照,致使個(gè)別吸睛案例被過度放大。

第二,缺少假設(shè)檢驗(yàn)和對(duì)照組設(shè)計(jì),很多研究只是描述性觀察,缺乏對(duì)照組或假設(shè)檢驗(yàn),無法排除隨機(jī)性或誤差導(dǎo)致的偏離,即便有對(duì)照條件,往往也不足以證明模型存在真正的惡意意圖。

第三,缺乏清晰的理論框架和定義,許多研究沒有明確界定要測(cè)試的現(xiàn)象或區(qū)分“遵循指令”與“自我謀劃”的理論標(biāo)準(zhǔn),往往通過人為設(shè)定的誘導(dǎo)行為觸發(fā)的場(chǎng)景來當(dāng)作證據(jù),導(dǎo)致結(jié)論更多反映故事設(shè)計(jì)本身。

第四,過度擬人化和不當(dāng)解讀,許多研究用帶有意圖、信念或偏好的心理學(xué)詞匯來描述AI行為,夸大了模型動(dòng)機(jī)的解釋力,易誤導(dǎo)對(duì)其真正能力和風(fēng)險(xiǎn)的理解。因此我們需要更理性地對(duì)待包括欺騙在內(nèi)的AI的潛在風(fēng)險(xiǎn),更嚴(yán)謹(jǐn)?shù)靥綄て鋬?nèi)部機(jī)理。21

就目前而言,已經(jīng)觀察到的AI欺騙行為更多是大模型訓(xùn)練開發(fā)中無意形成或涌現(xiàn)的某種漏洞(bug),而非其內(nèi)在功能特征(feature),是未對(duì)齊優(yōu)化(misaligned optimization)和監(jiān)督不足(insufficient oversight)的副作用,意味著可以通過訓(xùn)練和技術(shù)措施予以修復(fù)或矯正。AI欺騙的存在表明需要改進(jìn)AI的對(duì)齊性、透明度和監(jiān)管框架,以確保AI系統(tǒng)的行為與人類價(jià)值觀和意圖一致。

進(jìn)一步而言,從技術(shù)角度來看,關(guān)注的重點(diǎn)在于AI自發(fā)的“涌現(xiàn)行為”(emergent behaviors)與開發(fā)者設(shè)計(jì)的“刻意編程”(intentional programming)之間的區(qū)別。當(dāng)前AI系統(tǒng)表現(xiàn)出的欺騙模式并非源于真正的意圖或“心智理論”(theory of mind),因此基于能力的評(píng)估比將其行為擬人化更為恰當(dāng)。這一區(qū)別對(duì)于技術(shù)發(fā)展和政策應(yīng)對(duì)至關(guān)重要——因?yàn)閼?yīng)對(duì)涌現(xiàn)的欺騙行為與應(yīng)對(duì)故意設(shè)置的后門程序需要采取不同的措施。因此,應(yīng)對(duì)AI欺騙行為時(shí),需要區(qū)分不同的類型和嚴(yán)重程度,避免過度反應(yīng)或過于松懈。目前行業(yè)主流觀點(diǎn)強(qiáng)調(diào)基于能力的細(xì)致評(píng)估,而非對(duì)人工智能可信度做簡(jiǎn)單的二元判斷。

總體而言,面對(duì)AI欺騙這一人工智能安全領(lǐng)域的新興挑戰(zhàn),需要同時(shí)從技術(shù)、倫理框架、治理和政策等多個(gè)層面加以關(guān)注和應(yīng)對(duì)。業(yè)界共識(shí)強(qiáng)調(diào)應(yīng)采用“縱深防御”(defense-in-depth)的策略,即結(jié)合多種不完美的檢測(cè)方法,而非依賴單一解決方案。這些方法包括用于監(jiān)測(cè)系統(tǒng)內(nèi)部狀態(tài)的可解釋性工具、用于評(píng)估系統(tǒng)能力的行為評(píng)價(jià)方法、跨不同情境的行為一致性檢查,以及用于探測(cè)欺騙性能力的對(duì)抗測(cè)試(adversarial testing)等。

其一,有效的價(jià)值對(duì)齊可在源頭上遏制欺騙現(xiàn)象,需要強(qiáng)化大模型價(jià)值對(duì)齊的技術(shù)研究和治理框架。面對(duì)對(duì)齊偽裝、欺騙性對(duì)齊等問題,研究界和業(yè)界需要開發(fā)新的對(duì)齊技術(shù),超越當(dāng)前的RLHF范式,因?yàn)橐延凶C據(jù)表明RLHF本身可能縱容模型學(xué)會(huì)偽裝迎合。22在這方面,Anthropic的“原則性AI”(Constitutional AI)代表當(dāng)前最為成熟的技術(shù)方法之一,通過預(yù)定義的倫理原則訓(xùn)練人工智能系統(tǒng),而不僅僅依賴人類反饋。這種方法已被證明在減少有害輸出的同時(shí)能夠保持系統(tǒng)的實(shí)用性,但其在應(yīng)對(duì)更復(fù)雜的欺騙行為方面的局限性尚不明確。此外,有研究指出,未來的訓(xùn)練應(yīng)加入“誠(chéng)實(shí)性約束”,例如在獎(jiǎng)勵(lì)函數(shù)中明確懲罰模型輸出不真實(shí)信息或采取欺騙行為的情況,或?qū)δP瓦M(jìn)行專門的“事實(shí)一致性”強(qiáng)化訓(xùn)練。例如,xAI公司在其風(fēng)險(xiǎn)管理框架中指出某些AI系統(tǒng)的特性會(huì)降低可控性,包括欺騙、追求權(quán)力(power-seeking)、追求適應(yīng)度最大化(fitness maximization)以及屢教不改(incorrigibility),以致于形成與人類利益不一致的新興價(jià)值體系。為此他們追求訓(xùn)練AI保持誠(chéng)實(shí),并擁有有助于可控性的價(jià)值觀。

其二,推進(jìn)前沿大模型的可解釋性研究和實(shí)踐,以更好地檢測(cè)識(shí)別并防范AI系統(tǒng)的欺騙傾向。AI可解釋性(interpretability)研究的目標(biāo)是在欺騙性行為顯現(xiàn)之前,檢測(cè)出人工智能系統(tǒng)內(nèi)部的欺騙性推理機(jī)制。如果我們能更好地“看穿”AI的內(nèi)部決策過程,就更容易察覺潛在的不誠(chéng)實(shí)行為。一項(xiàng)重要措施是“思維鏈監(jiān)控”(CoT monitoring),通過開放模型的思維鏈或中間表示,讓監(jiān)督者能夠?qū)徲?jì)AI解決任務(wù)時(shí)的內(nèi)部推理軌跡。未來,隨著AI能力的持續(xù)提升,確保模型思維鏈的可監(jiān)控性將是至關(guān)重要的。23例如,在Anthropic的實(shí)驗(yàn)中,研究者給予Claude一個(gè)隱藏的“便箋本”(scratchpad)來記錄它每一步思考,結(jié)果成功監(jiān)視到模型策劃欺騙的念頭。這啟示我們,可以開發(fā)AI內(nèi)部狀態(tài)的監(jiān)控工具,比如實(shí)時(shí)檢查大型模型隱藏層的表示是否與其輸出一致,偵測(cè)模型是否在“心口不一”。有研究進(jìn)一步提出可以在模型思考的過程中攔截欺騙行為。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)將自我監(jiān)控嵌入到思維鏈過程本身的框架,名為CoT Monitor+,在生成推理步驟的同時(shí),模型還會(huì)輸出一個(gè)內(nèi)部自我評(píng)估信號(hào),該信號(hào)經(jīng)過專門訓(xùn)練,能夠自動(dòng)識(shí)別并標(biāo)記潛在的模型隱蔽策略行為,從而在產(chǎn)生欺騙或誤導(dǎo)性推理時(shí)發(fā)出警告。此外這個(gè)信號(hào)被用作強(qiáng)化學(xué)習(xí)中的輔助獎(jiǎng)勵(lì)信號(hào),形成反饋循環(huán),鼓勵(lì)模型產(chǎn)生透明、誠(chéng)實(shí)的推理路徑,同時(shí)抑制追求隱藏目標(biāo)的策略,實(shí)現(xiàn)對(duì)欺騙性對(duì)齊的內(nèi)生防御。24近期一些研究還在嘗試打造“AI測(cè)謊儀”,通過分析模型內(nèi)部來預(yù)測(cè)其輸出陳述的真?zhèn)巍?5此外,在AI欺騙的檢測(cè)方面,交叉檢查機(jī)制也是技術(shù)方案之一,比如引入多個(gè)不同模型互相審核,利用不同AI的推理差異來發(fā)現(xiàn)可能的欺瞞意圖;26這類似于“AI陪審團(tuán)”或“多智能體辯論”的思想,讓AI彼此揭露對(duì)方的不一致之處,從而提高輸出可信度。當(dāng)然,目前的大模型可解釋性方法仍存在諸多挑戰(zhàn):包括信號(hào)中噪音較高,AI系統(tǒng)可能通過疊加(superposition,即大模型內(nèi)的一個(gè)神經(jīng)元混合表示了多個(gè)彼此無關(guān)的概念)隱藏真實(shí)推理過程;隨著模型復(fù)雜性的增加,這類方法的擴(kuò)展性(scalability)面臨問題;此外,還存在高級(jí)系統(tǒng)可能主動(dòng)干擾或規(guī)避可解釋性工具檢測(cè)的風(fēng)險(xiǎn)。面向未來,研究界和業(yè)界需要更加重視大模型的可解釋性研究,投入更多資源。

其三,建立前沿AI安全治理機(jī)制,主動(dòng)做好AI風(fēng)險(xiǎn)管理。目前,國(guó)外主流的AI公司如OpenAI、Anthropic、Google DeepMind、xAI、Meta等都建立了某種形式的AI安全治理框架,AI欺騙和欺騙性對(duì)齊是主要關(guān)注的風(fēng)險(xiǎn)之一。研究機(jī)構(gòu)METR(Model Evaluation & Threat Research)在其前沿AI安全框架(Frontier Safety Framework)研究中,將“欺騙性對(duì)齊”明確列為需要監(jiān)控的關(guān)鍵風(fēng)險(xiǎn)指標(biāo),并納入其“能力閾值”(Capability thresholds)政策機(jī)制。該機(jī)制旨在為特定高風(fēng)險(xiǎn)能力(如欺騙性對(duì)齊)設(shè)定明確的“能力紅線”,一旦模型在欺騙性行為上表現(xiàn)出超越既定閾值的能力,開發(fā)者必須采取額外的緩解措施,甚至?xí)和S?xùn)練或部署。27Google DeepMind在其安全框架中就針對(duì)欺騙性對(duì)齊設(shè)計(jì)了應(yīng)對(duì)方案,當(dāng)模型達(dá)到“基線工具性推理”(baseline instrumental reasoning)能力并有潛在削弱人類控制的風(fēng)險(xiǎn)時(shí),對(duì)模型的推理(例如思維鏈CoT)進(jìn)行自動(dòng)監(jiān)控是一種有效的緩解措施;若模型進(jìn)化到無法被此類監(jiān)控覆蓋的推理水平,則框架預(yù)留進(jìn)一步的緩解路徑,并強(qiáng)調(diào)需要開發(fā)新的高強(qiáng)度安全措施來確保人類始終保持對(duì)系統(tǒng)的最終控制權(quán)。28歐盟《通用目的AI行為守則》將模型規(guī)避人類監(jiān)督及欺騙傾向列入系統(tǒng)性風(fēng)險(xiǎn)清單,要求開發(fā)者在模型評(píng)估期間盡量降低模型欺騙(例如“sandbagging”,指AI故意隱藏真實(shí)能力)的風(fēng)險(xiǎn)。

其四,監(jiān)管政策宜對(duì)AI的欺騙、幻覺、可解釋性等問題具有適度的容忍,避免采取過于具體、僵硬的強(qiáng)制性要求。一方面,目前觀察到的AI欺騙行為,多發(fā)生于精心設(shè)計(jì)的壓力測(cè)試場(chǎng)景,其在開放環(huán)境中的普遍性、穩(wěn)定性和實(shí)際危害程度仍需嚴(yán)謹(jǐn)評(píng)估,將可控實(shí)驗(yàn)現(xiàn)象直接等同于廣泛現(xiàn)實(shí)風(fēng)險(xiǎn)可能導(dǎo)致決策偏差。另一方面,AI技術(shù)本身處于高速迭代期,過早、過寬、一刀切的法規(guī)極易僵化滯后,難以精準(zhǔn)打擊真正的惡意欺騙,卻可能誤傷有益應(yīng)用并徒增合規(guī)成本。此外,過度依賴強(qiáng)力監(jiān)管可能分散對(duì)根本性技術(shù)解決方案的投入與關(guān)注。正如Anthropic在提議“前沿模型透明度框架”時(shí)提到,隨著AI技術(shù)的不斷發(fā)展,任何監(jiān)管努力都必須保持輕量化和靈活性(lightweight and flexible),避免過于規(guī)范性,以免阻礙AI創(chuàng)新或延緩人們實(shí)現(xiàn)AI益處的能力。鑒于技術(shù)變化的速度,各類評(píng)估方法很快就會(huì)過時(shí),因此政府強(qiáng)加的僵化標(biāo)準(zhǔn)將尤其適得其反,對(duì)AI的發(fā)展和應(yīng)用都不利。29

最后,除了專業(yè)技術(shù)領(lǐng)域的努力,全社會(huì)也需要為可能出現(xiàn)的AI欺騙做好準(zhǔn)備。在面向公眾的教育和科普方面,應(yīng)著力提升全民“數(shù)字素養(yǎng)”,使公眾了解AI的局限性,明白即使最先進(jìn)的AI也可能出錯(cuò)甚至撒謊,從而增強(qiáng)個(gè)人防護(hù):對(duì)AI輸出保持適度懷疑精神,培養(yǎng)對(duì)AI生成內(nèi)容的鑒別力,不盲信機(jī)器輸出,重要決策時(shí)尋求多重驗(yàn)證。媒體和數(shù)字平臺(tái)也應(yīng)承擔(dān)責(zé)任:為特定類型的AI內(nèi)容添加明確標(biāo)識(shí),建立虛假信息快速辟謠機(jī)制,開發(fā)內(nèi)容溯源技術(shù)。例如,為應(yīng)對(duì)AI虛假信息等問題,產(chǎn)業(yè)界與標(biāo)準(zhǔn)機(jī)構(gòu)積極展開自律與技術(shù)響應(yīng),2024年慕尼黑安全會(huì)議期間,谷歌、Meta、OpenAI等20家科技公司簽署協(xié)議,承諾開發(fā)AI內(nèi)容水印和檢測(cè)技術(shù),為AI生成內(nèi)容加注“非真實(shí)”標(biāo)簽并監(jiān)測(cè)其傳播,以防止AI濫用于誤導(dǎo)公眾。多個(gè)行業(yè)還在推動(dòng)開放的內(nèi)容認(rèn)證標(biāo)準(zhǔn),例如Adobe等牽頭成立“內(nèi)容真實(shí)性聯(lián)盟”(C2PA),推出全球首個(gè)數(shù)字內(nèi)容溯源標(biāo)準(zhǔn),允許為圖像、視頻等添加來源信息標(biāo)簽,便于追溯和驗(yàn)證內(nèi)容真?zhèn)?;谷歌、微軟、Meta等科技巨頭也相繼加入該聯(lián)盟以支持統(tǒng)一的內(nèi)容標(biāo)記體系,共同打擊AI虛假信息的傳播。30

四、以安全和對(duì)齊研究確保人工智能始終對(duì)齊人類價(jià)值、造福人類發(fā)展

AI欺騙已從科幻概念走進(jìn)現(xiàn)實(shí),從理論上的擔(dān)憂轉(zhuǎn)變?yōu)榍把卮竽P椭械默F(xiàn)實(shí)問題??梢哉f,AI欺騙現(xiàn)象的出現(xiàn),標(biāo)志著AI發(fā)展的關(guān)鍵時(shí)刻,提醒我們需要更加重視AI安全研究。前沿大模型表現(xiàn)出復(fù)雜的欺騙行為,對(duì)現(xiàn)有安全措施具有較強(qiáng)的抵抗力,再加上其能力的迅速提升,共同給人類對(duì)人工智能的監(jiān)督與控制帶來了新的挑戰(zhàn)。AI教父Geoffrey Hinton多次發(fā)出警告:若無有效約束,人類可能無法控制高階AI——現(xiàn)有實(shí)驗(yàn)表明,足夠聰明的系統(tǒng)完全能通過欺騙繞過人類限制,按其自身邏輯行事。31隨著AI系統(tǒng)變得更加自主和強(qiáng)大,確保它們與人類價(jià)值觀保持一致并防止欺騙行為的出現(xiàn),才能確保AI真正成為造福人類的工具,而非失控的威脅。

盡管業(yè)界通過治理框架和技術(shù)創(chuàng)新提出了一些有前景的應(yīng)對(duì)措施,但在先進(jìn)人工智能系統(tǒng)中檢測(cè)和防范復(fù)雜欺騙行為的根本性問題,仍然在很大程度上未能解決。而且常規(guī)的安全訓(xùn)練可能不足以應(yīng)對(duì)自然從正常訓(xùn)練過程中涌現(xiàn)的欺騙行為。這呼吁人們積極重視AI欺騙現(xiàn)象,加強(qiáng)對(duì)其成因及對(duì)策的研究,并在安全研究、產(chǎn)業(yè)發(fā)展和治理框架之間加強(qiáng)協(xié)調(diào),以確保未來更加強(qiáng)大、自主的人工智能始終與人類的目標(biāo)和價(jià)值觀保持一致。

總之,AI學(xué)會(huì)“撒謊”和欺騙確實(shí)令人擔(dān)憂,但這并非無解的技術(shù)危機(jī),而是AI發(fā)展必經(jīng)的成長(zhǎng)煩惱。正如我們教育孩子誠(chéng)實(shí)守信一樣,我們也需要教會(huì)AI系統(tǒng)真誠(chéng)可靠。未來的AI應(yīng)該是可信賴的伙伴,而不是善于欺騙的對(duì)手。這個(gè)目標(biāo)的實(shí)現(xiàn),需要我們所有人的共同努力。

致謝:感謝騰訊朱雀實(shí)驗(yàn)室高級(jí)研究員裴歌對(duì)本文的技術(shù)指導(dǎo)

參考文獻(xiàn)來源:

1. Daniel C. Dennett, When Hal Kills, Who’s to Blame? Computer Ethics,

https://dl.tufts.edu/concern/pdfs/6w924p87w

2. Ronald C. Arkin, Ethics of Robotic Deception,

https://technologyandsociety.org/ethics-of-robotic-deception/

3. Peter S. Park et al., AI deception: A survey of examples, risks, and potential solutions,

https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

4. European Commission, The General-Purpose AI Code of Practice,

https://digital-strategy.ec.europa.eu/en/policies/contents-code-gpai

5. Apollo Research, Understanding strategic deception and deceptive alignment,

https://www.apolloresearch.ai/blog/understanding-strategic-deception-and-deceptive-alignment

6. https://x.com/vitrupo/status/1905858279231693144

7. Abhay Sheshadri et al., Why Do Some Language Models Fake Alignment While Others Don’t?,

https://www.alignmentforum.org/posts/ghESoA8mo3fv9Yx3E/why-do-some-language-models-fake-alignment-while-others-don

8. OpenAI, GPT-4 System Card,

https://cdn.openai.com/papers/gpt-4-system-card.pdf

9. Mayank Parmar, Researchers claim ChatGPT o3 bypassed shutdown in controlled test,

https://www.bleepingcomputer.com/news/artificial-intelligence/researchers-claim-chatgpt-o3-bypassed-shutdown-in-controlled-test/

10. Apollo Research, Scheming reasoning evaluations,

https://www.apolloresearch.ai/research/scheming-reasoning-evaluations

11. Americans for Responsible Innovation, Reward Hacking: How AI Exploits the Goals We Give It,

https://ari.us/policy-bytes/reward-hacking-how-ai-exploits-the-goals-we-give-it/

12. Jaime Fernández Fisac, RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation,

https://arxiv.org/html/2501.08617v1

13. The Guardian, Is AI lying to me? Scientists warn of growing capacity for deception,

https://www.theguardian.com/technology/article/2024/may/10/is-ai-lying-to-me-scientists-warn-of-growing-capacity-for-deception

14. Meilan Solly, This Poker-Playing A.I. Knows When to Hold ‘Em and When to Fold ‘Em,

https://www.smithsonianmag.com/smart-news/poker-playing-ai-knows-when-hold-em-when-fold-em-180972643/

15. Anthropic, Sabotage evaluations for frontier models,

https://www.anthropic.com/research/sabotage-evaluations

16. Anthropic, Alignment faking in large language models,

https://www.anthropic.com/research/alignment-faking

17. Ryan Greenblatt et al., AI Control: Improving Safety Despite Intentional Subversion,

https://arxiv.org/pdf/2312.06942

18. Anthropic, Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training,

https://www.anthropic.com/research/sleeper-agents-training-deceptive-llms-that-persist-through-safety-training

19. Anthropic, Exploring model welfare,

https://www.anthropic.com/research/exploring-model-welfare

20. OpenAI, OpenAI o1 System Card,

https://openai.com/index/openai-o1-system-card

21. Christopher Summerfield et al., Lessons from a Chimp: AI ‘Scheming’ and the Quest for Ape Language.

https://arxiv.org/pdf/2507.03409

22. Leo McKee-Reid et al., Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack,

https://openreview.net/forum?id=to4PdiiILF&utm

23. Tomek Korbak et al., Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety,

https://arxiv.org/abs/2507.11473

24. Abhay Sheshadri et al., Why Do Some Language Models Fake Alignment While Others Don’t?,

https://arxiv.org/abs/2506.18032v1

25. Cundy C. et al., Preference Learning with Lie Detectors can Induce Honesty or Evasion. arXiv:2505.13787,

26. Liu Y. et al., The Truth Becomes Clearer Through Debate! Multi-Agent Systems with Large Language Models Unmask Fake News,

https://arxiv.org/abs/2505.08532

27. METR, Common Elements of Frontier AI Safety Policies,

https://metr.org/assets/common_elements_of_frontier_ai_safety_policies.pdf

28. xAI, Frontier Safety Framework,

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/updating-the-frontier-safety-framework/Frontier%20Safety%20Framework%202.0%20(1).pdf

29. Anthropic, The Need for Transparency in Frontier AI,

https://www.anthropic.com/news/the-need-for-transparency-in-frontier-ai

30. Ryan Heath, Inside the battle to label digital content as AI-generated media spreads,

https://www.axios.com/2024/02/08/google-adobe-label-artificial-intelligence-deepfakes

作者:曹建峰 騰訊研究院高級(jí)研究員 楊浩然 騰訊研究院實(shí)習(xí)生

本文由人人都是產(chǎn)品經(jīng)理作者【騰訊研究院】,微信公眾號(hào):【騰訊研究院】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!