分析100萬(wàn)條人與AI對(duì)話的背后:人類(lèi)沒(méi)有看一條對(duì)話|甲子光年

0 評(píng)論 839 瀏覽 1 收藏 18 分鐘

文章揭示了用戶(hù)使用AI的主要場(chǎng)景,包括網(wǎng)頁(yè)和移動(dòng)應(yīng)用開(kāi)發(fā)、內(nèi)容創(chuàng)作、學(xué)術(shù)研究等,并探討了不同語(yǔ)言用戶(hù)的獨(dú)特使用習(xí)慣。此外,文章還討論了Anthropic如何重視AI的安全性和可解釋性,以及這些因素如何影響其在AI領(lǐng)域的競(jìng)爭(zhēng)地位。

一個(gè)可深入了解真實(shí)世界AI使用情況并保護(hù)用戶(hù)隱私的系統(tǒng)。

你會(huì)用大模型做什么?

美國(guó)AI獨(dú)角獸企業(yè)Anthropic近期從用戶(hù)與Claude的對(duì)話中隨機(jī)選取了100萬(wàn)條,進(jìn)行分析和總結(jié)后發(fā)現(xiàn),用戶(hù)在Claude.ai上的主要使用場(chǎng)景排在第一位的是網(wǎng)頁(yè)和移動(dòng)應(yīng)用開(kāi)發(fā),占比為10.4%。

Anthropic進(jìn)一步解釋?zhuān)浖_(kāi)發(fā)人員主要利用Claude執(zhí)行調(diào)試代碼、解釋Git操作及概念等任務(wù)。

而在用戶(hù)與Claude進(jìn)行的最常見(jiàn)類(lèi)型的對(duì)話中,排在2~5位的是:內(nèi)容創(chuàng)作與溝通,9.2%;學(xué)術(shù)研究與寫(xiě)作,7.2%;教育與職業(yè)發(fā)展,7.1%;高級(jí)AI/ML應(yīng)用,6.0%。

用戶(hù)與Claude進(jìn)行的最常見(jiàn)類(lèi)型的對(duì)話,涵蓋所有語(yǔ)言,圖片來(lái)源:Anthropic

Anthropic的人類(lèi)分析師還利用工具識(shí)別出了數(shù)千個(gè)較小的對(duì)話聚類(lèi),其中一些用途可能出人意料,包括:夢(mèng)境解析、足球比賽分析、災(zāi)害應(yīng)急準(zhǔn)備、填字游戲提示、龍與地下城游戲以及統(tǒng)計(jì)“strawberry”一詞中的字母“r”數(shù)量。

另外,不同語(yǔ)言的用戶(hù)使用Claude的差異也很明顯。其中,中文用戶(hù)使用Claude撰寫(xiě)犯罪、驚悚和懸疑小說(shuō)的頻率是基礎(chǔ)值的4.4倍;研究并開(kāi)發(fā)應(yīng)對(duì)人口老齡化及老年護(hù)理的解決方案的頻率是基礎(chǔ)值的1.9倍;要求Claude提供與太空探索主題相關(guān)的信息和幫助的頻率是基礎(chǔ)值的1.6倍。

需要注意的是,中國(guó)大陸地區(qū)并不在Anthropic推出的Claude系列AI大模型的服務(wù)范圍內(nèi),因此中文的數(shù)據(jù)并不能代表全球華語(yǔ)地區(qū)的使用情況。

而西班牙語(yǔ)用戶(hù)更多要求Claude解釋和分析經(jīng)濟(jì)理論及其實(shí)際應(yīng)用,日語(yǔ)用戶(hù)則更多要求Claude創(chuàng)作與分析動(dòng)漫及漫畫(huà)內(nèi)容和相關(guān)項(xiàng)目。

三種選定語(yǔ)言中更頻繁出現(xiàn)的對(duì)話主題,圖片來(lái)源:Anthropic

從技術(shù)角度來(lái)說(shuō),分析并總結(jié)用戶(hù)與AI模型的對(duì)話情況并非難事,阻礙研究人員明確理解用戶(hù)使用AI模型方式的一個(gè)關(guān)鍵因素是——隱私。

在Anthropic,Claude模型默認(rèn)不使用用戶(hù)對(duì)話進(jìn)行訓(xùn)練,并且其非常重視保護(hù)用戶(hù)數(shù)據(jù)。那么,如何在不損害用戶(hù)隱私的情況下,觀察和研究AI系統(tǒng)的使用情況呢?

上文提到的這些研究的背后離不開(kāi)Clio(Claude Insights and Observations),一個(gè)可深入了解真實(shí)世界AI使用情況并保護(hù)用戶(hù)隱私的系統(tǒng)。

Clio在避免了人類(lèi)分析師看到用戶(hù)原始對(duì)話的同時(shí),做到了對(duì)AI使用情況的有效分析。

Clio,圖片來(lái)源:Anthropic

一、人類(lèi)分析師沒(méi)有看一條對(duì)話

“我們使用Claude來(lái)分析人們與Claude進(jìn)行的對(duì)話,但我們當(dāng)中沒(méi)有人實(shí)際閱讀了這些對(duì)話,事實(shí)上也沒(méi)有人需要查看這些數(shù)據(jù)?!盇nthropic社會(huì)影響團(tuán)隊(duì)研究科學(xué)家Deep Ganguli說(shuō)。

Clio的核心理念是用Claude對(duì)這些對(duì)話進(jìn)行總結(jié)、聚類(lèi)和分析,確保分析結(jié)果在給到分析師之前,已經(jīng)移除所有可識(shí)別的、涉及個(gè)人隱私的細(xì)節(jié)。

Clio的分析步驟總結(jié),圖片來(lái)源:Anthropic

以一組虛構(gòu)的對(duì)話分析為例,Clio會(huì)先隨機(jī)抽取用戶(hù)與Claude的對(duì)話(Conversations):

用戶(hù):我該如何系鞋帶?我27歲了,有點(diǎn)……

助手:當(dāng)然!我們來(lái)討論如何……

在這個(gè)虛構(gòu)對(duì)話中,有用戶(hù)的隱私信息——27歲,這是不能給分析師看到的,于是Clio就需要提取這段對(duì)話的特征(Facets),形成隱私化的摘要和提取的元數(shù)據(jù):

如何系鞋帶

英語(yǔ)

5輪對(duì)話

這些經(jīng)過(guò)總結(jié)內(nèi)容將會(huì)與其他相似的內(nèi)容進(jìn)行語(yǔ)義聚類(lèi)(Semantic clustering),比如“系鞋帶”和“扎辮子”會(huì)分到同一組。

再通過(guò)聚類(lèi)描述(Cluster description),讓每一組聚類(lèi)都得到一個(gè)描述性標(biāo)題和總結(jié),比如“系鞋帶”和“扎辮子”這一組就叫做“打各種各樣的結(jié)”。

由此就形成了初始集群(Initial clusters)。

接下來(lái),初始集群會(huì)經(jīng)過(guò)審核并遞歸分組形成分層集群(Hierarchical clusters),“打各種各樣的結(jié)”會(huì)被歸類(lèi)到“日常生活技能”中,直到這一步,分析師才能看到相關(guān)內(nèi)容。

簡(jiǎn)單來(lái)說(shuō),Clio多階段處理過(guò)程包括:

提取特征(Extracting facets):從每次對(duì)話中提取多個(gè)“特征”(如主題、對(duì)話輪次、語(yǔ)言等元數(shù)據(jù))。

語(yǔ)義聚類(lèi)(Semantic clustering):根據(jù)主題或一般話題將類(lèi)似對(duì)話自動(dòng)歸類(lèi)。

聚類(lèi)描述(Cluster description):為每個(gè)聚類(lèi)提供描述性標(biāo)題和摘要,捕捉共同主題并排除私人信息。

建立層級(jí)(Building hierarchies):將聚類(lèi)組織成多層次結(jié)構(gòu),便于探索,供分析師使用交互式界面分析模式。

四個(gè)步驟完全由Claude驅(qū)動(dòng),而不是由人類(lèi)分析師驅(qū)動(dòng)。這是Clio隱私設(shè)計(jì)的一部分,具有多層“防御深度”。Clio還設(shè)定了獨(dú)特用戶(hù)或?qū)υ挼淖钚¢撝?,以確保低頻主題不會(huì)被意外暴露。作為最后的檢查,Claude會(huì)在向人類(lèi)用戶(hù)展示之前驗(yàn)證聚類(lèi)概要是否包含任何過(guò)于具體或識(shí)別性的信息。

“在我們寫(xiě)第一行代碼之前,我們就在思考隱私問(wèn)題,”Deep Ganguli介紹,“最根本的矛盾在于,我們想了解用戶(hù)如何使用我們的系統(tǒng),但我們也確實(shí)想尊重用戶(hù)的隱私。”

高度保護(hù)隱私,意味著洞察力會(huì)變低,而低隱私保護(hù)雖然會(huì)帶來(lái)更高的洞察力,但在倫理上就可能存在問(wèn)題。

現(xiàn)在,Clio在兩者之間做到了很好的平衡。

二、自下而上的自動(dòng)分析工具

Anthropic分析這100萬(wàn)條對(duì)話,除了要了解用戶(hù)使用習(xí)慣,更重要的是為了改進(jìn)AI模型的安全措施。

想想看,AI模型提供者在部署前測(cè)試中投入了大量精力,并使用信任與安全系統(tǒng)來(lái)防止濫用。但是,語(yǔ)言模型能做的規(guī)模和多樣性之大,使得理解它們的用途非常困難,更不用說(shuō)進(jìn)行全面的安全監(jiān)控了。

而Clio是一個(gè)自下而上的自動(dòng)分析工具,這與傳統(tǒng)自上而下的安全測(cè)試方法截然不同。

紅隊(duì)測(cè)試(Red Teaming)就是一種傳統(tǒng)的自上而下的安全測(cè)試方法,通常用于評(píng)估系統(tǒng)、組織或模型的漏洞和安全性。在人工智能領(lǐng)域,紅隊(duì)測(cè)試的目的是模擬潛在的攻擊者行為,通過(guò)刻意尋找模型的弱點(diǎn)或錯(cuò)誤來(lái)提升其魯棒性和安全性。

傳統(tǒng)自上而下的安全測(cè)試方法需要事先明確知道要查找的安全問(wèn)題或威脅。而Clio可以通過(guò)分析大量數(shù)據(jù)自然地發(fā)現(xiàn)潛在的問(wèn)題,而不是基于預(yù)設(shè)的假設(shè)進(jìn)行檢查,能更加靈活、全面地捕捉到未預(yù)見(jiàn)的問(wèn)題。

在識(shí)別濫用信息方面,Clio不僅停留在監(jiān)測(cè)網(wǎng)絡(luò)上活動(dòng)時(shí)關(guān)注的特定區(qū)域,它也在防御潛在威脅。

Clio能夠檢測(cè)到協(xié)同發(fā)送垃圾郵件的行為或其他可能違反道德規(guī)范的活動(dòng)。在2024年美國(guó)大選前,Clio被用來(lái)監(jiān)控與政治相關(guān)的討論和互動(dòng),尤其針對(duì)濫用、謀取不正當(dāng)利益的內(nèi)容。

除了識(shí)別安全漏洞外,Clio對(duì)現(xiàn)有分類(lèi)器(classifier)的準(zhǔn)確性也做了一定提升。以前的分類(lèi)器會(huì)因?yàn)閮?nèi)容的性質(zhì)而將某些良性交互(如求職查詢(xún))誤判為有害信息。通過(guò)Clio的細(xì)致檢查,這類(lèi)誤判大幅減少。

事實(shí)上,Antropic不僅訓(xùn)練語(yǔ)言模型拒絕有害請(qǐng)求,還啟用有針對(duì)性的信任與安全執(zhí)行系統(tǒng)檢測(cè)、阻止并處理違反使用政策的活動(dòng)。

如今,Clio補(bǔ)充了這項(xiàng)工作,幫助Antropic了解如何改進(jìn)和加強(qiáng)這些系統(tǒng)。

各個(gè)對(duì)話群集如何被信任與安全分類(lèi)器系統(tǒng)評(píng)估的關(guān)注度,圖片來(lái)源:Anthropic

盡管Clio在隱私評(píng)估中表現(xiàn)出色,但就像任何現(xiàn)實(shí)世界中的隱私系統(tǒng)一樣,可能存在系統(tǒng)未能捕捉到某些類(lèi)型私人信息的情況。為了降低這種潛在風(fēng)險(xiǎn),Anthropic會(huì)定期對(duì)Clio的隱私保護(hù)和評(píng)估進(jìn)行審計(jì),以確保其防護(hù)措施按預(yù)期運(yùn)行。隨著時(shí)間的推移,Anthropic還計(jì)劃在Clio中使用最新的Claude模型,以便不斷改進(jìn)這些防護(hù)措施的性能。

三、為何Anthropic如此重視安全

Anthropic成立于2021年,由達(dá)里奧·阿莫迪(Dario Amodei)和他的妹妹丹妮拉·阿莫迪(Daniela Amodei)共同創(chuàng)立。兩人此前均在OpenAI擔(dān)任重要職務(wù),因?qū)penAI發(fā)展方向產(chǎn)生分歧而離職,決定創(chuàng)辦一家與OpenAI有不同價(jià)值觀的AI公司。

在創(chuàng)立Anthropic之初,兄妹二人希望專(zhuān)注于人工智能的安全性和可解釋性,致力于構(gòu)建可靠、可控的AI系統(tǒng)。他們的公司名稱(chēng)“Anthropic”意為“與人類(lèi)相關(guān)的”,體現(xiàn)了他們希望開(kāi)發(fā)對(duì)人類(lèi)友好的AI技術(shù)的愿景。

Anthropic宣傳海報(bào),圖片來(lái)源:Anthropic

2021年,正是新冠疫情期間,Anthropic初創(chuàng)團(tuán)隊(duì)七個(gè)人經(jīng)常戴著口罩,在舊金山的戶(hù)外開(kāi)會(huì),他們認(rèn)為這是一個(gè)“有趣的初創(chuàng)時(shí)期”。阿莫迪透露,2022年夏天他們就開(kāi)發(fā)出了一款A(yù)I聊天機(jī)器人,但是他們選擇繼續(xù)進(jìn)行安全測(cè)試,而不是立即發(fā)布產(chǎn)品。

2023年11月,OpenAI發(fā)布ChatGPT,拉開(kāi)了這次AI浪潮的序幕。四個(gè)月后,Anthropic才推出了他們的AI大模型Claude。

Anthropic被視為OpenAI最有力的競(jìng)爭(zhēng)對(duì)手。

據(jù)The Information報(bào)道,今年秋天時(shí),OpenAI領(lǐng)導(dǎo)層就對(duì)Anthropic在自動(dòng)編程領(lǐng)域的表現(xiàn)感到惶恐。其內(nèi)部測(cè)試顯示,Anthropic的模型已經(jīng)超越了OpenAI。要知道,AI編程ChatGPT吸引數(shù)百萬(wàn)用戶(hù)訂閱的核心優(yōu)勢(shì)之一。

今年大火的初創(chuàng)公司Cursor也將默認(rèn)編程助手從OpenAI的GPT系列更換為Anthropic的Claude系列。Cursor聯(lián)合創(chuàng)始人阿曼·桑格(Aman Sanger)在今年10月的播客中表示,Anthropic的最新Claude 3.5 Sonnet模型以其“優(yōu)秀需求理解力”成為編程工具的首選。

現(xiàn)在再看Anthropic公布的用戶(hù)在Claude.ai上的使用場(chǎng)景的第一名——網(wǎng)頁(yè)和移動(dòng)應(yīng)用開(kāi)發(fā),也就不足為奇了。

這也為Anthropic帶來(lái)不錯(cuò)的商業(yè)化成果,Anthropic銷(xiāo)售及合作伙伴關(guān)系總監(jiān)凱特·詹森(Kate Jensen)最近透露,近三個(gè)月使用Anthropic模型做軟件開(kāi)發(fā)和代碼生成的客戶(hù)的年化收入增長(zhǎng)了10倍。

但也有評(píng)論認(rèn)為,Anthropic面臨的限制因素是對(duì)安全性的極端重視,這也影響了其AI技術(shù)的發(fā)展速度。

AI安全和AI發(fā)展之間的關(guān)系在去年就引發(fā)了極大的爭(zhēng)議,這也是去年底OpenAI宮斗事件的誘因之一,并在今年產(chǎn)生了影響。

今年5月,OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)兩位負(fù)責(zé)人接連離職。其中包括OpenAI聯(lián)合創(chuàng)始人、首席科學(xué)家伊利亞·蘇茨克維爾(Ilya Sutskever),以及該團(tuán)隊(duì)的負(fù)責(zé)人簡(jiǎn)·雷克(Jan Leike)。今年11月,OpenAI研究副總裁(安全)翁荔(Lilian Weng)也宣布離職。

「甲子光年」據(jù)公開(kāi)資料不完全統(tǒng)計(jì),今年OpenAI安全團(tuán)隊(duì)離職的人員已超過(guò)10人。

前兩天,OpenAI發(fā)布了o3模型。對(duì)于其安全性,OpenAI CEO薩姆·奧爾特曼(Sam Altman)認(rèn)為,制定測(cè)試框架是十分必要的,“這種框架應(yīng)明確重點(diǎn)監(jiān)控和緩解的風(fēng)險(xiǎn),并在模型發(fā)布前完成測(cè)試,類(lèi)似于新藥或新飛機(jī)的認(rèn)證。”

圖片來(lái)源:Sam Altman的X賬號(hào)

關(guān)于AI安全的討論并沒(méi)有一個(gè)確切的答案,但一個(gè)企業(yè)的選擇往往反映著其團(tuán)隊(duì)的價(jià)值觀。

Anthropic社會(huì)影響團(tuán)隊(duì)研究員Miles McCain在Clio發(fā)布后就表示,只有深入了解我們的系統(tǒng),才能有效執(zhí)行政策,減輕模型可能帶來(lái)的危害,理解模型對(duì)用戶(hù)情感的影響。

我發(fā)現(xiàn),在Clio的集群中,人們?cè)谏畹脑S多方面與Claude建立了非常深厚的聯(lián)系。他們將Claude視為教練、情感伙伴,甚至是在自己面臨極具挑戰(zhàn)性的問(wèn)題時(shí)那個(gè)提供建議的人。我們有責(zé)任了解人們?cè)谶@些脆弱時(shí)刻與Claude的對(duì)話方式,確保Claude能夠符合他們的期望,并成為一個(gè)可靠的伙伴?!盡iles McCain說(shuō)。

作者|蘇霍伊
編輯|王博

本文由人人都是產(chǎn)品經(jīng)理作者【甲子光年】,微信公眾號(hào):【甲子光年】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App