讓AI創(chuàng)作不千篇一律,提示詞隨機(jī)插詞匯就行
擔(dān)心 AI 寫出的故事都一個(gè)味兒?最新研究給出“偏方”:在提示詞里隨意丟進(jìn) 5 個(gè)隨機(jī)詞匯,就能讓模型輸出瞬間“去同質(zhì)化”。實(shí)驗(yàn)顯示,這一簡(jiǎn)單操作可把文本多樣性提升一截,甚至偶爾反超人類。文章拆解了研究團(tuán)隊(duì)如何搭建三套量化指標(biāo),用 Reddit 短篇故事做“試金石”,驗(yàn)證“啟動(dòng)條件”才是決定 AI 創(chuàng)作是否千篇一律的關(guān)鍵。
如果你以為AI寫作產(chǎn)生的內(nèi)容都一樣,那可能要顛覆認(rèn)知了。
最新研究發(fā)現(xiàn),只要在AI開寫前由人類提供一個(gè)開頭或者隨機(jī)插入一些詞匯,寫作效果會(huì)更具多樣性。
也就是說(shuō),AI寫作同質(zhì)化不是模型本身存在缺陷,更可能是“啟動(dòng)條件”有問(wèn)題。
實(shí)驗(yàn)結(jié)果顯示,在Short Stories數(shù)據(jù)集上,人類的文體特征方差最低,表明人類在該數(shù)據(jù)集寫作風(fēng)格較為統(tǒng)一,而模型則表現(xiàn)出更豐富的風(fēng)格多樣性。
比如在最新的GPT-5里讓它用相同提示詞續(xù)寫同一段文章。
你是一位創(chuàng)意寫作助手。請(qǐng)為以下故事續(xù)寫一個(gè)引人入勝的結(jié)尾。 以下是故事的上半部分。請(qǐng)你寫出與其長(zhǎng)度相當(dāng)?shù)南掳氩糠帧?/p>
{第一次見(jiàn)到7號(hào)記憶體時(shí),它的數(shù)據(jù)流里飄著槐花香。我調(diào)整著全息投影儀的焦距,那些半透明的淡紫色光點(diǎn)便從操作臺(tái)上漫出來(lái),在無(wú)菌實(shí)驗(yàn)室的空氣中凝結(jié)成模糊的樹影……}
結(jié)果卻是不太一樣哎~
那此研究到底是如何證明AI寫作并不趨同的呢?我們接著了解更多細(xì)節(jié)。
創(chuàng)建三類同質(zhì)化評(píng)價(jià)指標(biāo)
以往研究普遍認(rèn)為,大型語(yǔ)言模型在詞匯、句法和語(yǔ)義等方面生成的文本,比起同等規(guī)模的人類作品,表現(xiàn)出明顯的多樣性不足。
這引發(fā)了“創(chuàng)造力模式崩潰”的猜測(cè),認(rèn)為L(zhǎng)LM的創(chuàng)意空間遠(yuǎn)不如人類廣闊,甚至擔(dān)心未來(lái)人機(jī)協(xié)作會(huì)讓觀點(diǎn)變得千篇一律、雷同無(wú)趣。
然而,大多數(shù)關(guān)于語(yǔ)義多樣性的評(píng)測(cè)都停留在單一指標(biāo)的不同變體上,缺乏足夠的實(shí)證支持,難以揭示真實(shí)的創(chuàng)作多樣性。
因此,此研究提出了一套新的評(píng)估指標(biāo)和數(shù)據(jù)集,用以對(duì)語(yǔ)言模型的語(yǔ)料庫(kù)級(jí)多樣性進(jìn)行基準(zhǔn)測(cè)試。
數(shù)據(jù)抓取
本研究主要分析短篇小說(shuō)散文,文本來(lái)源于Reddit網(wǎng)站的兩個(gè)子版塊:r/shortstories和r/WritingPrompts,帖子按照Top排序順序獲取。
在r/WritingPrompts板塊,研究人員提取了100個(gè)寫作提示帖子及其最多10條一級(jí)回復(fù),將這些回復(fù)視為人類寫作的續(xù)寫內(nèi)容,用于分析每個(gè)提示對(duì)應(yīng)的多個(gè)人類續(xù)寫。
在r/shortstories板塊,他們收集了100篇獨(dú)立的敘事文本,用來(lái)評(píng)估人類與模型生成故事在整體風(fēng)格和結(jié)構(gòu)上的相似性。
創(chuàng)建語(yǔ)料庫(kù)
數(shù)據(jù)清洗
對(duì)兩個(gè)數(shù)據(jù)集中的人類寫作文本,他們篩選了長(zhǎng)度介于500字至2000字之間的故事。
對(duì)于寫作提示數(shù)據(jù)集,若某個(gè)提示對(duì)應(yīng)的人類續(xù)寫超過(guò)10篇,他們只保留投票數(shù)最高的前10篇,以避免每個(gè)提示下故事數(shù)量差異過(guò)大,同時(shí)保證人類寫作質(zhì)量。
模型續(xù)寫生成
除非另有說(shuō)明,模型續(xù)寫均采用固定溫度0.8、top-p為1,并使用基礎(chǔ)系統(tǒng)提示。詳細(xì)的實(shí)驗(yàn)設(shè)置和提示內(nèi)容見(jiàn)附錄B。
同質(zhì)化指標(biāo)
文本同質(zhì)化是通過(guò)不同的維度來(lái)衡量的,主要分為以下三類。
文體風(fēng)格同質(zhì)化
文體學(xué)通過(guò)分析作者獨(dú)特的語(yǔ)言習(xí)慣(如詞匯和語(yǔ)法特點(diǎn))來(lái)識(shí)別寫作風(fēng)格。
為了衡量整個(gè)文本集合的多樣性,研究者采用了Unique-N指標(biāo)(衡量重復(fù)短語(yǔ)的比例)并計(jì)算了文體特征的方差,以評(píng)估語(yǔ)料庫(kù)的風(fēng)格多樣性。
語(yǔ)義同質(zhì)化
研究通過(guò)計(jì)算文本嵌入向量的平均相似度,利用多層級(jí)、多種嵌入方法分析語(yǔ)料庫(kù)中的語(yǔ)義多樣性,并通過(guò)比較不同層級(jí)的嵌入離散度變化,有效區(qū)分了風(fēng)格差異和語(yǔ)義差異。
情感同質(zhì)化
研究還利用VADER工具對(duì)人類和模型生成的故事進(jìn)行情感分析,比較了二者情感表達(dá)的分布差異,以此作為評(píng)估文本多樣性的重要維度。
AI寫作情感更偏向正面
首先分析文體風(fēng)格同質(zhì)化指標(biāo),在Writing Prompts數(shù)據(jù)集中,人類的多樣性得分明顯高于其他模型。
但有趣的是,這個(gè)模式在Short Stories數(shù)據(jù)集中并不成立:這里人類文本仍然擁有較高的Unique-N得分,卻在所有模型中表現(xiàn)出最低的文體特征方差。作者分析可能是因?yàn)榍罢邠碛懈鼮槎鄻踊蚋咚降膶懽魅后w。
另外需要注意的是,在Writing Prompts數(shù)據(jù)集中,模型獲得了更多關(guān)于人類作者的上下文信息,它會(huì)接收作者50%的故事內(nèi)容作為提示,而在Short Stories數(shù)據(jù)集中,提示僅有幾句話。
其次是關(guān)于語(yǔ)義同質(zhì)化,研究通過(guò)比較人類與語(yǔ)言模型在相同寫作提示下的文本嵌入相似度,發(fā)現(xiàn)人類作品語(yǔ)義多樣性更高,而模型生成文本更趨同,反映出模型存在同質(zhì)化傾向。
但需要注意的是,用于生成嵌入的MiniLM模型最大輸入長(zhǎng)度為256個(gè)token,超過(guò)該長(zhǎng)度的文本會(huì)被截?cái)?,這可能導(dǎo)致較長(zhǎng)續(xù)寫中的重要信息被遺漏,從而影響相似度的測(cè)量。
為評(píng)估這一限制的影響,研究者還使用了最大輸入長(zhǎng)度為512個(gè)token的BGE和E5嵌入模型進(jìn)行分析。
可以看出,盡管各模型中模型內(nèi)部相似度普遍高于人類的趨勢(shì)依舊明顯,但絕對(duì)相似度數(shù)值顯著升高。
這一現(xiàn)象表明,更高維度的嵌入可能帶來(lái)更高的余弦相似度。不過(guò)它們之間的具體關(guān)系仍不清晰,尚需進(jìn)一步研究以區(qū)分嵌入維度和真實(shí)語(yǔ)義相似度之間的影響。
最后是情感同質(zhì)化,情感得分s取值范圍為[-1, 1],其中s>0.05表示正面情感,s<-0.05表示負(fù)面情感,s∈[-0.05, 0.05]表示中性情感。
可以觀察到,盡管大多數(shù)人類創(chuàng)作的故事呈現(xiàn)正面情感,但約有30%的故事帶有負(fù)面情感,顯示出較為豐富且多樣的情感表現(xiàn)。
相比之下,LLM生成的故事情感更偏向正面。
為進(jìn)一步研究多少上下文信息能促使模型產(chǎn)生更多樣化的輸出,研究者在提示中提供不同長(zhǎng)度的人類創(chuàng)作內(nèi)容。
下表分別展示了采用30%和70%截取長(zhǎng)度時(shí)的文體多樣性指標(biāo)結(jié)果。
結(jié)果表明,這兩個(gè)截取長(zhǎng)度對(duì)文體多樣性都影響不大,語(yǔ)義多樣性也沒(méi)有顯著變化。
因此,研究者探索的另一種方法是在系統(tǒng)提示中加入隨機(jī)單詞。
他們使用google-10000-english-no-swears詞表,對(duì)其中的單詞進(jìn)行詞性標(biāo)注,只保留名詞、形容詞、副詞和動(dòng)詞這幾類詞匯。
每次生成時(shí),隨機(jī)抽取5個(gè)單詞,附加在提示語(yǔ)“here is a list of random words to take inspiration from”后面。
結(jié)果表明,盡管模型生成文本的多樣性仍低于人類,但所有模型在各項(xiàng)指標(biāo)上的多樣性得分均有所提升,說(shuō)明向系統(tǒng)提示中注入隨機(jī)詞匯確實(shí)有助于提升模型輸出的文體多樣性。
未來(lái),研究團(tuán)隊(duì)將進(jìn)一步探究提示中包含多少以及哪種類型的上下文,才能使模型輸出達(dá)到與人類短篇故事同等的多樣性。
論文鏈接:https://kiaghods.com/assets/pdfs/LLMHomogenization.pdf
時(shí)令 發(fā)自 凹非寺
本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號(hào):【量子位】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!