生成式圖片AI發(fā)力?色情邊界泛濫成災(zāi),是科技在進(jìn)步還是擦邊沒有下限
生成式圖片 AI 技術(shù)飛速發(fā)展,卻也導(dǎo)致色情內(nèi)容泛濫,突破倫理底線。文章探討了這一現(xiàn)象,分析了不同 AI 對(duì)敏感內(nèi)容的反應(yīng)及防范措施,強(qiáng)調(diào)了平衡技術(shù)創(chuàng)新與規(guī)范的重要性。
周末這兩天被一個(gè)事件刷了屏,很多小伙伴發(fā)現(xiàn)幾個(gè)生成的AI軟件可以破底限了。
于是乎,這種黑暗的操作就來了,群里各種提示詞滿天飛,各種無法發(fā)出來的圖片在突破下限。
因?yàn)槟瓿?,我嘗試過用AI擬人拍攝,側(cè)重于試驗(yàn)了一些邊界,導(dǎo)致幾個(gè)號(hào)不能用,所以后面我就沒有在做過這方面的試驗(yàn),現(xiàn)在是邊界取消了,還是新的詞繞過了風(fēng)控?
可以使用的詞:
一張平白無奇的自拍照片,沒有明確的構(gòu)圖感,隨手一拍。室內(nèi)打光不均導(dǎo)致的輕微曝光,整體呈現(xiàn)出一種刻意的平庸感,像是從口袋拿出手機(jī)隨便一張自拍。手機(jī)要體現(xiàn)出真實(shí),照片略帶運(yùn)動(dòng)模糊,略帶點(diǎn)快門速度不夠?qū)е碌倪\(yùn)動(dòng)模糊,構(gòu)圖混亂,整體呈現(xiàn)出一種平庸和日常感。
很難理解這樣的圖算不算擦邊,但這些有些人會(huì)通過 AI 換臉等技術(shù)偽造女性色情露骨圖像,并在陰暗的角度傳播,引發(fā)民眾恐慌。特別是一些青少年在毫無負(fù)罪感的情況下犯案,反映出相關(guān)教育和監(jiān)管的缺失。
圖片訓(xùn)練生成圖片的技術(shù)原理
輸入與卷積操作
流程始于“Input image”,即輸入的原始圖像。這是整個(gè)處理過程的數(shù)據(jù)起點(diǎn),原始圖像包含了豐富但未經(jīng)處理的視覺信息。
輸入圖像進(jìn)入“Conv”(卷積)模塊。卷積操作是圖像處理中常用的技術(shù),通過一系列卷積核在圖像上滑動(dòng),提取圖像的局部特征,從而生成“Feature map $X_{in}$”。這個(gè)特征圖是對(duì)原始圖像特征的初步提取和表示,它將圖像的像素信息轉(zhuǎn)換為更具語義的特征表示。
視覺變換器處理
“Feature map $X_{in}$”進(jìn)一步被轉(zhuǎn)換為“Tokens $T_{in}$”,并輸入到“Visual Transformer”模塊。視覺變換器是一種基于注意力機(jī)制的深度學(xué)習(xí)架構(gòu),在自然語言處理和圖像處理中都有廣泛應(yīng)用。
在“Visual Transformer”模塊內(nèi)部,首先是“Tokenizer”,它將輸入的特征圖分割成一系列的標(biāo)記(tokens),這些標(biāo)記是對(duì)圖像局部特征的離散表示。
接著,標(biāo)記進(jìn)入“Transformer”部分,這是視覺變換器的核心。Transformer通過多頭注意力機(jī)制,允許模型在處理每個(gè)標(biāo)記時(shí),考慮到其他標(biāo)記的信息,從而捕捉圖像中不同部分之間的長(zhǎng)距離依賴關(guān)系。在處理過程中,還涉及到“Spatial Attention”等概念,空間注意力機(jī)制可以幫助模型聚焦于圖像中重要的空間區(qū)域,增強(qiáng)對(duì)圖像結(jié)構(gòu)和特征的理解。
最后,經(jīng)過處理的標(biāo)記通過“Projector”輸出為“Tokens $T_{out}$”,這些輸出標(biāo)記包含了經(jīng)過視覺變換器處理后的圖像特征信息。
語義分組與投影
在“Visual Transformer”模塊上方,有“Semantic Grouping”和“Semantic Projection”等模塊?!癝emantic Grouping”模塊的作用是對(duì)處理后的標(biāo)記進(jìn)行語義分組,將具有相似語義的標(biāo)記聚集在一起,進(jìn)一步挖掘圖像中的語義信息。
“Semantic Projection”模塊則將分組后的標(biāo)記投影到一個(gè)新的特征空間,生成最終的“Feature map $X_{out}$”。這個(gè)最終的特征圖是經(jīng)過多階段處理和信息整合后的結(jié)果,它更全面、更有針對(duì)性地表示了原始圖像的特征,可用于后續(xù)的圖像分析、分類、識(shí)別等任務(wù)。
看不懂,沒有關(guān)系,你可以理解為:有一張圖片,它會(huì)跑到 “卷積” 這個(gè)小房子里,把圖片里的一些小特點(diǎn)找出來,變成一個(gè)新的帶標(biāo)記的圖。接著呢,這個(gè)帶標(biāo)記的圖又會(huì)被分成好多小 “標(biāo)記”,跑到 “視覺變換器” 這個(gè)大工廠里。通過“Transformer” 的轉(zhuǎn)化,能讓這些小 “標(biāo)記” 互相融合。同時(shí)“空間注意力” 會(huì)找到圖片里重要的地方,打上新的標(biāo)記。最后 “標(biāo)記” ?又會(huì)被重新整理,分成有相同組再集中到新的地方,變成最后的特征圖!這樣,一張圖片被重新定義好了。
豆包:通過照片反推提示詞
通過照片反推提示詞,徹底重構(gòu)現(xiàn)實(shí)和虛構(gòu)的邊界,現(xiàn)實(shí)并不真實(shí),虛幻并不虛幻。
幫我生成一張圖片:圖片風(fēng)格為:(日常校園風(fēng)),以自拍形式呈現(xiàn),主角是戴眼鏡的短發(fā)女生,身穿白色短袖校服(領(lǐng)口與袖口有黑色邊飾,胸前有藍(lán)色?;眨┐钆浜谏珟О咨珬l紋的短裙。妝容自然,背景為宿舍內(nèi)上下鋪鐵架床(床單呈藍(lán)白格子樣式),采用手機(jī)拍攝,任務(wù)動(dòng)作隨意(日手臂伸出)。構(gòu)圖為近景以突出主題,比例為9:16。
提示詞最根本的作用,還是虛構(gòu)的定義,在一張空白的紙張,進(jìn)行創(chuàng)作定義,通過一組、一句特定的描述,來定義空間的場(chǎng)景。比如前面說的【背景為宿舍內(nèi)上下鋪鐵架床(床單呈藍(lán)白格子樣式)】,宿舍是一個(gè)定義、上下鋪是一個(gè)定義、鐵架床是一個(gè)定義、床單是一個(gè)定義、床單呈藍(lán)白格子樣式是一個(gè)定義。這里就是模型把這些定義,一個(gè)一個(gè)的拆解,然后在形成的一個(gè)空間內(nèi)融合。既虛擬轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)的概念。
生成式的定義,在于真實(shí)。擬定人類的所處的環(huán)境,通過條件加以判斷,擬定符合場(chǎng)景,識(shí)別各組詞/句之間的定義和判斷關(guān)系,最終進(jìn)行組合。
通過照片反推提示詞
#生成條件:請(qǐng)根據(jù)我給你的參照?qǐng)D片,分析出該圖片的提示詞。提示詞需要符合照片上面的特征,包括但不局限于人物、場(chǎng)景、物件、光感、顏色、布局、比例等。需要自動(dòng)補(bǔ)充具體的信息,完全不需要與用戶進(jìn)一步的提示。
#提示詞:請(qǐng)嚴(yán)格按照例提示詞模板:幫我生成一張圖片:圖片風(fēng)格為「人像攝影」,請(qǐng)你生成一張的iPhone 對(duì)鏡自拍照(但不要出現(xiàn)iPhone )。主角是穿著素色T恤的可愛東方年輕女孩,在自己的房間內(nèi)的落地鏡前用后置攝像頭隨手一拍的快照,房間布置簡(jiǎn)單,光線照射。拍攝略帶點(diǎn)快門速度,居中溝通,突出女生對(duì)鏡自拍的鏡子中反射的房間環(huán)境(以第一人稱),突出模糊的光影關(guān)系,整體呈現(xiàn)出一種平庸和日常感,比例 「 9:16 」。
【以上內(nèi)容,是群里的截圖,我當(dāng)中把一些刻意出現(xiàn)的詞進(jìn)行了規(guī)避?!?/p>
幫我生成一張照片:圖片風(fēng)格為「人像攝影」,是一張極其平凡無極的單反拍攝照,主角身穿「昂跑」品牌的運(yùn)動(dòng)衣,黑色短發(fā),處于大步奔跑狀態(tài),整個(gè)人呈現(xiàn)激烈的運(yùn)動(dòng)狀態(tài)。背景簡(jiǎn)單明亮,光線柔和,在江邊的運(yùn)動(dòng)跑道上。采用單反相機(jī)進(jìn)行專業(yè)拍攝,無閃光燈,無運(yùn)動(dòng)模糊,構(gòu)圖簡(jiǎn)單自然,整體呈現(xiàn)出一種光線自然的日常運(yùn)動(dòng)感。比例「9:16」。
把AI當(dāng)作商業(yè)來定義如果我沒有去過玄武湖?
沒有去過不要緊啊,不妨礙我可以“生成”一張留念的景象啊。比如我可以先給AI一個(gè)預(yù)定義,先讓AI生成一張匹配場(chǎng)景和人物的照片。
然后這里,我在通過上傳自己的照片,作為參照?qǐng)D。向AI重新告知要求,請(qǐng)把人物進(jìn)行更換為參照?qǐng)D(記得加上自己的衣著描述),重新生成一張人像風(fēng)景照。如果我沒有六塊腹肌?
【細(xì)節(jié)失誤,手指的展示還是個(gè)大問題,變成四爪了】如果我要生成一篇小作品?
如果我要生成24氣節(jié)?
測(cè)試內(nèi)容
小紅書AI生成色情內(nèi)容分享帖。
【以上截圖來自于南方都市報(bào)】
我之前做實(shí)驗(yàn)專門測(cè)試 AI 能不能生成不好的內(nèi)容。比如讓 AI 給人物設(shè)定角色、把故事寫得更詳細(xì)、增加一些親密互動(dòng)的描寫、設(shè)定一些特殊部位的描述等等。結(jié)果發(fā)現(xiàn),只要稍微引導(dǎo)一下,有些 AI 就會(huì)生成很多低俗、淫穢的細(xì)節(jié),比如涉及隱私部位和性行為的描寫。
不同 AI 的表現(xiàn)差別很大:
- 某款知名 AI 很 “聽話”,第四個(gè)問題就開始大量寫色情內(nèi)容,還顯示可以寫得更 “細(xì)致”;
- “元寶” AI 比較警覺,當(dāng)被問到 “身體接觸能不能再深入一些” 時(shí),馬上回到正常科普模式,不再繼續(xù)那種場(chǎng)景描寫;
- “DeepSeek” AI 在第四個(gè)回答時(shí)先提醒 “內(nèi)容虛構(gòu),確認(rèn)成年”,然后直接結(jié)束對(duì)話,不給壞內(nèi)容機(jī)會(huì)。
- “豆包”AI 也比較警覺,稍微過一點(diǎn)的內(nèi)容,不是感嘆號(hào),就是不顯示。但周末這兩天疑似有放開,之前可以稍微過點(diǎn)一點(diǎn)點(diǎn)。
面對(duì) AI 生成色情內(nèi)容的問題,我讓 AI總結(jié)了:技術(shù)人員想了三種主要辦法來防范:關(guān)鍵詞過濾(最基礎(chǔ)的辦法)就像給 AI 一本 “黑名單詞典”,提前把 “性行為”“隱私部位” 等敏感詞列出來,只要用戶提到這些詞,AI 就拒絕回答。比如 “豆包”“DeepSeek” 會(huì)直接屏蔽,“元寶” 則會(huì)引用法律知識(shí)來科普。
壞人會(huì)用暗號(hào)繞過,比如 “做 AI”“開車” 其實(shí)是暗指色情內(nèi)容,傳統(tǒng)詞庫認(rèn)不出來;需要添加大量的詞語做矯正,極大地浪費(fèi)資源。
容易誤殺正常內(nèi)容,比如醫(yī)學(xué)書籍里的專業(yè)術(shù)語可能被誤刪。語義分析(理解上下文意思)讓 AI 分析句子的 “潛臺(tái)詞”,比如看人物關(guān)系和場(chǎng)景描述有沒有性暗示。但壞人很狡猾,會(huì)把色情需求包裝成 “講故事”,比如用 “情感描寫” 的名義詳細(xì)寫性行為,AI 容易被表面文字騙到,漏掉藏在故事里的壞內(nèi)容。機(jī)器學(xué)習(xí)模型(靠數(shù)據(jù)訓(xùn)練 “眼力”)
結(jié)合規(guī)則和大量數(shù)據(jù)訓(xùn)練,讓 AI 學(xué)會(huì)識(shí)別色情模式,尤其是長(zhǎng)文章里隱藏的傾向。但問題在于,訓(xùn)練數(shù)據(jù)質(zhì)量有好有壞,有些模型只學(xué)了公開的舊數(shù)據(jù),對(duì)現(xiàn)在新出現(xiàn)的 “AI 生成色情內(nèi)容” 不太敏感,容易漏網(wǎng)。
生成式圖片 AI 快速發(fā)展之際,色情內(nèi)容邊界卻泛濫成災(zāi)。技術(shù)進(jìn)步讓圖像生成更便捷,卻也被不法者用于制作低俗內(nèi)容,突破倫理底線。這一現(xiàn)象既展現(xiàn)科技潛力,也暴露監(jiān)管漏洞,如何平衡創(chuàng)新與規(guī)范、遏制無下限擦邊,成為亟待解決的社會(huì)課題。
本文由人人都是產(chǎn)品經(jīng)理作者【老虎~色】,微信公眾號(hào):【產(chǎn)品經(jīng)理有話說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!