AI圖像生成技術(shù)發(fā)展史:從像素藝術(shù)到智能創(chuàng)作的技術(shù)革命
“如果你告訴1960年代的計算機科學(xué)家,有一天機器能夠僅憑一句話就畫出逼真的畫作,他們可能會覺得你在說科幻小說。但這個看似不可能的夢想,經(jīng)過六十多年的技術(shù)積累,真的實現(xiàn)了。
從最初笨拙的幾何圖形繪制,到今天能夠生成"紅藍色動力甲蜘蛛俠背上帶蜘蛛義肢全身形象"并生成精美圖像,這個效果如今已經(jīng)媲美曾經(jīng)設(shè)計師一周的工作量,但是這條路走得并不容易。每一個技術(shù)突破的背后,到底AI是如何一步步學(xué)會"畫畫"的呢?”
01.早期探索:當(dāng)計算機第一次拿起”畫筆”(1960-2000年)
一切從Sketchpad開始
1963年說起。MIT的博士生Ivan Sutherland創(chuàng)造了一個叫Sketchpad的程序,這可能是人類歷史上第一個真正意義上的計算機繪圖軟件。在那個年代,大多數(shù)人連計算機長什么樣都沒見過,
Sutherland就已經(jīng)在用光筆直接在屏幕上畫圖了。Sketchpad奠定了現(xiàn)代計算機圖形學(xué)和人機交互(HCI)的基礎(chǔ),為后來的AI繪圖埋下了種子。
神經(jīng)網(wǎng)絡(luò)的早期萌芽
同一時期,另一條技術(shù)路線也在悄悄發(fā)展。1979年,日本科學(xué)家福島邦彥提出了Neocognitron一個模仿視覺皮層工作方式的神經(jīng)網(wǎng)絡(luò)。當(dāng)時的人們可能沒有意識到,這個看起來很學(xué)術(shù)的模型,被認為是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)(CNN)的重要先驅(qū),其實也是是今天所有深度學(xué)習(xí)圖像處理技術(shù)的鼻祖。
Neocognitron的設(shè)計靈感來自于Hubel和Wiesel對貓視覺皮層的研究,模擬了視覺皮層中簡單細胞和復(fù)雜細胞的工作機制。在Hubel-Wiesel模型里面,通過動物的視覺刺激, 來觀察了腦部接受的電信號來提出假設(shè)模型。
而福島提出了類似的神經(jīng)網(wǎng)絡(luò)模型用來做模式識別的進程。先識別邊, 然后識別特征, 然后模式識別。 這不就是我們介紹深度學(xué)習(xí)里面用得最多的東東?
并且為此構(gòu)建了網(wǎng)絡(luò)模型, 是個多層網(wǎng)絡(luò)模型, 并且命名了簡單單元和復(fù)雜單元的映射, 作為每個層次識別的層結(jié)構(gòu)。
1985年,Geoffrey Hinton(就是那個后來獲得諾貝爾獎的”深度學(xué)習(xí)之父”)和同事們發(fā)明了玻爾茲曼機。這個名字聽起來很高深,其實核心思想很直觀:讓機器通過統(tǒng)計學(xué)的方法來理解數(shù)據(jù)的規(guī)律。就像人類通過觀察大量畫作來理解什么是”美”一樣。
玻爾茲曼機的核心奧秘在于能夠“學(xué)習(xí)”并找出數(shù)據(jù)中隱藏的模式。你可以把它看作是一個能夠通過調(diào)整內(nèi)部連接(我們稱之為“權(quán)重”)來理解復(fù)雜信息的機器,它不像傳統(tǒng)程序那樣需要你一步步告訴它怎么做,而是能夠自己摸索著學(xué)習(xí)。這個過程之所以被稱為“玻爾茲曼”。
玻爾茲曼機就是一個裝滿開關(guān)和磁鐵的盒子,它通過隨機撥動開關(guān),讓盒子整體越來越“舒服”(能量最低)。它還能通過看我們給它的“案例”,學(xué)會調(diào)整哪些開關(guān)之間該用吸引磁鐵,哪些該用排斥磁鐵。
深度學(xué)習(xí)的”覺醒”
2006年是個重要的年份。Hinton在《Science》雜志上發(fā)表了一篇劃時代論文《Reducing the Dimensionality of Data with Neural Networks》,證明了深度神經(jīng)網(wǎng)絡(luò)可以被有效訓(xùn)練。這聽起來很技術(shù)化,但簡單說就是:機器終于學(xué)會了如何從復(fù)雜的數(shù)據(jù)中提取有意義的特征。
這就像是給了機器一雙能夠理解世界的“眼睛”。有了這雙眼睛,后面的故事才真正開始。
02.深度學(xué)習(xí)時代:機器開始“理解”圖像(2010-2016年)
變分自編碼器(VAE):第一次真正的”創(chuàng)作”
2013年12月,兩位荷蘭科學(xué)家Kingma和Welling發(fā)布了變分自編碼器(VAE)。這個技術(shù)的厲害之處在于,它不僅能復(fù)制已有的圖像,還能創(chuàng)造出全新的、從未見過的圖像。
把概率圖模型的“變分推斷”和神經(jīng)網(wǎng)絡(luò)的“反向傳播”無縫拼在一起:
編碼器把輸入 x 變成隱變量 z 的概率分布(而不是一個點);解碼器再把 z 還原成 x 的分布;目標(biāo)函數(shù)是“重構(gòu)誤差 + KL 散度”,既能生成新數(shù)據(jù),又能給出似然估計。
想象一下,如果你教一個孩子畫蘋果,傳統(tǒng)的方法是讓他模仿現(xiàn)有的蘋果畫。但VAE就像是教會了這個孩子理解”蘋果”這個概念的本質(zhì),然后他就能畫出各種不同的蘋果,甚至是世界上不存在的蘋果品種。
GAN的誕生:一場”藝術(shù)較量”
2014年6月的一個晚上,在蒙特利爾的一家酒吧里,Ian Goodfellow和朋友們正在討論如何讓機器生成更好的圖像。當(dāng)朋友們提出各種復(fù)雜的數(shù)學(xué)方法時,Goodfellow突然想到了一個絕妙的點子:為什么不讓兩個神經(jīng)網(wǎng)絡(luò)互相競爭呢?
就這樣,生成對抗網(wǎng)絡(luò)(GAN)誕生了。一個網(wǎng)絡(luò)專門負責(zé)”畫畫”(生成器),另一個網(wǎng)絡(luò)專門負責(zé)”鑒定真假”(判別器)。兩者在不斷的對抗中互相提高,就像真正的藝術(shù)家在競爭中成長一樣。
GAN 的核心思想是同時訓(xùn)練兩個深度神經(jīng)網(wǎng)絡(luò):
- 生成器Generator:負責(zé)“繪畫”一些看起來與真實數(shù)據(jù)無異的圖片。
- 判別器Discriminator:像一位“質(zhì)檢員”,判斷輸入的圖片究竟是真實樣本還是G偽造的。
在訓(xùn)練過程中,G 和 D 像打擂臺的對手:G 不斷“造假”,D 不斷“打假”。隨著回合增加,G 的贗品愈發(fā)逼真,D 的火眼金睛也愈發(fā)銳利。最終,當(dāng) D 再也分不清真假時,G 就學(xué)會了如何產(chǎn)出高質(zhì)量的新數(shù)據(jù)。
盡管 GAN 已經(jīng)能合成令人驚艷的圖像,但仍有兩個痛點:
1.訓(xùn)練成本高:對抗式訓(xùn)練既耗時又吃顯卡,稍不注意就可能把 GPU 跑崩。
2.局部編輯難:GAN 對整個圖像“一知半解”,很難精準(zhǔn)地只改一只眼睛而不影響整張臉。
Transformer:注意力機制的革命
2017年,Google的研究團隊發(fā)表了一篇名為”Attention is All You Need”的論文,提出了Transformer架構(gòu)。這個看起來專注于自然語言處理的技術(shù),實際上為整個AI領(lǐng)域帶來了一場革命。
Transformer的核心創(chuàng)新是”注意力機制”——讓AI能夠?qū)W⒂谧钪匾男畔ⅲ拖袢祟愒陂喿x時會重點關(guān)注關(guān)鍵詞句一樣。這種機制不僅讓機器更好地理解語言,也為后來的多模態(tài)AI奠定了重要基礎(chǔ)。
最初,人們可能沒有意識到Transformer會對圖像生成產(chǎn)生多大影響。但這個架構(gòu)的優(yōu)雅和強大很快就顯現(xiàn)出來:它能夠處理任意長度的序列,能夠并行計算,最重要的是,它為不同模態(tài)(文字、圖像、音頻)之間的融合提供了統(tǒng)一的框架。
StyleGAN:給AI藝術(shù)家更多控制權(quán)
2018年底,NVIDIA再次突破,推出了StyleGAN。這個技術(shù)最了不起的地方在于,它讓AI不僅能畫得像,還能畫得”有風(fēng)格”。
想象一下,傳統(tǒng)的AI就像是只會臨摹的學(xué)徒,而StyleGAN就像是有了自己風(fēng)格的藝術(shù)家。你可以告訴它:”畫一個人,但要有梵高的筆觸風(fēng)格”,或者”保持這個人的五官,但改變發(fā)色和表情”。
大家的QQ里也出現(xiàn)了同樣的功能,簡單來說,就是可以把照片變成梵高風(fēng)格:
VQ-VAE-2:分層思考的智慧
2019年,DeepMind的研究者們想出了一個聰明的方法:VQ-VAE-2。這個系統(tǒng)模仿人類畫畫的思維方式——先構(gòu)思整體布局,再添加具體細節(jié)。
頂層網(wǎng)絡(luò)負責(zé)理解”這是一張海邊日落的照片”這樣的宏觀信息,底層網(wǎng)絡(luò)負責(zé)處理”海浪的紋理應(yīng)該是什么樣的”這樣的細節(jié)問題。這種分層處理的思想,為后來更先進的生成模型提供了重要啟發(fā)。
03.理解語言的AI畫家:多模態(tài)時代的到來(2020-2021年)
DALL-E:會讀文字的AI畫家
2021年1月,OpenAI發(fā)布了DALL-E,這是一個歷史性的時刻。第一次,我們有了一個真正能夠理解人類語言并將其轉(zhuǎn)化為圖像的AI。
DALL-E有12億個參數(shù),就像一個擁有12億個”神經(jīng)元”的大腦。你可以告訴它”一只戴著偵探帽的鱷魚在下雨天查案”,它就能畫出來。更神奇的是,即使是從未在訓(xùn)練數(shù)據(jù)中見過的奇異組合,它也能合理地創(chuàng)作出來。與當(dāng)時主流的 GAN 路線不同,DALL·E 把文本和圖像都離散化為 token,再用自回歸 Transformer 統(tǒng)一建模,從而首次展示了“一句話出圖”的可行性
DALL-E這個名字象征著藝術(shù)和技術(shù)的統(tǒng)一,“DALL”向西班牙藝術(shù)家薩爾瓦多·達利致敬,“-E”指的是受歡迎的迪士尼角色Wall-E。
DALL·E 1 的“文字→圖像”流程拆成了 4 個你一眼就能看懂的小盒子,可以把它想象成 “寫作文→畫草圖→上色→交卷” 的四步:
1. BPE Tokenizer 你敲進去一句話,它先把每個字切成小“積木”(Token),就像把“一只穿西裝的貓”切成一只 / 穿 / 西裝 / 的 / 貓這樣的編號。
2. dVAE 編碼器 真正的照片太大,機器不好直接畫。于是先有一個“壓縮大師”把參考圖壓成 32×32 個小方格,每個方格用一個“色號”(codebook 里的編號)表示,變成一張“馬賽克草圖”。
3. Transformer 大腦 現(xiàn)在作文(文字 Token)和草圖(馬賽克編號)都準(zhǔn)備好了。 Transformer 像一位“語文老師兼美術(shù)老師”,它一邊讀作文,一邊按順序猜下一個方格該填哪個色號,直到 32×32 格全部寫完——這就是“自回歸”地畫圖。
4. dVAE 解碼器(也是 VAE 解碼器) 最后一步相當(dāng)于“上色放大”:把 32×32 的草圖還原成 256×256 的真彩色高清大圖,交卷!
一句話總結(jié):
文字 → 小積木 → 馬賽克草圖 → Transformer 猜色號 → 上色放大 → 最終圖像。
這一技術(shù)路線帶來了三大突破:
- 跨模態(tài)對齊:文本語義與視覺元素精準(zhǔn)對應(yīng),支持“穿西裝的牛油果坐在法庭上”這類復(fù)雜組合。
- 零樣本泛化:無需針對特定類別微調(diào),即可生成訓(xùn)練集里從未出現(xiàn)過的概念。
- 局部可控:通過修改文本提示詞或token掩碼,就能重新繪制圖像的局部區(qū)域,解決了GAN難以“只改一處”的痛點。
DALL·E 的出現(xiàn),標(biāo)志著“文本→圖像”生成進入可商用階段,也為后續(xù)的 DALL·E 2、Stable Diffusion、Midjourney 等模型奠定了架構(gòu)基礎(chǔ)。
CLIP:視覺與語言的橋梁
同樣在2021年,OpenAI還發(fā)布了CLIP(Contrastive Language–Image Pre-training對比式語言-圖像預(yù)訓(xùn)練),這個技術(shù)雖然不直接生成圖像,但它做了一件同樣重要的事:建立起了視覺和語言之間的聯(lián)系,核心目標(biāo)是用自然語言監(jiān)督來訓(xùn)練一個能同時理解文本和圖像的通用表征。
CLIP就像是一個雙語翻譯官,能夠理解圖像的含義,也能理解文字的含義,并且知道它們之間的對應(yīng)關(guān)系。這為后來所有的文本到圖像生成系統(tǒng)提供了”語言理解”的基礎(chǔ)能力。
CLIP通過利用大規(guī)模圖文配對數(shù)據(jù)(約 4 億條),通過對比學(xué)習(xí)讓文本編碼器和圖像編碼器在同一個向量空間里學(xué)會對齊語義。
04.擴散模型革命:AI藝術(shù)成熟時代(2022-至今)
擴散模型:從噪聲中誕生的藝術(shù)
這個想法最早來自2015年斯坦福大學(xué)的研究,他們受到物理學(xué)中分子擴散現(xiàn)象的啟發(fā)。想象一滴墨水在水中慢慢擴散,最終變成均勻的灰色。擴散模型就是要學(xué)會這個過程的”倒放”——從均勻的灰色重新聚集成清晰的墨水滴。
擴散模型的核心思想其實很詩意:從純粹的噪聲開始,一步步去除噪聲,最終“顯現(xiàn)”出清晰的圖像。就像雕塑家從一塊粗糙的石頭中雕出美麗的雕像一樣。
擴散模型靈感源于熱力學(xué)中的“擴散”過程,分為兩個步驟:正向擴散過程和反向擴散過程。
- 正向擴散過程:將初始圖像通過基于馬爾可夫鏈原理被逐漸加入隨機“噪聲”,一般這個過程會迭代上千次進行降噪過程,將原始圖像逐漸變成純粹的隨機噪聲。
- 反向擴散過程:就是如何“反向”去噪,通常會訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)(通常用U-Net)預(yù)測每一步需要減去的噪聲,逐步去除噪聲還原數(shù)據(jù)。隨著這一過程的進行,原始數(shù)據(jù)的清晰度和細節(jié)逐漸顯現(xiàn)。
到了2020-2021年,研究者們發(fā)現(xiàn)擴散模型在圖像生成質(zhì)量上竟然超越了GAN,而且訓(xùn)練過程更加穩(wěn)定。這就像發(fā)現(xiàn)了一個既有天賦又很聽話的學(xué)生,自然引起了全行業(yè)的關(guān)注。
Midjourney的出現(xiàn)開啟ai繪圖紀元
2022年7月,一個小團隊推出了公測的 Midjourney,打破了AIGC領(lǐng)域的大廠壟斷。作為一個精調(diào)生成模型,以聊天機器人方式部署Discord,很快就有980萬用戶。
2022年8月,游戲設(shè)計師 Jason Allen 憑借AI繪畫作品《太空歌劇院》獲得美國科羅拉多州博覽會“數(shù)字藝術(shù)/數(shù)碼攝影“競賽單元一等獎,“AI 繪畫”引發(fā)全球熱議。
Stable Diffusion:開源的力量
2022年8月,Stability AI做了一個大膽的決定:將Stable Diffusion完全開源。這就像是把一個原本只有少數(shù)人能用的昂貴藝術(shù)工具,免費分享給了全世界。
Stable Diffusion的厲害之處不僅在于生成質(zhì)量高,更在于它能在普通的消費級顯卡上運行。為什么叫 Stable? 不是數(shù)學(xué)意義上的“穩(wěn)定”,而是相對早期像素級擴散模型,顯存占用低、訓(xùn)練收斂穩(wěn)、社區(qū)生態(tài)繁榮。突然之間每個人都可以在自己的電腦上擁有一個AI藝術(shù)家。這種技術(shù)民主化的影響是革命性的。一夜之間,社交媒體上充滿了AI生成的精美圖像,各種基于Stable Diffusion的應(yīng)用如雨后春筍般涌現(xiàn)。從專業(yè)設(shè)計師到普通用戶,每個人都可以成為”AI藝術(shù)的導(dǎo)演”。
基于潛在擴散模型(LDM)的架構(gòu),Stable Diffusion在保持生成質(zhì)量的同時大大降低了計算需求
Stable Diffusion 并不是單個模型,而是 “文本編碼器→ 潛空間擴散器 → 圖像解碼器” 三段式流水線,用潛空間換效率,用文本嵌入做方向盤,把 1000 步擴散壓到 50 步就能跑在消費級顯卡上。
- CLIP把文字變成向量:77個token,每個768維,語義濃縮。
- U-Net在潛空間里“降噪”:從純噪聲張量一步步減去預(yù)測噪聲,得到4×64×64的干凈潛圖
- VAE負責(zé)“放大”:把潛圖解碼成高清512×512像素圖,完成出圖。
以上是對于生圖模型的技術(shù)發(fā)展階段進行一些講解,現(xiàn)如今我們最常見的生圖模型還是關(guān)于擴散模型和自回歸模型兩者的生成,后續(xù)下次會持續(xù)更新擴散模型和自回歸模型之間的區(qū)別~
本文由 @LULAOSHI 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖由作者提供
給我盧老師點贊??
偷偷卷 被發(fā)現(xiàn)惹~