GPT4o爆火的底層秘密:自回歸模型與擴(kuò)散模型

2 評(píng)論 2823 瀏覽 0 收藏 8 分鐘

GPT-4o的爆火引發(fā)了廣泛的關(guān)注,其背后的技術(shù)原理更是值得深入探討。本文將揭開GPT-4o的底層秘密,重點(diǎn)分析自回歸模型與擴(kuò)散模型這兩種生成范式。

這兩天時(shí)間,因?yàn)镚PT4o的爆火,導(dǎo)致了無(wú)數(shù)設(shè)計(jì)師上天臺(tái)!前幾天本人還在嘲笑因?yàn)镃ursor和MCP的出現(xiàn),導(dǎo)致很多程序員上天臺(tái),誰(shuí)能想到射出的子彈這么快便擊中了我的眉心!

自己也是開通了GPT4o,玩了一整天,確實(shí)大為震驚,不僅可以生圖,還可以生成文檔!

但是!話說(shuō)回來(lái),今天要講的不是GPT4o模型生圖有多厲害,今天來(lái)講一下背后的原理!他和Stable Diffusion的圖像生成到底有什么區(qū)別?

自回歸模型與擴(kuò)散模型:起源、區(qū)別與演進(jìn)

自回歸模型(Autoregressive Model)和擴(kuò)散模型(Diffusion Model)無(wú)疑是兩種最具代表性的生成范式。它們?cè)从诓煌慕K悸罚l(fā)展路徑各異,但又在今天的AI系統(tǒng)中交匯融合,形成了新一代多模態(tài)AI如OpenAI的GPT-4o和Google的Gemini 2 flash。本文將帶你梳理這兩種模型的起源、區(qū)別,并解析它們?cè)诋?dāng)今AI體系中的實(shí)際應(yīng)用與聯(lián)系。

一、自回歸模型(Autoregressive Model)

起源與發(fā)展

自回歸模型起源于統(tǒng)計(jì)學(xué)中的時(shí)間序列分析,用于預(yù)測(cè)當(dāng)前值與過(guò)去值之間的關(guān)系。在人工智能領(lǐng)域,自回歸模型被引入語(yǔ)言建模中,即假設(shè)一句話可以通過(guò)逐詞預(yù)測(cè)的方式生成。

在NLP中,最早的語(yǔ)言模型如n-gram就是一種簡(jiǎn)化的自回歸模型,而隨著深度學(xué)習(xí)的發(fā)展,RNN、LSTM、GRU等循環(huán)神經(jīng)網(wǎng)絡(luò)被廣泛用于自回歸建模。真正讓自回歸模型成為主流的,是2017年Google提出的Transformer架構(gòu),其編碼-解碼結(jié)構(gòu)讓語(yǔ)言建模的效率和效果大幅提升。

基于Transformer的自回歸模型中,最具代表性的就是OpenAI的GPT系列。以GPT-3為例,它通過(guò)左到右地依次預(yù)測(cè)每一個(gè)token,從而生成連貫的文本內(nèi)容。這種方式結(jié)構(gòu)簡(jiǎn)單、效果穩(wěn)定,并且容易訓(xùn)練和部署。

自回歸模型核心思想是什么

自回歸模型的核心思想就是:“我預(yù)測(cè)下一個(gè)東西,要參考前面已經(jīng)發(fā)生的?!?/strong>換句話說(shuō),就是**“我邊看邊猜接下來(lái)會(huì)發(fā)生什么。

例:假設(shè)你寫一篇作文,開頭寫了:“今天陽(yáng)光明媚,我走在…”你會(huì)很自然地想到接下來(lái)的詞可能是:“街道上”、“公園里” 或 “校園里”這時(shí)候,你的大腦就是一個(gè)“自回歸模型”——你寫下一個(gè)詞,是基于你前面寫的內(nèi)容來(lái)推斷的。

再比如:你聽到“我昨天晚上吃了”,你會(huì)自動(dòng)腦補(bǔ)“炸雞”、“火鍋”之類的。這也是自回歸思維。

再通俗一點(diǎn)就是

AI 里的自回歸模型長(zhǎng)啥樣

在AI模型里,比如 GPT,生成文本的方式就是:一個(gè)詞一個(gè)詞地生成,每次都看前面都生成了啥,然后決定下一個(gè)詞是什么。

比如 GPT 生成句子:“I love artificial…”它可能預(yù)測(cè)下一個(gè)詞是 “intelligence”,然后:“I love artificial intelligence…”再繼續(xù)生成下一個(gè)詞:“because”,如此循環(huán)。

二、擴(kuò)散模型的起源與發(fā)展

起源與發(fā)展

擴(kuò)散模型最初起源于對(duì)隨機(jī)過(guò)程的建模,尤其是布朗運(yùn)動(dòng)等物理擴(kuò)散現(xiàn)象。2020年,Ho等人提出了DDPM(Denoising Diffusion Probabilistic Model),標(biāo)志著擴(kuò)散模型在生成建模領(lǐng)域的重大突破。

擴(kuò)散模型的基本思想是:首先將一張圖像逐步添加高斯噪聲直到變成純?cè)肼暎ㄕ驍U(kuò)散),再訓(xùn)練模型學(xué)習(xí)如何從這個(gè)噪聲中一步步還原原始圖像(反向去噪)。由于每一步都是在已有信息的基礎(chǔ)上微調(diào),模型可以生成極高質(zhì)量的圖像。

Stable Diffusion為例,該模型結(jié)合了UNet結(jié)構(gòu)和CLIP的文本引導(dǎo)能力,在輸入一段提示詞后,從隨機(jī)噪聲中“生長(zhǎng)”出一張符合語(yǔ)義的圖片。這種方式雖然推理速度較慢,但圖像質(zhì)量和控制力遠(yuǎn)超以往的模型。

擴(kuò)散模型核心思想是什么

擴(kuò)散模型的核心思想是: “我先把東西變模糊(加噪音),然后一步步把它變清楚?!?/strong>也就是:“先破壞、再修復(fù)!”

例:假設(shè)你有一張小時(shí)候的老照片,已經(jīng)模糊不清、滿是噪點(diǎn),你會(huì)怎么做?

你可能會(huì)用 AI 修圖工具,一點(diǎn)點(diǎn)去掉噪點(diǎn)、恢復(fù)顏色、補(bǔ)全缺失的部分,直到還原成一張清晰的照片。

這過(guò)程就像是擴(kuò)散模型做的事情:先把圖像加噪音變模糊 → 再訓(xùn)練一個(gè)模型一步步學(xué)會(huì)去噪 → 未來(lái)可以從一張“隨機(jī)噪音”里生出一張圖像!

再通俗一點(diǎn)就是

AI 里的擴(kuò)散模型長(zhǎng)什么樣

比如你在用 Stable Diffusion 畫圖:你輸入提示詞:“一只在宇宙中彈吉他的貓”系統(tǒng)不是一下子畫出來(lái)的,而是:

1.先生成一張全是灰點(diǎn)的“噪聲圖”;

2.然后一步步“去噪”,讓圖像慢慢顯現(xiàn);

3.直到最后得到一張超級(jí)有細(xì)節(jié)的貓貓圖!

三、自回歸 vs 擴(kuò)散:關(guān)鍵區(qū)別與類比

結(jié)尾小口訣,幫你記?。?/strong>

  • 自回歸:從左寫到右,步步推演;
  • 擴(kuò)散式:從糊到清晰,漸入佳境!

本文由 @A ad鈣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 這或許就是AI進(jìn)化的魅力所在——不同技術(shù)路線的融合往往能碰撞出意想不到的火花。

    來(lái)自北京 回復(fù)
    1. 是的,不需要像SD那樣調(diào)節(jié)負(fù)責(zé)的參數(shù),用繁瑣的工作流也可以生圖

      來(lái)自廣東 回復(fù)