從零到ChatGPT,大語言模型 (LLM) 是如何煉成的?

2 評論 1407 瀏覽 3 收藏 29 分鐘

從“語言模型”到“類人智能”,ChatGPT的爆火背后,是大語言模型技術(shù)的飛躍與演進(jìn)。本文將帶你穿越技術(shù)迷霧,從基礎(chǔ)原理、模型訓(xùn)練到產(chǎn)業(yè)落地,系統(tǒng)梳理LLM的發(fā)展路徑與關(guān)鍵節(jié)點。

面向2025年末出發(fā)的今天,已經(jīng)沒有人會質(zhì)疑AI的強大能力,以及它即將走進(jìn)千家萬戶的必然趨勢 。像ChatGPT這樣的大語言模型(LLM)已經(jīng)逐漸賦能入我們的工作與生活,一再展現(xiàn)出我們意想不到的能力。

然而,求知欲的本能推動著我,讓我發(fā)問:這些強大的AI究竟是如何被“訓(xùn)練”出來的?我寫作此文的目的,正是為了讓每一位對此好奇的讀者都能理解AI訓(xùn)練的基本邏輯,于是便有了這篇深度拆解文章。

首先感謝地球??另一端的安德烈·卡帕西(Andrej Karpathy),他作為AI領(lǐng)域的關(guān)鍵人物,同樣對AI的普世化極其重視,所以我會在他以化繁為簡的視頻基礎(chǔ)上加以詳細(xì)拆解。

通往LLM的路徑

在深入細(xì)節(jié)之前,讓建立一個清晰的藍(lán)圖。下表總結(jié)了這四個關(guān)鍵階段的目標(biāo)、數(shù)據(jù)、核心技術(shù)。

階段一:預(yù)訓(xùn)練(pre-training)—— 用整個互聯(lián)網(wǎng)構(gòu)建一個數(shù)字大腦

這是整個過程中計算成本最高、耗時最長的階段。這個階段的基礎(chǔ)模型(Base Model)會在包含書籍、文章、網(wǎng)站、代碼等在內(nèi)的海量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練。通過反復(fù)執(zhí)行“預(yù)測下一個詞元”這個簡單的自監(jiān)督學(xué)習(xí)任務(wù),模型逐漸學(xué)會了語法規(guī)則、掌握了大量事實知識,并發(fā)展出了初步的推理和編程能力。

【1】爬蟲爬取互聯(lián)網(wǎng)公開資源的數(shù)據(jù)集(以fineweb數(shù)據(jù)集為例)

要構(gòu)建LLM,我們所需要的數(shù)據(jù)來自20世紀(jì)最杰出的發(fā)明互聯(lián)網(wǎng)。但并非所有網(wǎng)絡(luò)數(shù)據(jù)都是我們需要的,我們的目標(biāo)在于:從公開資源中獲取海量、種類繁多、且知識范圍廣高質(zhì)量文本(此處訓(xùn)練的是LLM大語言模型,所需的材料即為文本)。雖然2025年的今天互聯(lián)網(wǎng)的數(shù)據(jù)量粗算已經(jīng)來到了175ZB(澤字節(jié)1ZB≈10243GB),但LLM需要的是篩選后的高質(zhì)量文本。

OpenAl、Anthropic 、谷歌這樣的大型語言模型提供商都有自己篩選后構(gòu)建的數(shù)據(jù)集。在huggingface嚴(yán)格篩選下的fineweb數(shù)據(jù)集很好的代表了實際生產(chǎn)中的應(yīng)用情況,最后的數(shù)據(jù)集甚至只占用了44TB的容量,他們以非盈利的爬蟲組織CommonCrawl 所爬取海量數(shù)據(jù)為基礎(chǔ)來制作數(shù)據(jù)集。

簡單說明一下commoncrawl的爬取模式:

互聯(lián)網(wǎng)存在太多瑣碎的我們不需要的數(shù)據(jù),例如:

  1. URL過濾:惡意軟件網(wǎng)站、垃圾網(wǎng)站、營銷網(wǎng)站、音頻、視頻網(wǎng)站、種族歧視網(wǎng)站、成人網(wǎng)站,諸如此類。(URL過濾規(guī)則網(wǎng)站示例https://dsi.ut-capitole.fr/blacklists/)
  2. 文本提?。?/strong>爬蟲保存下來的其實是原始HTML代碼,代碼中會存在列表標(biāo)記,導(dǎo)航欄,或是css樣式表之類的代碼所以同樣需要過濾掉。
  3. 語言識別階段:fineweb在制作數(shù)據(jù)集時,只保留英語內(nèi)容超過65%的網(wǎng)頁。(PS:這是不同公司在設(shè)計大模型時的策略不同,如ChatGPT一類的國外LLM定然會更側(cè)重英語內(nèi)容材料。??例:如果我在收集數(shù)據(jù)集的過程中過濾掉中文,那可想而知這個模型在中文的表現(xiàn)力上會超級差。即不同公司在開發(fā)LLM時的側(cè)重點不同,而導(dǎo)致的訓(xùn)練集需求不同。)
  4. 去重:去掉不同網(wǎng)站的同一信息的材料
  5. 個人可識別信息(PII)過濾:地址、電話、身份證號(personallyidentifiableinformation)

最后得到例如“fine web”的數(shù)據(jù)集,這些純粹的人類語言的文本數(shù)據(jù)。(如覺得不直觀可去看看最后fine web的數(shù)據(jù)集中的真實文本數(shù)據(jù)https://huggingface.co/datasets/HuggingFaceFW/fineweb)

【GIF圖中滾動的部分展示的就是fine web中的爬取后并篩選出來的高質(zhì)量文本數(shù)據(jù)】

【2】開始制作模型數(shù)據(jù)集

我們要做的就是開始用這些數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),這樣神經(jīng)網(wǎng)絡(luò)就能吸收消化,并模仿文本的行文方式/文本特征。

接下來,我將直觀的模擬數(shù)據(jù)集內(nèi)部的變化情況,我把所有前文獲得的文本排列在一起組成模型數(shù)據(jù)集(一維文本),就像這樣:

但在我們將文本喂給神經(jīng)網(wǎng)絡(luò)之前,我們將確定如何表示這些文本& 怎樣把他們輸入網(wǎng)絡(luò)。

因為神經(jīng)網(wǎng)絡(luò)和人不一樣,他“不懂”人類的語言。

我們得大致講一下神經(jīng)網(wǎng)絡(luò)的技術(shù)工作原理:

他需要輸入一維“符號序列”,且這些符號必須來自一個有限集合。所以我們得去確定,使用哪些“符號”。并依據(jù)我們需要的這些“符號”把文本轉(zhuǎn)化為這些符號組成的一維序列。

【以上這段話十分重要,這是我們了解LLM預(yù)訓(xùn)練最重要的地方】

而且,雖然你看到的上圖中的文字集呈現(xiàn)的一個“面”,就像你現(xiàn)在正在閱讀我寫的這一篇文章,在你的顯示器上呈現(xiàn)二維的樣子,但實際上他也是從左到右、從上到下排列的。只是為了方便在你有限的顯示屏內(nèi)閱讀,而展示成了二維,其本質(zhì)還是一維的文字集。

而說到計算機,這些文本在底層編碼后,得到的計算機中對應(yīng)這段文本的原始比特數(shù)據(jù),而展示的一種特定的表示方式:

像這樣,我們就把獲得的文字?jǐn)?shù)據(jù)集變成了計算機能夠讀懂的,由0 & 1兩個符號組成的,專屬于計算機的“文本序列”。

如果看過黑客帝國的朋友肯定不陌生,在男主neo在最后覺醒成救世主后所看到的世界。你可以粗略的理解為這就是神經(jīng)網(wǎng)絡(luò)能看懂的兩個符號“0 & 1”,他構(gòu)成了偉大互聯(lián)網(wǎng)世界的一切。

但是,對于神經(jīng)網(wǎng)絡(luò)來說,只有“0&1”組成的序列還是太占地方了,因為由這些符號組成的序列,他的長度是有限的,是神經(jīng)網(wǎng)絡(luò)中最寶貴的資源之一,他決定著神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率,以及訓(xùn)練好后的調(diào)用效率。我們想要的不是“0&1”兩個符號組成的過長序列,所以我們把數(shù)據(jù)集中高概率出現(xiàn)的符號連續(xù)的字節(jié),繼續(xù)壓縮成全新符號。再次強調(diào)這些數(shù)據(jù)不要把他看成數(shù)字而是把他看成一個一個便于給神經(jīng)網(wǎng)絡(luò)使用的符號。也可以類似理解為“Emoji”??“??????”。這樣只要“符號”越多,我們就能成倍的壓縮我們的字節(jié)序列。直接減少我們數(shù)據(jù)的總長度,和擴大我們的符號集。

一句話總結(jié):我們把我們獲取的文本數(shù)據(jù)轉(zhuǎn)換為模型能讀懂,且節(jié)省“空間”的高效語言。

依據(jù)行業(yè)里的經(jīng)驗,一個比較理想的符號集數(shù)量,大約是10萬個符號。

以上將原始文本轉(zhuǎn)換成這些符號的過程,叫做“分詞”(tokenization)最終,文本(如句子、段落)被分割成的一個個獨立符號,稱為“tokens”。

這些 tokens 可以是單詞、子詞、標(biāo)點符號等(甚至同一單詞不同的大小寫都會影響產(chǎn)生不同的tokens),是模型處理文本的基本單位。在預(yù)訓(xùn)練模型(如 BERT、GPT 系列等)中,tokenization 是預(yù)處理文本數(shù)據(jù)的最關(guān)鍵步驟之一。如果你感興趣想去直觀了解不同模型不同數(shù)據(jù)集而影響的分詞tokens長啥樣可以去 tiktokenizer 這個網(wǎng)站輸入你想要的文本選擇你想了解的模型,親手體驗一下。

【直觀感受文本于tokens的網(wǎng)站:https://tiktokenizer.vercel.app/?utm_source=listedai】

在最后得到一個這樣的全是符號的數(shù)據(jù)集,開始訓(xùn)練我們的基礎(chǔ)大模型(Base Model)。

【3】如何訓(xùn)練基礎(chǔ)大模型(Base Model)

訓(xùn)練神經(jīng)網(wǎng)絡(luò)(neural network training)的過程的這個階段,是計算量最大、最耗費資源的部分。

在這一步我們要建立統(tǒng)計關(guān)系模型,具體來說就是這些tokens在序列中如何相互關(guān)聯(lián),我們首先要做的是回到剛剛的“詞匯表”(序列數(shù)據(jù)集)中提取一段tokens,并輸入給模型??

比如:

提取并輸入{【91】、【860】、【287】、【11579】}。去預(yù)測下一個可能的內(nèi)容{【tokens】}

本質(zhì)上他是一個隨機過程,所以在訓(xùn)練初期輸入{【91】、【860】、【287】、【11579】}后對應(yīng)得到的{【19438】}、{【11799】}、{【3962】}這三個答案的概率基本是隨機的。由于我們的詞庫包含了100,277(以GPT4為例)個的tokens。神經(jīng)網(wǎng)絡(luò)就存在100,277個可能的情況。

我們使用一個數(shù)學(xué)公式/算法(比如核心的梯度下降)去更新神經(jīng)網(wǎng)絡(luò)。本質(zhì)上就是提升我們想要的正確答案的概率,降低其他所有選項的概率。

現(xiàn)在更新神經(jīng)網(wǎng)絡(luò)后再輸入{【91】、【860】、【287】、【11579】}這4個特定的tokens后,神經(jīng)網(wǎng)絡(luò)就會有所調(diào)整,得出新的結(jié)果:

以上4個tokens組成的這條序列(上下文)的長度可以從 0 tokens~8000 tokens。這里的0~8000 tokens,就是我們預(yù)設(shè)的上下文窗口的最大值。理論上我們可以使用任意長度的上下文,比如4000、8000、16000。但處理越長的上下文計算起來就越耗費資源,所以能處理多少的上下文也算做檢驗這個模型是否強大的指標(biāo)之一。

比如 GPT-4 的上下文窗口能處理幾萬字的文本,這意味著它能“記住”更長的對話或文章內(nèi)容,不會聊到一半就“忘了前面說什么”——上下文窗口越大,模型處理長文本的能力越強。

當(dāng)然訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程不僅僅發(fā)生在這個4個特定的tokens上,而是同時作用于整個數(shù)據(jù)集中的所有tokens。

這就是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,它的本質(zhì)就是找到一組合適的參數(shù)設(shè)置,讓預(yù)測結(jié)果訓(xùn)練集的實際統(tǒng)計數(shù)據(jù)的特征相符。使詞元之間的關(guān)聯(lián)概率一致,這些tokens相互跟隨的統(tǒng)計規(guī)律與數(shù)據(jù)集中的一致。

這里簡單展示了神經(jīng)網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)(現(xiàn)代的神經(jīng)網(wǎng)絡(luò)可能是由數(shù)萬億個項組成的龐大表達(dá)式來構(gòu)成),神經(jīng)網(wǎng)絡(luò)架構(gòu)研究的目標(biāo)就是設(shè)計出高效的數(shù)學(xué)表達(dá)式(有著易于優(yōu)化、可并行處理等優(yōu)勢的表達(dá)式)。

這里,我需要簡述一下模型內(nèi)最重要的Transformer架構(gòu):

2017年那篇名為《Attention is All You Need》的論文,它引入的Transformer架構(gòu),成為了GPT乃至整個現(xiàn)代AI領(lǐng)域的基石,在這里我會簡單分享他是怎么樣在模型中運行的,方便理解模型的工作狀態(tài)。

Transformer本質(zhì)上是一套帶“自注意力機制”的數(shù)學(xué)函數(shù):它能讓模型在“猜下一個詞”時,重點關(guān)注上下文里更重要的詞(比如“喜歡唱跳”后面,“籃球”比“天空”更相關(guān)),這種對‘關(guān)聯(lián)度’的捕捉能力,正是 GPT 等模型能理解語境、進(jìn)行推理的關(guān)鍵。

它由一堆固定參數(shù)來定義,是把輸入轉(zhuǎn)化為輸出的一種方法。當(dāng)我們微調(diào)這些參數(shù)時,就會得到不同的預(yù)測結(jié)果。我們目的是要找到一組最佳的參數(shù)設(shè)置,讓預(yù)測結(jié)果大致符合訓(xùn)練集中的模式。

(PS:此處重要的是在理解模型是怎么樣根據(jù)問題生成答案的。)

  1. 首先我們給模型我們的詞元(tokens)
  2. 模型會根據(jù)向量空間(模型存儲“知識”的一個空間)中的權(quán)重(注意哪兩個token更重要,以及token間的緊密性)來激活對應(yīng)包含知識的“神經(jīng)元”進(jìn)行“猜測”
  3. 最后在注意全部輸入的tokens以及注意全部輸出的tokens下,逐步一個一個詞的“猜”出答案。

【Transformer3D可視化網(wǎng)站:https://bbycroft.net/llm】

這個階段的產(chǎn)物是一個基礎(chǔ)模型(Base Model)。它知識淵博,但還不是一個合格的助手。如果你向它提問 “教我如何烤面包” ,它很可能會續(xù)寫成 “在一個家用烤箱里” ,因為它認(rèn)為這是一個在統(tǒng)計上最合理的句子補全,而不是提供一份步驟指南。模型每一次的生成,都伴隨著不斷的“擲硬幣”,所以并不是每一次模型都能準(zhǔn)確的輸出一模一樣的答案。

所以,從本質(zhì)上講,一個基礎(chǔ)的大語言模型(Base Model)本質(zhì)上是一個“基于統(tǒng)計的詞語組合器”。它唯一的目標(biāo)就是觀察一串文本序列,然后預(yù)測出在統(tǒng)計上最有可能緊隨其后的下一個詞或字符(即“詞元”)。

接下來我們來看一個具體的訓(xùn)練例子,以及一些具體的推理過程讓你直觀感受其實際效果。(以訓(xùn)練GPT2為例)

【紅框勾選的每一行都是一次模型的更新,每一行都是優(yōu)化訓(xùn)練集中百萬tokens的預(yù)測能力。】

我們在更新模型的預(yù)測能力時,同時更新每一個token的權(quán)重。也就是更新神經(jīng)網(wǎng)絡(luò)的參數(shù)。

我們微調(diào)參數(shù),提高它預(yù)測序列中下個token的能力。

在更新過程中,你就只需優(yōu)雅的點一杯咖啡??,靜靜的守在電腦前觀察損失值,他反映了神經(jīng)網(wǎng)絡(luò)當(dāng)前的性能好壞,觀察數(shù)值越低越好。

階段二:有監(jiān)督微調(diào)(SFT)

此時我們發(fā)現(xiàn),我們已有的Base Model,他只是一個“閱讀了世界上所有百科全書的孩子”,他還不懂得怎樣有效的跟人類對話。所以我們需要“給他案例,教會他怎么說話”。

所以我們在此時可以給他例舉幾段我們想要的query+response的問答對,引導(dǎo)模型“說話”,例如:

其中:

“<|im_start|>user<|im sep|>” & “<|im start|>assistant<|im_sep|>”指是誰在發(fā)出問題

“<|im_end|>”指此條輸入結(jié)束

以上所有的:

“<|im_end|>”“<|im_start|>user<|imsep|>”“<|im start|>assistant<|im_sep|>”

都是在預(yù)訓(xùn)練階段從未出現(xiàn)過的“新標(biāo)記”,這些標(biāo)記就像“對話的標(biāo)點符號”,告訴模型:這部分是用戶問的,那部分是模型助手該回答的。

讓模型清楚的認(rèn)識到這個結(jié)構(gòu),引導(dǎo)讓他真正意識上成為一個能給予我們想要的回答與回答格式的“助手(assistant)”。

所以在這個階段,研究人員會收集一個規(guī)模相對較小但質(zhì)量極高的數(shù)據(jù)集,其中包含了成千上萬條由專業(yè)的AI訓(xùn)練師與數(shù)據(jù)標(biāo)注人員共同構(gòu)建出的“query—response”的問答對兒(QR對兒)。模型會在這個數(shù)據(jù)集上進(jìn)行有監(jiān)督學(xué)習(xí),目標(biāo)是模仿這些高質(zhì)量的范例。

SFT的核心目的,與其說是教給模型新知識,不如說是教給它一種新行為。預(yù)訓(xùn)練模型已經(jīng)擁有了海量的知識,但這些知識是以一種無序、非對話的形式存在的。

而SFT則為模型提供了一個行為模板,告訴它:“當(dāng)用戶以X的形式提問時,你應(yīng)該以Y的形式回答?!彼厮芰四P偷妮敵鲲L(fēng)格,從“補全”轉(zhuǎn)變?yōu)椤皡f(xié)助”,從而解鎖了其龐大預(yù)訓(xùn)練知識庫的實用價值 。

實際工作中數(shù)據(jù)標(biāo)注員會寫下一個指令,如“用簡單的語言解釋相對論”,然后再撰寫一個理想的、有幫助的回答。模型通過學(xué)習(xí)這些范例,模仿這種行為模式 。

SFT明確地教會了讓模型扮演“助手”這一角色的格式和風(fēng)格。它將模型的目標(biāo)從“補全這段文本”轉(zhuǎn)變?yōu)椤坝袔椭鼗貞?yīng)這條指令” 。這是一個典型的有監(jiān)督學(xué)習(xí)過程 。

階段三:強化學(xué)習(xí)(RL)

我們在訓(xùn)練模型就像是讓模型去“上學(xué)”:

其核心機制模仿了人類乃至動物通過“試錯”來學(xué)習(xí)并實現(xiàn)目標(biāo)的過程 。

這一學(xué)習(xí)過程基于一個直觀的“獎懲”范式:

當(dāng)模型的行為有助于實現(xiàn)預(yù)設(shè)目標(biāo)時,該行為會得到“強化”。反之,那些偏離目標(biāo)的行為則會被“忽視”或“懲罰”。強化學(xué)習(xí)算法在處理數(shù)據(jù)的過程中,通過分析每次行動帶來的反饋,自主探索達(dá)成最終目標(biāo)的最佳路徑。

??例如訓(xùn)練寵物

想象訓(xùn)練一只狗:當(dāng)狗做出‘坐下’這種我們期望的行為時,訓(xùn)練師用撫摸、喂食作為‘獎賞’;如果狗做出亂咬的行為,則沒有獎賞。狗會逐漸通過‘試錯’學(xué)會‘做對事有獎勵’,這就是強化學(xué)習(xí)的核心邏輯——模型就像這只小狗,通過“行為→反饋(獎/懲)”的循環(huán)優(yōu)化策略

它是一種自主學(xué)習(xí)機制,模型在沒有明確“正確答案”指導(dǎo)的情況下,僅憑環(huán)境的反饋信號,就能逐步優(yōu)化其行為策略。

階段四:基于人類反饋的強化學(xué)習(xí)(RLHF)

把每個這樣富有創(chuàng)造性的任務(wù)的所有生成結(jié)果依次讓數(shù)據(jù)標(biāo)注人員借助制定好的規(guī)則加上一定的主觀評判,對其進(jìn)行打分,用于模型訓(xùn)練。

階段四內(nèi):所以針對這個情況,我們需要借助一個“小模型”–獎勵模型(Reward Model)

實際結(jié)合RM進(jìn)行的RLHF如下:

  1. 針對一個給定的提示(prompt),讓SFT模型生成多個不同的回答。
  2. 人類標(biāo)注員會對這些回答進(jìn)行排序,從最好到最差。
  3. 然后,利用訓(xùn)練出的這個獨立的語言模型,即“獎勵模型”(RewardModel)。把上述標(biāo)注員的排序,輸出一個單一的數(shù)值分?jǐn)?shù)。這個分?jǐn)?shù)代表了“一個典型的人會有多喜歡這個回答”。

這樣標(biāo)注人員就不需要去做夸張工作量的打分,而是做少部分的素材排序,更便于訓(xùn)練。

而獎勵模型,它本身是一個至關(guān)重要的“抽象層”。因為人類的價值觀是復(fù)雜的、主觀的,且難以用明確的規(guī)則來編碼。直接用這種模糊的反饋來訓(xùn)練主模型是極其困難的。獎勵模型的存在,就是為了學(xué)習(xí)一個簡化的、可計算的“代理指標(biāo)”,來代表這個復(fù)雜的價值系統(tǒng)。這個單一的數(shù)值分?jǐn)?shù),為最終的對齊階段提供了一個清晰、可優(yōu)化的數(shù)學(xué)目標(biāo)。獎勵模型就像一個翻譯器,將模糊的人類偏好,翻譯成了強化學(xué)習(xí)算法可以理解的語言。

通過這個循環(huán),LLM被訓(xùn)練去生成那些能夠從獎勵模型中獲得最高分?jǐn)?shù)的回答。這個過程使得大規(guī)模對齊成為可能,其規(guī)模遠(yuǎn)超人類手動編寫SFT數(shù)據(jù)所能達(dá)到的范疇。

RLHF是塑造模型最終“性格”的關(guān)鍵,使模型變得更強大,并與復(fù)雜的人類價值觀保持一致 。為了防止模型在追求高獎勵分?jǐn)?shù)的過程中“走火入魔”(幻覺),產(chǎn)生偏離正常語言模式的奇怪回答,通常還會加入一個懲罰項,確保其輸出不會與原始的SFT模型差異過大。

結(jié)語

呼~~到這里,這輪關(guān)于 LLM 的分享就告一段落了。

其實坦白說,這篇文章算不上原創(chuàng),更像是對安德烈?卡帕西系列視頻的一次拙劣模仿。他用化繁為簡的智慧敲開了我理解 AI 的大門,而我只是試著把這份通透,用更貼近中文讀者的視角再講一遍。若能像他年初幫到我那樣,給一些好奇的朋友帶去啟發(fā),就足夠讓我覺得值得。

跟著文字走完這趟旅程會發(fā)現(xiàn):ChatGPT 這類 LLM 的構(gòu)建邏輯從不是遙不可及的 “黑箱”。從預(yù)訓(xùn)練時吞下海量文本搭建知識地基,到 SFT 教會模型 “以助手身份對話”,再到 RLHF 用人類偏好校準(zhǔn)方向,每一步都是前人從無到有的探索??窗蓗抱著學(xué)習(xí)的心態(tài)拆解,那些看似復(fù)雜的技術(shù),離我們一點也不遠(yuǎn)。

而 AI 本身,早已不是鋼鐵俠中的賈維斯只是一個符號。它注定會像水、像法拉第發(fā)現(xiàn)的交流電那樣,成為滲透生活的基礎(chǔ)力量,甚至在未來承載更復(fù)雜的創(chuàng)造與連接。

當(dāng)然,篇幅所限,還有太多有趣的話題沒能展開:比如 LLM “幻覺” 背后的邏輯,又比如 DeepSeek 那樣的模型如何實現(xiàn)“深度思考”。但即便如此,我也依然能冥冥中感覺到到 “AI 走進(jìn)千家萬戶” 的未來輪廓。

就像年初卡帕西的視頻點亮了我,希望這篇梳理也能為一些朋友添一點光亮。而我們所有人,都在朝著通用 AGI 的方向,帶著憧憬,一步步靠近。

本文由 @四吉在這 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖由作者提供

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 把 LLM 訓(xùn)練拆成四步,結(jié)合 GPT 例子和通俗類比,復(fù)雜原理變易懂,看完終于明白 ChatGPT 是怎么 “學(xué)” 會對話的~

    來自新疆 回復(fù)
    1. 感謝喜歡??

      來自北京 回復(fù)