亚洲va国产va天堂va久久,性xxxx搡xxxxx搡欧美

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

從零到ChatGPT，大語言模型 (LLM) 是如何煉成的？

四吉在這

2025-09-16

2 評論 1407 瀏覽 3 收藏

29 分鐘

從“語言模型”到“類人智能”，ChatGPT的爆火背后，是大語言模型技術(shù)的飛躍與演進(jìn)。本文將帶你穿越技術(shù)迷霧，從基礎(chǔ)原理、模型訓(xùn)練到產(chǎn)業(yè)落地，系統(tǒng)梳理LLM的發(fā)展路徑與關(guān)鍵節(jié)點。

面向2025年末出發(fā)的今天，已經(jīng)沒有人會質(zhì)疑AI的強大能力，以及它即將走進(jìn)千家萬戶的必然趨勢。像ChatGPT這樣的大語言模型（LLM）已經(jīng)逐漸賦能入我們的工作與生活，一再展現(xiàn)出我們意想不到的能力。

然而，求知欲的本能推動著我，讓我發(fā)問：這些強大的AI究竟是如何被“訓(xùn)練”出來的？我寫作此文的目的，正是為了讓每一位對此好奇的讀者都能理解AI訓(xùn)練的基本邏輯，于是便有了這篇深度拆解文章。

首先感謝地球??另一端的安德烈·卡帕西（Andrej Karpathy），他作為AI領(lǐng)域的關(guān)鍵人物，同樣對AI的普世化極其重視，所以我會在他以化繁為簡的視頻基礎(chǔ)上加以詳細(xì)拆解。

通往LLM的路徑

在深入細(xì)節(jié)之前，讓建立一個清晰的藍(lán)圖。下表總結(jié)了這四個關(guān)鍵階段的目標(biāo)、數(shù)據(jù)、核心技術(shù)。

階段一：預(yù)訓(xùn)練（pre-training）—— 用整個互聯(lián)網(wǎng)構(gòu)建一個數(shù)字大腦

這是整個過程中計算成本最高、耗時最長的階段。這個階段的基礎(chǔ)模型（Base Model）會在包含書籍、文章、網(wǎng)站、代碼等在內(nèi)的海量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練。通過反復(fù)執(zhí)行“預(yù)測下一個詞元”這個簡單的自監(jiān)督學(xué)習(xí)任務(wù)，模型逐漸學(xué)會了語法規(guī)則、掌握了大量事實知識，并發(fā)展出了初步的推理和編程能力。

【1】爬蟲爬取互聯(lián)網(wǎng)公開資源的數(shù)據(jù)集（以fineweb數(shù)據(jù)集為例）

要構(gòu)建LLM，我們所需要的數(shù)據(jù)來自20世紀(jì)最杰出的發(fā)明互聯(lián)網(wǎng)。但并非所有網(wǎng)絡(luò)數(shù)據(jù)都是我們需要的，我們的目標(biāo)在于：從公開資源中獲取海量、種類繁多、且知識范圍廣的 高質(zhì)量文本（此處訓(xùn)練的是LLM大語言模型，所需的材料即為文本）。雖然2025年的今天互聯(lián)網(wǎng)的數(shù)據(jù)量粗算已經(jīng)來到了175ZB（澤字節(jié)1ZB≈10243GB），但LLM需要的是篩選后的高質(zhì)量文本。

像OpenAl、Anthropic 、谷歌這樣的大型語言模型提供商都有自己篩選后構(gòu)建的數(shù)據(jù)集。在huggingface嚴(yán)格篩選下的fineweb數(shù)據(jù)集很好的代表了實際生產(chǎn)中的應(yīng)用情況，最后的數(shù)據(jù)集甚至只占用了44TB的容量，他們以非盈利的爬蟲組織CommonCrawl 所爬取海量數(shù)據(jù)為基礎(chǔ)來制作數(shù)據(jù)集。

簡單說明一下commoncrawl的爬取模式：

互聯(lián)網(wǎng)存在太多瑣碎的我們不需要的數(shù)據(jù)，例如：

URL過濾：惡意軟件網(wǎng)站、垃圾網(wǎng)站、營銷網(wǎng)站、音頻、視頻網(wǎng)站、種族歧視網(wǎng)站、成人網(wǎng)站，諸如此類。（URL過濾規(guī)則網(wǎng)站示例https://dsi.ut-capitole.fr/blacklists/）
文本提?。?/strong>爬蟲保存下來的其實是原始HTML代碼，代碼中會存在列表標(biāo)記，導(dǎo)航欄，或是css樣式表之類的代碼所以同樣需要過濾掉。

語言識別階段：fineweb在制作數(shù)據(jù)集時，只保留英語內(nèi)容超過65%的網(wǎng)頁。（PS：這是不同公司在設(shè)計大模型時的策略不同，如ChatGPT一類的國外LLM定然會更側(cè)重英語內(nèi)容材料。??例：如果我在收集數(shù)據(jù)集的過程中過濾掉中文，那可想而知這個模型在中文的表現(xiàn)力上會超級差。即不同公司在開發(fā)LLM時的側(cè)重點不同，而導(dǎo)致的訓(xùn)練集需求不同。）

去重：去掉不同網(wǎng)站的同一信息的材料

個人可識別信息（PII）過濾：地址、電話、身份證號（personallyidentifiableinformation）

最后得到例如“fine web”的數(shù)據(jù)集，這些純粹的人類語言的文本數(shù)據(jù)。（如覺得不直觀可去看看最后fine web的數(shù)據(jù)集中的真實文本數(shù)據(jù)https://huggingface.co/datasets/HuggingFaceFW/fineweb）

【GIF圖中滾動的部分展示的就是fine web中的爬取后并篩選出來的高質(zhì)量文本數(shù)據(jù)】

【2】開始制作模型數(shù)據(jù)集

我們要做的就是開始用這些數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，這樣神經(jīng)網(wǎng)絡(luò)就能吸收消化，并模仿文本的行文方式/文本特征。

接下來，我將直觀的模擬數(shù)據(jù)集內(nèi)部的變化情況，我把所有前文獲得的文本排列在一起組成模型數(shù)據(jù)集（一維文本），就像這樣：

但在我們將文本喂給神經(jīng)網(wǎng)絡(luò)之前，我們將確定如何表示這些文本& 怎樣把他們輸入網(wǎng)絡(luò)。

因為神經(jīng)網(wǎng)絡(luò)和人不一樣，他“不懂”人類的語言。

我們得大致講一下神經(jīng)網(wǎng)絡(luò)的技術(shù)工作原理：

他需要輸入一維的“符號序列”，且這些符號必須來自一個有限集合。所以我們得去確定，使用哪些“符號”。并依據(jù)我們需要的這些“符號”把文本轉(zhuǎn)化為這些符號組成的一維序列。

【以上這段話十分重要，這是我們了解LLM預(yù)訓(xùn)練最重要的地方】

而且，雖然你看到的上圖中的文字集呈現(xiàn)的一個“面”，就像你現(xiàn)在正在閱讀我寫的這一篇文章，在你的顯示器上呈現(xiàn)二維的樣子，但實際上他也是從左到右、從上到下排列的。只是為了方便在你有限的顯示屏內(nèi)閱讀，而展示成了二維，其本質(zhì)還是一維的文字集。

而說到計算機，這些文本在底層編碼后，得到的計算機中對應(yīng)這段文本的原始比特數(shù)據(jù)，而展示的一種特定的表示方式：

像這樣，我們就把獲得的文字?jǐn)?shù)據(jù)集變成了計算機能夠讀懂的，由0 & 1兩個符號組成的，專屬于計算機的“文本序列”。

如果看過黑客帝國的朋友肯定不陌生，在男主neo在最后覺醒成救世主后所看到的世界。你可以粗略的理解為這就是神經(jīng)網(wǎng)絡(luò)能看懂的兩個符號“0 & 1”，他構(gòu)成了偉大互聯(lián)網(wǎng)世界的一切。

但是，對于神經(jīng)網(wǎng)絡(luò)來說，只有“0&1”組成的序列還是太占地方了，因為由這些符號組成的序列，他的長度是有限的，是神經(jīng)網(wǎng)絡(luò)中最寶貴的資源之一，他決定著神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率，以及訓(xùn)練好后的調(diào)用效率。我們想要的不是“0&1”兩個符號組成的過長序列，所以我們把數(shù)據(jù)集中高概率出現(xiàn)的符號或連續(xù)的字節(jié)，繼續(xù)壓縮成全新符號。再次強調(diào)這些數(shù)據(jù)不要把他看成數(shù)字而是把他看成一個一個便于給神經(jīng)網(wǎng)絡(luò)使用的符號。也可以類似理解為“Emoji”??“??????”。這樣只要“符號”越多，我們就能成倍的壓縮我們的字節(jié)序列。直接減少我們數(shù)據(jù)的總長度，和擴大我們的符號集。

一句話總結(jié)：我們把我們獲取的文本數(shù)據(jù)轉(zhuǎn)換為模型能讀懂，且節(jié)省“空間”的高效語言。

依據(jù)行業(yè)里的經(jīng)驗，一個比較理想的符號集數(shù)量，大約是10萬個符號。

以上將原始文本轉(zhuǎn)換成這些符號的過程，叫做“分詞”（tokenization）。最終，文本（如句子、段落）被分割成的一個個獨立符號，稱為“tokens”。

這些 tokens 可以是單詞、子詞、標(biāo)點符號等（甚至同一單詞不同的大小寫都會影響產(chǎn)生不同的tokens），是模型處理文本的基本單位。在預(yù)訓(xùn)練模型（如 BERT、GPT 系列等）中，tokenization 是預(yù)處理文本數(shù)據(jù)的最關(guān)鍵步驟之一。如果你感興趣想去直觀了解不同模型因不同數(shù)據(jù)集而影響的分詞tokens長啥樣可以去 tiktokenizer 這個網(wǎng)站輸入你想要的文本選擇你想了解的模型，親手體驗一下。

【直觀感受文本于tokens的網(wǎng)站：https://tiktokenizer.vercel.app/?utm_source=listedai】

在最后得到一個這樣的全是符號的數(shù)據(jù)集，開始訓(xùn)練我們的基礎(chǔ)大模型（Base Model）。

【3】如何訓(xùn)練基礎(chǔ)大模型（Base Model）

訓(xùn)練神經(jīng)網(wǎng)絡(luò)（neural network training）的過程的這個階段，是計算量最大、最耗費資源的部分。

在這一步我們要建立統(tǒng)計關(guān)系模型，具體來說就是這些tokens在序列中如何相互關(guān)聯(lián)，我們首先要做的是回到剛剛的“詞匯表”（序列數(shù)據(jù)集）中提取一段tokens，并輸入給模型??

比如：

提取并輸入{【91】、【860】、【287】、【11579】}。去預(yù)測下一個可能的內(nèi)容{【tokens】}

本質(zhì)上他是一個隨機過程，所以在訓(xùn)練初期輸入{【91】、【860】、【287】、【11579】}后對應(yīng)得到的{【19438】}、{【11799】}、{【3962】}這三個答案的概率基本是隨機的。由于我們的詞庫包含了100,277（以GPT4為例）個的tokens。神經(jīng)網(wǎng)絡(luò)就存在100,277個可能的情況。

我們使用一個數(shù)學(xué)公式/算法（比如核心的梯度下降）去更新神經(jīng)網(wǎng)絡(luò)。本質(zhì)上就是提升我們想要的正確答案的概率，降低其他所有選項的概率。

現(xiàn)在更新神經(jīng)網(wǎng)絡(luò)后再輸入{【91】、【860】、【287】、【11579】}這4個特定的tokens后，神經(jīng)網(wǎng)絡(luò)就會有所調(diào)整，得出新的結(jié)果：

以上4個tokens組成的這條序列（上下文）的長度可以從 0 tokens~8000 tokens。這里的0~8000 tokens，就是我們預(yù)設(shè)的上下文窗口的最大值。理論上我們可以使用任意長度的上下文，比如4000、8000、16000。但處理越長的上下文計算起來就越耗費資源，所以能處理多少的上下文也算做檢驗這個模型是否強大的指標(biāo)之一。

比如 GPT-4 的上下文窗口能處理幾萬字的文本，這意味著它能“記住”更長的對話或文章內(nèi)容，不會聊到一半就“忘了前面說什么”——上下文窗口越大，模型處理長文本的能力越強。

當(dāng)然訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程不僅僅發(fā)生在這個4個特定的tokens上，而是同時作用于整個數(shù)據(jù)集中的所有tokens。

這就是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程，它的本質(zhì)就是找到一組合適的參數(shù)設(shè)置，讓預(yù)測結(jié)果與訓(xùn)練集的實際統(tǒng)計數(shù)據(jù)的特征相符。使詞元之間的關(guān)聯(lián)概率一致，這些tokens相互跟隨的統(tǒng)計規(guī)律與數(shù)據(jù)集中的一致。

這里簡單展示了神經(jīng)網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)（現(xiàn)代的神經(jīng)網(wǎng)絡(luò)可能是由數(shù)萬億個項組成的龐大表達(dá)式來構(gòu)成），神經(jīng)網(wǎng)絡(luò)架構(gòu)研究的目標(biāo)就是設(shè)計出高效的數(shù)學(xué)表達(dá)式（有著易于優(yōu)化、可并行處理等優(yōu)勢的表達(dá)式）。

這里，我需要簡述一下模型內(nèi)最重要的Transformer架構(gòu)：

2017年那篇名為《Attention is All You Need》的論文，它引入的Transformer架構(gòu)，成為了GPT乃至整個現(xiàn)代AI領(lǐng)域的基石，在這里我會簡單分享他是怎么樣在模型中運行的，方便理解模型的工作狀態(tài)。

Transformer本質(zhì)上是一套帶“自注意力機制”的數(shù)學(xué)函數(shù)：它能讓模型在“猜下一個詞”時，重點關(guān)注上下文里更重要的詞（比如“喜歡唱跳”后面，“籃球”比“天空”更相關(guān)），這種對‘關(guān)聯(lián)度’的捕捉能力，正是 GPT 等模型能理解語境、進(jìn)行推理的關(guān)鍵。

它由一堆固定參數(shù)來定義，是把輸入轉(zhuǎn)化為輸出的一種方法。當(dāng)我們微調(diào)這些參數(shù)時，就會得到不同的預(yù)測結(jié)果。我們目的是要找到一組最佳的參數(shù)設(shè)置，讓預(yù)測結(jié)果大致符合訓(xùn)練集中的模式。

（PS：此處重要的是在理解模型是怎么樣根據(jù)問題生成答案的。）

首先我們給模型我們的詞元（tokens）

模型會根據(jù)向量空間（模型存儲“知識”的一個空間）中的權(quán)重（注意哪兩個token更重要，以及token間的緊密性）來激活對應(yīng)包含知識的“神經(jīng)元”進(jìn)行“猜測”

最后在注意全部輸入的tokens以及注意全部輸出的tokens下，逐步一個一個詞的“猜”出答案。

【Transformer3D可視化網(wǎng)站：https://bbycroft.net/llm】

這個階段的產(chǎn)物是一個基礎(chǔ)模型（Base Model）。它知識淵博，但還不是一個合格的助手。如果你向它提問 “教我如何烤面包” ，它很可能會續(xù)寫成 “在一個家用烤箱里” ，因為它認(rèn)為這是一個在統(tǒng)計上最合理的句子補全，而不是提供一份步驟指南。模型每一次的生成，都伴隨著不斷的“擲硬幣”，所以并不是每一次模型都能準(zhǔn)確的輸出一模一樣的答案。

所以，從本質(zhì)上講，一個基礎(chǔ)的大語言模型（Base Model）本質(zhì)上是一個“基于統(tǒng)計的詞語組合器”。它唯一的目標(biāo)就是觀察一串文本序列，然后預(yù)測出在統(tǒng)計上最有可能緊隨其后的下一個詞或字符（即“詞元”）。

接下來我們來看一個具體的訓(xùn)練例子，以及一些具體的推理過程讓你直觀感受其實際效果。（以訓(xùn)練GPT2為例）

【紅框勾選的每一行都是一次模型的更新，每一行都是優(yōu)化訓(xùn)練集中百萬tokens的預(yù)測能力。】

我們在更新模型的預(yù)測能力時，同時更新每一個token的權(quán)重。也就是更新神經(jīng)網(wǎng)絡(luò)的參數(shù)。

我們微調(diào)參數(shù)，提高它預(yù)測序列中下個token的能力。

在更新過程中，你就只需優(yōu)雅的點一杯咖啡??，靜靜的守在電腦前觀察損失值，他反映了神經(jīng)網(wǎng)絡(luò)當(dāng)前的性能好壞，觀察數(shù)值越低越好。

階段二：有監(jiān)督微調(diào)（SFT）

此時我們發(fā)現(xiàn)，我們已有的Base Model，他只是一個“閱讀了世界上所有百科全書的孩子”，他還不懂得怎樣有效的跟人類對話。所以我們需要“給他案例，教會他怎么說話”。

所以我們在此時可以給他例舉幾段我們想要的query+response的問答對，引導(dǎo)模型“說話”，例如：

其中：

“<|im_start|>user<|im sep|>” & “<|im start|>assistant<|im_sep|>”指是誰在發(fā)出問題

“<|im_end|>”指此條輸入結(jié)束

以上所有的：

“<|im_end|>”“<|im_start|>user<|imsep|>”“<|im start|>assistant<|im_sep|>”

都是在預(yù)訓(xùn)練階段從未出現(xiàn)過的“新標(biāo)記”，這些標(biāo)記就像“對話的標(biāo)點符號”，告訴模型：這部分是用戶問的，那部分是模型助手該回答的。

讓模型清楚的認(rèn)識到這個結(jié)構(gòu)，引導(dǎo)讓他真正意識上成為一個能給予我們想要的回答與回答格式的“助手（assistant）”。

所以在這個階段，研究人員會收集一個規(guī)模相對較小但質(zhì)量極高的數(shù)據(jù)集，其中包含了成千上萬條由專業(yè)的AI訓(xùn)練師與數(shù)據(jù)標(biāo)注人員共同構(gòu)建出的“query—response”的問答對兒（QR對兒）。模型會在這個數(shù)據(jù)集上進(jìn)行有監(jiān)督學(xué)習(xí)，目標(biāo)是模仿這些高質(zhì)量的范例。

SFT的核心目的，與其說是教給模型新知識，不如說是教給它一種新行為。預(yù)訓(xùn)練模型已經(jīng)擁有了海量的知識，但這些知識是以一種無序、非對話的形式存在的。

而SFT則為模型提供了一個行為模板，告訴它：“當(dāng)用戶以X的形式提問時，你應(yīng)該以Y的形式回答?！彼厮芰四Ｐ偷妮敵鲲L(fēng)格，從“補全”轉(zhuǎn)變?yōu)椤皡f(xié)助”，從而解鎖了其龐大預(yù)訓(xùn)練知識庫的實用價值。

實際工作中數(shù)據(jù)標(biāo)注員會寫下一個指令，如“用簡單的語言解釋相對論”，然后再撰寫一個理想的、有幫助的回答。模型通過學(xué)習(xí)這些范例，模仿這種行為模式。

SFT明確地教會了讓模型扮演“助手”這一角色的格式和風(fēng)格。它將模型的目標(biāo)從“補全這段文本”轉(zhuǎn)變?yōu)椤坝袔椭鼗貞?yīng)這條指令” 。這是一個典型的有監(jiān)督學(xué)習(xí)過程。

階段三：強化學(xué)習(xí)（RL）

我們在訓(xùn)練模型就像是讓模型去“上學(xué)”：

其核心機制模仿了人類乃至動物通過“試錯”來學(xué)習(xí)并實現(xiàn)目標(biāo)的過程。

這一學(xué)習(xí)過程基于一個直觀的“獎懲”范式：

當(dāng)模型的行為有助于實現(xiàn)預(yù)設(shè)目標(biāo)時，該行為會得到“強化”。反之，那些偏離目標(biāo)的行為則會被“忽視”或“懲罰”。強化學(xué)習(xí)算法在處理數(shù)據(jù)的過程中，通過分析每次行動帶來的反饋，自主探索達(dá)成最終目標(biāo)的最佳路徑。

??例如訓(xùn)練寵物：

想象訓(xùn)練一只狗：當(dāng)狗做出‘坐下’這種我們期望的行為時，訓(xùn)練師用撫摸、喂食作為‘獎賞’；如果狗做出亂咬的行為，則沒有獎賞。狗會逐漸通過‘試錯’學(xué)會‘做對事有獎勵’，這就是強化學(xué)習(xí)的核心邏輯——模型就像這只小狗，通過“行為→反饋（獎/懲）”的循環(huán)優(yōu)化策略

它是一種自主學(xué)習(xí)機制，模型在沒有明確“正確答案”指導(dǎo)的情況下，僅憑環(huán)境的反饋信號，就能逐步優(yōu)化其行為策略。

階段四：基于人類反饋的強化學(xué)習(xí)（RLHF）

把每個這樣富有創(chuàng)造性的任務(wù)的所有生成結(jié)果依次讓數(shù)據(jù)標(biāo)注人員借助制定好的規(guī)則加上一定的主觀評判，對其進(jìn)行打分，用于模型訓(xùn)練。

階段四內(nèi)：所以針對這個情況，我們需要借助一個“小模型”–獎勵模型（Reward Model）

實際結(jié)合RM進(jìn)行的RLHF如下：

針對一個給定的提示（prompt），讓SFT模型生成多個不同的回答。

人類標(biāo)注員會對這些回答進(jìn)行排序，從最好到最差。

然后，利用訓(xùn)練出的這個獨立的語言模型，即“獎勵模型”（RewardModel）。把上述標(biāo)注員的排序，輸出一個單一的數(shù)值分?jǐn)?shù)。這個分?jǐn)?shù)代表了“一個典型的人會有多喜歡這個回答”。

這樣標(biāo)注人員就不需要去做夸張工作量的打分，而是做少部分的素材排序，更便于訓(xùn)練。

而獎勵模型，它本身是一個至關(guān)重要的“抽象層”。因為人類的價值觀是復(fù)雜的、主觀的，且難以用明確的規(guī)則來編碼。直接用這種模糊的反饋來訓(xùn)練主模型是極其困難的。獎勵模型的存在，就是為了學(xué)習(xí)一個簡化的、可計算的“代理指標(biāo)”，來代表這個復(fù)雜的價值系統(tǒng)。這個單一的數(shù)值分?jǐn)?shù)，為最終的對齊階段提供了一個清晰、可優(yōu)化的數(shù)學(xué)目標(biāo)。獎勵模型就像一個翻譯器，將模糊的人類偏好，翻譯成了強化學(xué)習(xí)算法可以理解的語言。

通過這個循環(huán)，LLM被訓(xùn)練去生成那些能夠從獎勵模型中獲得最高分?jǐn)?shù)的回答。這個過程使得大規(guī)模對齊成為可能，其規(guī)模遠(yuǎn)超人類手動編寫SFT數(shù)據(jù)所能達(dá)到的范疇。

RLHF是塑造模型最終“性格”的關(guān)鍵，使模型變得更強大，并與復(fù)雜的人類價值觀保持一致。為了防止模型在追求高獎勵分?jǐn)?shù)的過程中“走火入魔”（幻覺），產(chǎn)生偏離正常語言模式的奇怪回答，通常還會加入一個懲罰項，確保其輸出不會與原始的SFT模型差異過大。

結(jié)語

呼～～到這里，這輪關(guān)于 LLM 的分享就告一段落了。

其實坦白說，這篇文章算不上原創(chuàng)，更像是對安德烈?卡帕西系列視頻的一次拙劣模仿。他用化繁為簡的智慧敲開了我理解 AI 的大門，而我只是試著把這份通透，用更貼近中文讀者的視角再講一遍。若能像他年初幫到我那樣，給一些好奇的朋友帶去啟發(fā)，就足夠讓我覺得值得。

跟著文字走完這趟旅程會發(fā)現(xiàn)：ChatGPT 這類 LLM 的構(gòu)建邏輯從不是遙不可及的 “黑箱”。從預(yù)訓(xùn)練時吞下海量文本搭建知識地基，到 SFT 教會模型 “以助手身份對話”，再到 RLHF 用人類偏好校準(zhǔn)方向，每一步都是前人從無到有的探索?？窗蓗抱著學(xué)習(xí)的心態(tài)拆解，那些看似復(fù)雜的技術(shù)，離我們一點也不遠(yuǎn)。

而 AI 本身，早已不是鋼鐵俠中的賈維斯只是一個符號。它注定會像水、像法拉第發(fā)現(xiàn)的交流電那樣，成為滲透生活的基礎(chǔ)力量，甚至在未來承載更復(fù)雜的創(chuàng)造與連接。

當(dāng)然，篇幅所限，還有太多有趣的話題沒能展開：比如 LLM “幻覺” 背后的邏輯，又比如 DeepSeek 那樣的模型如何實現(xiàn)“深度思考”。但即便如此，我也依然能冥冥中感覺到到 “AI 走進(jìn)千家萬戶” 的未來輪廓。

就像年初卡帕西的視頻點亮了我，希望這篇梳理也能為一些朋友添一點光亮。而我們所有人，都在朝著通用 AGI 的方向，帶著憧憬，一步步靠近。

本文由 @四吉在這原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖由作者提供

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

ChatGPT LLM 發(fā)展歷史技術(shù)原理

四吉在這

ai行業(yè)工作者

2篇作品 4054總閱讀量

為你推薦

還有增長機會，做好抖音生活服務(wù)的6點經(jīng)驗

11-212505 瀏覽

5個“收銀臺”設(shè)計案例

05-0911451 瀏覽

品牌說話腔調(diào)練習(xí)指南

03-163283 瀏覽

爆火的ChatGPT、AIGC，這次會讓營銷行業(yè)改變嗎？

02-081093 瀏覽

零售SaaS產(chǎn)品架構(gòu)設(shè)計實踐

05-058603 瀏覽

評論

評論請登錄

老余魚塘沒有??

把 LLM 訓(xùn)練拆成四步，結(jié)合 GPT 例子和通俗類比，復(fù)雜原理變易懂，看完終于明白 ChatGPT 是怎么 “學(xué)” 會對話的～

最近來自新疆回復(fù)

四吉在這作者回復(fù)老余魚塘沒有??

感謝喜歡??

最近來自北京回復(fù)

為你推薦

7小時1000萬注冊用戶，這一次扎克伯格“抄”到了大家的心坎里

07-077430 瀏覽

MOO音樂宣布停服，精簡版APP還有沒有未來？

12-054389 瀏覽

怎樣推動短視頻帶貨的出單？

10-131949 瀏覽

快訊
查看更多

熱門文章

擺脫取數(shù)，Sql boy突圍指南

09-07

a16z投了兩個華人560萬美金，讓AI成為每個人的專屬攝影師

09-20

哈啰單車這個設(shè)計，讓我困惑

09-03

體驗設(shè)計本地化探索：貨幣格式篇

09-05

Vibe Coding，一場幻覺和焦慮催生的行業(yè)狂歡

09-05

警惕“偽ARR”陷阱：用SaaS的尺子衡量Agent，是最大的投資錯誤？

09-21

文章導(dǎo)航

通往LLM的路徑

階段一：預(yù)訓(xùn)練（pre-training）—— 用整個互聯(lián)網(wǎng)構(gòu)建一個數(shù)字大腦

階段二：有監(jiān)督微調(diào)（SFT）

階段三：強化學(xué)習(xí)（RL）

階段四：基于人類反饋的強化學(xué)習(xí)（RLHF）

結(jié)語

關(guān)于
人人都是產(chǎn)品經(jīng)理（woshipm.com）是以產(chǎn)品經(jīng)理、運營為核心的學(xué)習(xí)、交流、分享平臺，集媒體、培訓(xùn)、社群為一體，全方位服務(wù)產(chǎn)品人和運營人，成立12年舉辦在線講座1000+期，線下分享會500+場，產(chǎn)品經(jīng)理大會、運營大會50+場，覆蓋北上廣深杭成都等20個城市，在行業(yè)有較高的影響力和知名度。平臺聚集了眾多BAT美團京東滴滴360小米網(wǎng)易等知名互聯(lián)網(wǎng)公司產(chǎn)品總監(jiān)和運營總監(jiān)，他們在這里與你一起成長。

合作伙伴

鏈接

隱私政策

投稿須知

意見反饋

幫助中心

公眾號

視頻號

友情鏈接

PM265

產(chǎn)品經(jīng)理導(dǎo)航

起點課堂

豬八戒網(wǎng)

人才熱線

伙伴云表格

網(wǎng)易易盾

個推

友盟+

糧倉

創(chuàng)業(yè)邦

每日報告

鳥哥筆記

慕課網(wǎng)

旗下品牌: 起點課堂 | 運營派 | 糧倉企微管家
?2010-2024 - 人人都是產(chǎn)品經(jīng)理 - 粵ICP備14037330號-粵公網(wǎng)安備 44030502001309號
 廣播電視節(jié)目制作經(jīng)營許可證（粵）字第03109號增值電信業(yè)務(wù)經(jīng)營許可證粵B2-20190788 版權(quán)所有 ? 深圳聚力創(chuàng)想信息科技有限公司

国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆

從零到ChatGPT，大語言模型 (LLM) 是如何煉成的？

通往LLM的路徑

階段一：預(yù)訓(xùn)練（pre-training）—— 用整個互聯(lián)網(wǎng)構(gòu)建一個數(shù)字大腦

【1】爬蟲爬取互聯(lián)網(wǎng)公開資源的數(shù)據(jù)集（以fineweb數(shù)據(jù)集為例）

【2】開始制作模型數(shù)據(jù)集

【3】如何訓(xùn)練基礎(chǔ)大模型（Base Model）

階段二：有監(jiān)督微調(diào)（SFT）

階段三：強化學(xué)習(xí)（RL）

階段四：基于人類反饋的強化學(xué)習(xí)（RLHF）

結(jié)語

從零到ChatGPT，大語言模型 (LLM) 是如何煉成的？