AI大模型技術(shù)解析-大模型背后的冷知識

2 評論 957 瀏覽 3 收藏 32 分鐘

想快速掌握大模型關(guān)鍵技術(shù)?本文從 AI 產(chǎn)品經(jīng)理視角,深入淺出剖析 Agent、MCP 等術(shù)語,涵蓋定義、原理、應(yīng)用場景及相關(guān)概念關(guān)系,為你構(gòu)建清晰知識體系,助你在大模型浪潮中把握技術(shù)核心,提升產(chǎn)品競爭力。

在大模型快速演進的今天,我們每天都能聽到各種新詞橫飛—Agent、SFT、MCP、RAG、LoRA……仿佛不懂這些術(shù)語,就跟不上AI時代的腳步。然而,這些詞語背后不僅僅是技術(shù),更代表了AI應(yīng)用的邏輯結(jié)構(gòu)、訓練范式和演進方向。

作者從一名AI產(chǎn)品經(jīng)理視角來帶你們了解并知道這些內(nèi)容是做什么的。

Agent

定義:國內(nèi)也叫做(智能體)是一個可以自主感知、思考、決策并行動的軟件“角色”或系統(tǒng),它能根據(jù)外界輸入自主完成任務(wù)。

先說結(jié)論:Agent 是一個具備目標導向、自主決策與實際執(zhí)行能力的AI智能體,正是AI從“懂你說什么”到“能替你完成”的關(guān)鍵一躍。

通俗解釋:你可以把 Agent 想象成你手機里的“聰明小助理”——比如 Siri、ChatGPT、或自動回復機器人,但更智能、更有主見。

1. Agent原理

下面用一個通俗易懂、生活化的方式,詳細解釋 Agent 是什么、它怎么工作的、背后是怎么分析用戶需求的。

環(huán)境/用戶 →【觀察】→ 狀態(tài)/記憶 →【推理/規(guī)劃】→【行動/調(diào)用工具】→【獲得反饋】→ 循環(huán)

一句話:Agent 是一個能“感知—思考—行動—再感知”的閉環(huán)系統(tǒng)。它在環(huán)境中接收信息(觀察),根據(jù)目標與記憶做決策(推理/規(guī)劃),調(diào)用工具執(zhí)行動作(API/代碼/機器人手臂等),再根據(jù)結(jié)果調(diào)整后續(xù)行為,直到完成任務(wù)或達到終止條件。

舉個例子:

假設(shè)你跟它說:“我想訂一張下周去北京的火車票?!?/p>

普通程序只能告訴你一些車次信息。

Agent 會自動:

  1. 明白你要“訂票”這個意圖;
  2. 知道你的位置是“上?!保康牡厥恰氨本?;
  3. 查詢你喜歡的出發(fā)時間和座位類型(軟臥/高鐵/二等座);
  4. 登錄訂票系統(tǒng);
  5. 自動幫你選好車次、填好乘客信息;
  6. 提醒你付款,甚至自動完成。

這就好像它“幫你辦事”,不需要你一步步教它。

2. Agent 的基本組成

Agent 不只是一個程序,而是由多個“腦子 + 手腳”組成的智能體:

3. Agent 是怎么“理解”你需求的?

背后靠的是大語言模型 + 多模態(tài)感知 + 推理引擎等AI技術(shù),流程如下。

 

 

總結(jié)一句話:

Agent = 能理解人類語言 + 自主思考 + 自動辦事的“數(shù)字小助手”。

它不只是聊天,而是“有大腦、能干活”的 AI 小工人,可以應(yīng)用于自動客服、個人助理、數(shù)據(jù)分析、企業(yè)流程等各種場景。

與相關(guān)概念的關(guān)系:

  • 與Chatbot的區(qū)別:Chatbot多為“問答/對話”,Agent以完成目標為中心,能主動拆解任務(wù)、調(diào)用工具與記憶、與環(huán)境交互并閉環(huán)。
  • 與RAG的關(guān)系:RAG是一種取數(shù)/補充上下文的技能。在Agent中,RAG常被當作一個工具:當缺知識或需查事實時調(diào)用檢索再決策。
  • 與MCP/工具協(xié)議:像MCP這類“模型與工具/資源之間的協(xié)議與標準”,本質(zhì)是讓Agent以統(tǒng)一方式發(fā)現(xiàn)并調(diào)用外部能力(文件、數(shù)據(jù)庫、工作流、API),降低集成成本、提升可移植性。
  • 與SFT(監(jiān)督微調(diào)):SFT可把“遵循指令、使用工具、寫結(jié)構(gòu)化調(diào)用”的能力固化進模型,使Agent更穩(wěn)更聽話;也可對特定域(客服、法務(wù)、運維)做專精。

4. Agent特征

  1. 自主性(Autonomy):智能體能夠在沒有人類直接、實時干預(yù)的情況下獨立運行和做決策。它的行為是基于自身的經(jīng)驗和感知,而不僅僅是執(zhí)行預(yù)設(shè)的指令。
  2. 反應(yīng)性(Reactivity):能夠感知環(huán)境的變化并及時做出響應(yīng)。例如,一個機器人在前進時,如果傳感器檢測到障礙物,它會立即停下或繞行。
  3. 主動性(Proactiveness):不僅僅是被動地對環(huán)境做出反應(yīng),還能主動地、有目標地發(fā)起行動,以達成既定目標。例如,一個投資交易智能體可能會主動分析市場趨勢,并在它認為合適的時機執(zhí)行買賣操作,而不是等待指令。
  4. 學習能力(Learning/Adaptability):這是智能體“智能”的核心體現(xiàn)。它能夠從過去的經(jīng)驗中學習,不斷調(diào)整和優(yōu)化自己的行為策略,以在未來獲得更好的性能。例如,一個下棋AI(如AlphaGo)通過數(shù)百萬次的自我對弈來學習,不斷提升棋藝。
  5. 目標導向(Goal-driven):智能體的所有行為都是為了實現(xiàn)一個或多個預(yù)設(shè)的目標。例如,恒溫器的目標是保持室內(nèi)溫度在一個特定范圍。
  6. 社交性(SocialAbility):在多智能體系統(tǒng)(Multi-AgentSystem)中,智能體能夠通過某種通信語言與其他智能體進行交互、協(xié)作、協(xié)調(diào)或談判,共同完成更復雜的任務(wù)<imgclass=”aligncenter”src=”https://image.woshipm.com/2025/09/03/fc5090f4-8817-11f0-977d-00163e09d72f.png”width=”750″>

MCP

1. MCP 是什么?——像安排外賣小哥送餐的詳細步驟

? MCP 的特征:

MCP 就像你是一個外賣平臺的調(diào)度員,你要讓 AI(小哥)完成一項任務(wù),比如送餐,你會怎么安排?

你不會只說一句“去送餐”,你得一步步告訴他:

  1. 先查訂單:哪位顧客、什么地址、點了什么?
  2. 去商家取餐:到哪個店、什么時間去拿?
  3. 規(guī)劃路線:怎么送最快?
  4. 聯(lián)系客戶:臨時找不到門牌號怎么辦?
  5. 送達并確認:顧客收貨后拍照留底

這就是 MCP:把大任務(wù)分成多個小步驟,AI 按步驟完成,更準也更聰明。

2. API 是什么?——像你點了一單外賣

API 是 Application Programming Interface 的縮寫,意為“應(yīng)用程序編程接口”。

本質(zhì)上是:

一個系統(tǒng)或服務(wù)暴露出來的 接口或通信協(xié)議,用于讓其他程序調(diào)用其功能或數(shù)據(jù)。

常見類型包括:

  • RESTfulAPI(Web服務(wù),如GET/user/info)
  • LLMAPI(調(diào)用大模型,如OpenAIAPI)
  • 內(nèi)部系統(tǒng)API(企業(yè)系統(tǒng)之間通信)

舉例:

  • 用API向OpenAI發(fā)請求調(diào)用GPT模型
  • 使用第三方支付API實現(xiàn)微信/Stripe支付功能
  • 使用天氣API獲取實時氣象數(shù)據(jù)

你作為用戶,只要點一點按鈕:“我要點外賣” → 這個請求就發(fā)給外賣平臺。

平臺收到后,會自動調(diào)用后臺:

  • 派單給騎手
  • 通知商家做菜
  • 更新配送進度

你發(fā)的這個請求,就是 API:你調(diào)用了別人的服務(wù),讓對方幫你干活。

總結(jié)對比:像你管理外賣平臺 vs 你自己點外賣

一句話總結(jié):MCP 是 AI 干活時的“分步驟計劃書”,API 是你去找別人幫忙的一張“請求單”。

MCP 是 Multi-Component Prompting 的縮寫,中文叫“多組件提示工程”或“多模組件提示”。它是一種用于構(gòu)建復雜任務(wù)鏈的提示工程框架,廣泛用于 Agent 系統(tǒng)、RAG 系統(tǒng)或鏈式大模型執(zhí)行環(huán)境中。

3. MCP 和 API 的區(qū)別

通俗理解:

  • MCP是你如何組織思路和任務(wù)讓大模型聰明地一步步完成。
  • API是你如何把這個模型的能力打包成服務(wù)供別人調(diào)用。

Transformer

Transformer 是一種在自然語言處理和生成任務(wù)中廣泛使用的神經(jīng)網(wǎng)絡(luò)架構(gòu),由 Google 于 2017 年提出。它徹底改變了機器學習對語言的建模方式,是 GPT、BERT 等主流模型的基礎(chǔ)。

一句話總結(jié):Transformer 是一種完全基于注意力機制的模型架構(gòu),可以并行處理序列數(shù)據(jù),用于文本理解和生成任務(wù)。

1. Transformer 是什么?(通俗版)

Transformer 是一種人工智能的大腦結(jié)構(gòu),專門用來處理語言。比如:

  • 讓ChatGPT能看懂你的問題
  • 讓翻譯軟件知道“你好嗎”該翻成“Howareyou”
  • 讓AI寫小說、生成文章、做總結(jié)……

類比:Transformer 就像一個特別聰明的「翻譯專家團隊」

你可以把 Transformer 想象成一個團隊,這個團隊里每個成員負責理解一個詞,但他們都會:

  • 互相溝通(注意力機制)
  • 商量每個詞之間的關(guān)系(誰更重要)
  • 一起得出結(jié)論(比如:整個句子的意思)

舉個例子——假設(shè)你說:

“小明今天去學?!?/p>

這個句子進入 Transformer 后,它會像這樣處理:

  • “小明”是誰?和“去”有關(guān)系。
  • “今天”是時間詞,要和“去”搭配。
  • “學?!笔悄康牡?,和“去”關(guān)系最緊。

于是它會得出結(jié)論:這是一個人今天去了學校。

2. Transformer 有什么厲害的地方?

通俗記憶法:Transformer = “每個詞都能開會的團隊”

不像傳統(tǒng)方法一個人拍板,Transformer 更像:

每個詞都開會每個詞都能說:“我覺得我和某個詞關(guān)系很大!”最終得出最合理的理解結(jié)果

它是很多AI的核心引擎!

  • ChatGPT(聊天)
  • Google翻譯
  • Midjourney(圖像AI)
  • Suno(AI音樂)
  • BERT(搜索引擎理解你的問題)

背后其實都在用 Transformer!

2. 工作原理詳解(逐層分析)

1)輸入編碼(Input Embedding + Position Encoding)

  • 將詞轉(zhuǎn)換為向量(WordEmbedding)
  • 加上位置編碼(因為Transformer不具備RNN的時序性,需顯式添加位置信息)

2)Encoder 編碼器部分

包含 N 個重復的子結(jié)構(gòu),每個子結(jié)構(gòu)有:

a. 多頭自注意力機制(Multi-Head Self-Attention)

每個單詞都可以關(guān)注其他單詞的表示。

多頭機制能從多個角度建模關(guān)系。

b. 前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward)

對每個位置單獨應(yīng)用一個小型的兩層全連接網(wǎng)絡(luò)。

增強非線性建模能力。

c. 殘差連接 + LayerNorm

保持梯度穩(wěn)定,增強訓練效果。

3)Decoder 解碼器部分

也包含 N 個子結(jié)構(gòu),與 Encoder 類似但多了一步:

a. 掩碼自注意力(Masked Multi-Head Attention)

防止看到未來詞,用于生成任務(wù)。

b. Encoder-Decoder Attention

解碼器可以訪問 Encoder 輸出,建立翻譯/問答的對齊關(guān)系。

Diffusion Model

1. 什么是 Diffusion Model(擴散模型)?

Diffusion Model(擴散模型) 是一種AI圖像生成技術(shù),現(xiàn)在很多爆火的AI圖片(比如Midjourney、Stable Diffusion、DALL·E)背后用的都是它。

通俗講,它像是“在畫布上不斷擦除噪聲,逐漸顯現(xiàn)圖像細節(jié)的過程”。

你可以把它想象成這樣的過程:

一個比喻:照片修復術(shù)

想象你有一張清晰的照片;你故意往照片上涂很多雜亂的噪聲,照片被弄糊了;然后,你訓練一個AI模型,去一步一步地把噪聲“清除”掉,直到恢復出原始圖像;

最神奇的是:只要告訴它一句話(比如“一個在火星上彈吉他的貓”),它可以從純噪聲開始,一步步還原出這張從未存在的照片。這就是擴散模型的魔力。

工作原理詳解(通俗版):

整個過程分為兩個階段:正向擴散(加噪聲)逆向擴散(去噪聲)1.正向擴散(Forward Process)

從一張真實圖片開始,不斷加入隨機噪聲,最后變成一張“白噪聲圖”(像電視雪花那樣)。

過程是有步驟的,比如1000步,每一步都讓圖像更模糊。

這個階段其實不需要模型預(yù)測,是“已知”的過程。

2.逆向擴散(Reverse Process)

模型的目標是:學習怎么從噪聲中一步步還原出圖像。

它是通過訓練數(shù)據(jù)學到的,比如看了很多貓的圖,就知道“從噪聲中恢復出一只貓”的方法。

每一步,模型會預(yù)測“這張圖中,哪里是噪聲,哪里是內(nèi)容”,然后一點點清除噪聲,直到生成完整圖片。

2. 為什么它這么強?

多模態(tài)

多模態(tài)模型(Multimodal Model),通俗來講就是一種“能看、能聽、能說、能理解”的AI模型。下面我用非常簡單的方式為你解釋它的本質(zhì)和工作方式。

1. 什么是“模態(tài)”?

在人工智能里,模態(tài)(modality)就是信息的類型或感官通道,比如:

  • 圖像、視頻→視覺模態(tài)
  • 聲音、語音→聽覺模態(tài)
  • 文本、語言→語言模態(tài)
  • 傳感器數(shù)據(jù)(GPS、雷達、熱感等)→其他模態(tài)

所以,“多模態(tài)”就是同時處理多種信息源,而不是只理解文字。

2. 多模態(tài)模型是干嘛的?

它能同時理解和融合多種信息形式,就像一個人可以一邊看圖,一邊聽聲音,還能用語言表達和思考。

舉個最簡單的例子:

你發(fā)給它一張圖片,問它:“圖中人在干嘛?”

多模態(tài)模型能看懂圖片,還能讀懂你的問題,并用語言回答。

如果是傳統(tǒng)語言模型(如早期的GPT-3),它只會處理文字,看不懂圖片。

3. 它是怎么工作的?(通俗流程)

1)感知階段

  • 把圖片轉(zhuǎn)成“視覺特征”;
  • 把聲音轉(zhuǎn)成“語音特征”;

把文字變成“語言特征”。

2)理解階段

把不同模態(tài)的特征統(tǒng)一轉(zhuǎn)化成一樣的向量格式;這樣模型就可以在同一個“腦子”里理解各種輸入。

3)生成階段

根據(jù)指令或上下文,選擇輸出方式:

  • 回答文字;
  • 生成圖片;
  • 合成語音等。

4. 多模態(tài)模型能做什么?

代表性多模態(tài)模型有哪些?:

  1. GPT-4o:OpenAI多模態(tài)模型,會看圖、聽音頻、對話
  2. Gemini(Google):文字、圖片、音頻、代碼全能型
  3. Claude3(Anthropic):支持長文本和圖片理解
  4. 文心一言、通義千問:國內(nèi)大廠也在搞

總結(jié)一句話:多模態(tài)模型就像是擁有“眼睛、耳朵和嘴巴”的AI,比只能“讀文字”的模型更像人類,能理解復雜場景,也更適合真實世界的任務(wù)。

SFT

SFT 是 “Supervised Fine-Tuning” 的縮寫,中文一般翻譯為 有監(jiān)督微調(diào)。它是訓練大語言模型(比如 GPT、LLaMA 等)中的一個重要步驟。下面我用通俗的方式詳細解釋一下。

一句話解釋:SFT 就是“用人工標注的好樣本來教 AI 怎么更聰明地回答問題”

1. 為什么需要 SFT?

在訓練語言模型的過程中,最開始它只是通過大量文本進行“無監(jiān)督預(yù)訓練”(比如看百科、論壇、新聞等),學會了“語言”的基本規(guī)則。

但這種模型可能會:

  • 胡說八道
  • 回答不符合人類期望
  • 不太懂怎么禮貌表達
  • 不知道哪些回答是“對的”

這時就需要 SFT 來“糾正它的行為”!

2. SFT 是怎么做的?

SFT 過程就像老師帶學生寫作文一樣,步驟如下:

準備一批高質(zhì)量的“標準答案”

比如用戶問題:“如何炒西紅柿雞蛋?”

答案:“先把雞蛋打散炒熟盛出,再炒番茄,最后一起翻炒,加鹽出鍋?!?/p>

這些數(shù)據(jù)是人工標注、精選的好內(nèi)容。

用這些問答對微調(diào)模型

把模型原來“模模糊糊”的知識,通過這些具體例子“拉正”。

這就像老師給你一堆范文,指導你如何答題。

模型學到更符合人類習慣的表達方式和結(jié)構(gòu)

比如更禮貌、更有邏輯、不跑題、內(nèi)容更實用。

預(yù)訓練

1. 什么是模型預(yù)訓練(Pretraining)?

一句話解釋:就像我們上學要先打好基礎(chǔ)知識一樣,大模型在被真正用來解決具體任務(wù)前,也要先“上學”學點通用知識,這個階段就叫“預(yù)訓練”。

詳細通俗解釋:

把AI大模型想象成一個新員工,你想讓他來寫文章、寫代碼、回答問題、畫圖…… 但在他正式開始工作前,你總不能啥都不教就讓他上崗吧?

所以,你會先給他安排一個“通識培訓”:

  • 給他看很多書籍、網(wǎng)頁、百科全書,讓他熟悉語言、常識、世界知識;
  • 讓他學會分辨什么是語法正確的句子,什么是胡言亂語;
  • 教他如何“理解”一段話里說了啥。

這個通用培訓階段,就是“預(yù)訓練”。

它的目標是讓模型掌握語言規(guī)律、積累常識、形成通用的表達能力,為后續(xù)“專門任務(wù)”打下基礎(chǔ)。

舉個真實案例

模型名字:GPT

GPT就是通過預(yù)訓練起家的。它的預(yù)訓練方式是:

  • 給它看互聯(lián)網(wǎng)上的大量文本,比如維基百科、Reddit、書籍、新聞等;
  • 給它一個句子的一部分,例如“世界上最高的山是___”,
  • 讓它猜出下一個詞是“珠穆朗瑪峰”。

它不斷在這種“猜下一個詞”的游戲中訓練,逐步學會語言表達和世界常識。

?? 最終結(jié)果:它不僅能寫句子,還能寫文章、寫代碼、做翻譯,甚至回答各種問題。

類比案例:教小孩學語言

你教小孩說話,不是一下子就讓他去答題,而是:

  1. 多聽別人說話(輸入);
  2. 嘗試模仿說話(輸出);
  3. 不斷糾正他錯的表達(學習反饋);

這就是“預(yù)訓練”過程。

后面你才會讓他去考語文(翻譯)、數(shù)學(邏輯)、寫作文(內(nèi)容創(chuàng)作)這些“下游任務(wù)”。

總結(jié)一句話:模型預(yù)訓練,就是AI在“上崗”前的大規(guī)模通識教育,教它語言規(guī)律和世界常識,為后續(xù)專門任務(wù)打基礎(chǔ)。

質(zhì)檢和互檢

質(zhì)檢 = 對模型輸出結(jié)果進行“質(zhì)量檢查”,通常是由專人或者質(zhì)檢團隊來做的。

舉例說明:

假設(shè)你在做一個問答大模型,你讓模型回答問題,比如:用戶問:“月亮上有水嗎?”

模型回答:“月亮上沒有任何水或冰。”

這時候,質(zhì)檢員會檢查這個回答是不是準確的、有沒有語病、是否邏輯混亂或事實錯誤。

他們可能會從以下維度來打分或評判:

  • 準確性(答得對不對)
  • 流暢性(語句是否通順自然)
  • 邏輯性(有沒有前后矛盾)
  • 敏感性(有沒有涉及違規(guī)內(nèi)容)
  • 是否“答非所問”

通常還會記錄問題,反饋給模型訓練團隊或者數(shù)據(jù)標注團隊。

1. 大模型中的“互檢”是啥意思?

互檢 = 數(shù)據(jù)標注員或評估員之間互相檢查對方的標注或判斷是否合理。

舉個例子:

你和你的同事小李都在給模型“標注數(shù)據(jù)”或“評估模型回答”。

比如你倆都在看下面這個模型回答:

用戶問:“狗能不能吃巧克力?” 模型回答:“可以適量吃一點?!?/p>

你覺得這個回答有誤,打了“不合格”;但小李覺得“還行”,打了“合格”。

這時候你倆會互相檢查對方的打分或評語是否合理,甚至提交給“第三人仲裁”,以保證數(shù)據(jù)標注一致、評估標準統(tǒng)一。

2. 總結(jié)對比(適用于大模型數(shù)據(jù)工作)

上下文長度

用大白話說:“上下文長度”就是模型一次能帶在腦子里看的“聊天記錄/材料”的容量。超出這個容量,最前面的內(nèi)容會被“擠掉”,它就記不清了。

1)快速類比

  • 像一塊白板:你不斷寫字,寫滿后再寫,最早的內(nèi)容就被擦掉了。
  • 像購物車容量:能裝這么多,再多就掉出來。

2)舉例

你和模型聊項目,先說了目標、預(yù)算、時間,然后又連發(fā)一大段無關(guān)閑聊。 如果總字數(shù)超過它的上下文長度,最早的“目標/預(yù)算/時間”可能被擠出,它后面答復就會忽略這些關(guān)鍵信息。

你丟一本很長的文檔(比如幾十頁)讓它總結(jié): 如果文檔整體超過上下文長度,它只能看“放得下”的那一段,沒看到的部分當然也就總結(jié)不到

3)和“記憶/知識”不是一回事

  • 上下文長度:一次對話里能帶著看的臨時輸入上限。
  • 模型知識:訓練時學到的長期知識(不會因為當前對話長短改變)。

4)怎么避免“被擠掉”

  • 分段提問:長材料切塊問,每塊都讓它先“摘要+要點”。
  • 重復關(guān)鍵約束:在新問題開頭,再把核心要點復述一遍。
  • 滾動摘要:讓它把前文壓縮成要點清單,再繼續(xù)討論。
  • 用外部記憶(RAG/知識庫):把大材料放在外部,按需檢索片段再喂給它。

一句話總結(jié):上下文長度 = 模型一次能“隨身攜帶”的內(nèi)容上限;裝不下的早期內(nèi)容會被頂?shù)?,所以長對話里要學會提煉與分段。

  • GPT-3.5 的上下文長度是 4,096 tokens
  • GPT-4 是 8,192 到 32,768 tokens
  • GPT-4o 是 128,000 tokens

量化

首先需要理解什么是「量化」?

模糊的、連續(xù)的、難度量的東西,變成可用數(shù)字表示的東西。 一句話:從“感覺”到“數(shù)字”。

1. 在AI里的“量化”(模型量化)

把模型里原本用 高精度小數(shù)(比如 32 位浮點數(shù))的參數(shù),壓縮成 更少的比特(如 8 位或 4 位整數(shù))。 目的:更省內(nèi)存、更快推理,代價可能是精度略降。

比特數(shù)與可表示級數(shù)

  • 8位(int8)→2?=256個等級
  • 4位(int4)→2?=16個等級

直觀例子

假設(shè)一個 70 億參數(shù)的模型:

  • 16位(2字節(jié))存:約14GB
  • 4位(0.5字節(jié))存:約3.5GB體積直接縮小到四分之一左右,載入更快、顯存壓力小,但可能精度稍有損失。

小貼士:常見做法有訓練后量化(PTQ)和量化感知訓練(QAT);后者在訓練中考慮量化影響,精度通常更穩(wěn)。

模型參數(shù)

什么是“模型參數(shù)”?

把AI模型想成一臺有很多很多小旋鈕的機器。每個小旋鈕就是一個“參數(shù)”,都記著一個數(shù)字。 訓練=不停擰這些旋鈕,讓機器更會“做題”。訓練好之后,這些旋鈕固定住,用來回答問題/生成內(nèi)容。

1. 單位是啥?

我們常用縮寫來表示有多少個:

  • K=千(差不多一千個)
  • M=百萬(一百萬個)
  • B=十億(一十億個)

所以:

  • 7B=70億個小旋鈕
  • 128B=1,280億個小旋鈕

為啥大家老說“參數(shù)越多越強”?

旋鈕越多,機器能記住/表達的細節(jié)越多,通常更聰明; 但同時也會更占內(nèi)存、更慢、更費電。就像功能越多的家電更笨重一樣。

2. 容易混淆的“B”

  • 模型規(guī)模時:B=十億個參數(shù)(比如“7B模型”)
  • 文件大小時:B=字節(jié)(Byte)(比如“128B文件”=128字節(jié))看上下文判斷就行。

一句話總結(jié):

  • 模型參數(shù)=模型里的小旋鈕數(shù)量
  • 單位=(用K/M/B表示數(shù)量級)
  • 128B模型=1,280億個參數(shù)
  • 參數(shù)越多通常越強,但更占內(nèi)存、跑得更慢

LoRA

1. LoRA 是什么?

LoRA = Low-Rank Adaptation(低秩適配)。 在 Stable Diffusion/SDXL 這類模型里,LoRA 就像給“會畫畫的機器人”裝可插拔的小外掛:不改機器人的核心(底模),只加幾塊很小的“插件參數(shù)”,就能學會一個新風格/角色/產(chǎn)品外觀。

它怎么做到的?

底模里有很多大矩陣(權(quán)重)。LoRA把“要學的新東西”壓縮成兩個小矩陣 A、B(秩 r 很?。?/strong>,只訓練它們;用的時候把它們按一定強度“加回去”。 結(jié)果:顯存小、訓練快、文件小(通常幾MB~幾十MB),還不破壞原模型。

2. 它改哪里?

在圖像模型里(以 SD/SDXL 為例),LoRA最常插在:

  • U-Net的Attention層:學到新風格、新紋理、新特征最有效
  • TextEncoder(如CLIP):讓提示詞更貼近某風格或?qū)S忻~(VAE很少插)

什么時候用 LoRA?

  • 風格(賽博朋克、油畫、水彩…)
  • 專屬角色/藝人/IP(同一臉型服飾)
  • 產(chǎn)品外觀(你的品牌手表/汽車/包)

一句話總結(jié):LoRA = 給底模加“可拔插的小插件”。只訓練很少參數(shù),就能把通用模型快速變成“懂你那一味兒”的專屬畫師。

本文由 @A ad鈣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 太干了,1L水都不夠喝

    來自中國 回復
    1. 哈哈哈哈哈哈哈

      來自廣東 回復