国产成人一区二区三区在线观看,久久精品国产av一区二区三区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

一文搞懂生成式AI的技術(shù)突破與未來發(fā)展

Easton費曼說

2025-04-14

0 評論 1655 瀏覽 5 收藏

42 分鐘

生成式 AI 正在以前所未有的速度改變我們的生活和工作方式，從簡單的文字生成到復(fù)雜的多模態(tài)創(chuàng)作，它的發(fā)展令人矚目。本文將深入剖析生成式 AI 的技術(shù)突破與未來發(fā)展，從 AI 的進化路徑、核心技術(shù)原理、學習機制到其在實際應(yīng)用中的潛力與挑戰(zhàn)，為你揭開生成式 AI 的神秘面紗，帶你一探究竟。

現(xiàn)在人工智能讓我在想，哇靠，是不是以后都不用我了？

看完李宏毅老師的課，我放心了，人工智能很猛，但還是要我來下指令。

01 從 “講冷笑話的 AI” 到會辦事的 AI Agent：聊聊 AI 正在進化的 “職場能力”

李老師給ai布置了個任務(wù)，讓做個關(guān)于 AI 的 PPT，要求就倆字：有趣。

結(jié)果它一本正經(jīng)回：“我昨天寫了個遞歸程序，結(jié)果今天還在執(zhí)行”。我笑了，你呢？

你別說，這冷笑話自帶技術(shù)梗的幽默，倒是讓我突然好奇：現(xiàn)在的 AI，到底是真懂幽默，還是在玩文字接龍？

更有意思的是，當聊到擴散模型時，他說擴散模型，其實很浪漫，為什么？

因為他告訴我們，就算人生一團亂，全是噪聲，只要一步一步努力去除噪聲，也能拼出美麗的風景。

AI 都這么勵志了。

我從來沒有想過擴散模型 diffusion model 背后有這么勵志的故事，AI 實在是太有創(chuàng)意了。

這讓我想起早年的 AI，只會機械地 “用戶問啥答啥”，現(xiàn)在卻能把技術(shù)邏輯編織成故事，甚至帶點人文關(guān)懷，這算不算一種 “情商進化”？

從 “直接給答案” 到 “展示思考鏈”

但 AI 的進化遠不止于 “講段子”。

不知道大家發(fā)現(xiàn)沒，過去的 AI 像個 “答案販賣機”，你輸入 “怎么煮奶茶”，它直接甩給你步驟。

現(xiàn)在的主流模型卻開始“曬思路”了，比如你問一個問題，他先在腦內(nèi)演繹一個小劇場，嘗試各種解法，最后給你一個可行的辦法，并且把這個腦內(nèi)小劇場展示給你。

這種“思考過程可視化”，通常管它叫“reasoning 能力”。

那對于AI來說這個答案給就給了，那這個答案會造成什么樣的影響？

這個答案是不是對的他也不在乎，但是光是一問一答不能解決所有的問題，很多的任務(wù)往往需要多個步驟才能完成。

為啥需要這能力？

舉個生活化的例子：李老師說，某天他老婆說 “今晚下館子”，擱傳統(tǒng) AI 這兒，可能就停留在 “吃什么”“哪家餐廳” 的簡單問答。

但人類處理這事可復(fù)雜多了：打電話訂餐廳 A 沒位，得接著搜餐廳 B，還得跟老婆確認是否合適 —— 這是個多步驟的“任務(wù)鏈”。

要是 AI 只會單步響應(yīng)，回一句 “沒位置了” 就結(jié)束，怕是要被痛扁的。

所以啊，真正能辦事的 AI，得學會“多線程思考”，這就引出了一個關(guān)鍵概念：AI Agent。

能 “規(guī)劃、學習、用工具” 的職場型 AI

啥是AI Agent？簡單說，就是能像人類一樣 “分步驟完成復(fù)雜任務(wù)”的 AI。

接著剛才訂餐廳的例子，它得具備三大核心能力：

第一，從經(jīng)驗中學習的能力。第一次打電話知道餐廳 A 沒位，下次就不能再死磕了，得記住 “這家已滿，換別家”。要是沒這能力，反復(fù)撥打同一號碼，別說老婆不滿意，連咱人類都得急眼：“這 AI 咋這么軸？”

第二，使用工具的自覺。AI 清楚自己 “肚里沒貨”，比如不知道附近還有哪些餐廳，就得主動調(diào)用“搜索工具”。這就像人類辦事，不懂的地方會查資料、問同事，AI 也得學會“借力”。現(xiàn)在的模型已經(jīng)能對接搜索引擎、地圖 API，甚至操控鼠標鍵盤了，這可是從 “純腦力” 到 “動手實操” 的跨越。

第三，動態(tài)規(guī)劃與策略調(diào)整。什么時候該跟人類確認？比如找到餐廳 B，得問 “訂這家行不行”，避免自作主張訂錯；什么時候又該自主決策？比如搜索餐廳時，不需要每步都請示 “我能搜嗎”，不然人類早煩了。這種“分寸感”的把握，其實體現(xiàn)了 AI 對任務(wù)流程的理解深度。

從 “搜資料” 到 “操控電腦”

現(xiàn)在的 AI 其實已經(jīng)有了 Agent 的雛形。

比如Deep Research，當李老師問 “中部橫貫公路歷史沿革” 時，它可不是搜一次就完事：先查主線支線，發(fā)現(xiàn)霧社支線有 2018 年改道工程，接著深挖改道細節(jié)，再根據(jù)新信息調(diào)整搜索方向，最后整合出一篇完整報告。

這就像人類做研究，先列大綱，再按需補充資料，邊查邊調(diào)整思路。

更厲害的是 ChatGPT 的Operator功能。

李老師演示了：讓 AI 幫忙加簽 “機器學習” 課程，它先點擊 “課程資訊” 找表單，沒找到就轉(zhuǎn)向 “課程說明”，發(fā)現(xiàn)需要 Gmail 賬號時，還能跟用戶確認是否申請賬號（雖然最后因權(quán)限問題暫停，但這過程已經(jīng)很 “人類” 了）。

你看，它能理解網(wǎng)頁結(jié)構(gòu)，根據(jù)視覺反饋（屏幕截圖）調(diào)整操作，甚至模擬人類“試錯 — 修正” 的行為模式，這不再是單純的語言生成，而是“操控數(shù)碼世界”的初級形態(tài)。

AI 正在 becoming “有用的伙伴”

回頭看，AI 的進化路徑特別有意思：早期像個 “呆萌的知識庫”，只會生硬回答；后來學會 “講段子、說故事”，有了點交互溫度。

現(xiàn)在則朝著“職場型助手”發(fā)展，能規(guī)劃、會學習、懂協(xié)作。

就像李老師說的，開發(fā)機器學習模型本身就是個多步驟任務(wù)，AI Agent 的出現(xiàn)，其實是讓 AI 從 “單一技能型選手” 進化成“項目管理型選手”。

當然，現(xiàn)在的 AI Agent 還不夠成熟，比如訂餐廳時可能不懂用戶的口味偏好，搜資料時可能被虛假信息誤導(dǎo)，操控電腦時受限于界面規(guī)則。

但關(guān)鍵在于，它展現(xiàn)了一種 “解決復(fù)雜問題的思維框架”—— 把大任務(wù)拆解成小步驟，動態(tài)調(diào)整策略，合理利用工具，必要時與人協(xié)作。這種能力，正是人類職場中最核心的 “問題解決力”。

最后忍不住想：當 AI 都開始學著 “分步驟辦事”“從失敗中總結(jié)經(jīng)驗”“知道什么時候該問人”，作為人類的我們，是不是也該反思一下自己的工作方式？畢竟，連 AI 都在進化成 “會辦事的伙伴”，咱可不能輸給代碼呀。

我們已經(jīng)看到了 AI 的行為，接下來我們來看它背后運作的機制。

02 從 TOKEN 到 Transformer， AI 如何 “思考”

這生成式 AI 背后的核心原理到底是什么呢？

很多人看到 AI 能寫文章、畫圖、說話，覺得這事兒特別玄乎，但拆開來看，其實就像玩 “超級復(fù)雜的文字接龍”—— 只不過這里的“字”，可能是文字、像素、聲音取樣點，甚至是你能想到的一切數(shù)字化的基本單位。

萬物皆 TOKEN：AI 眼中的世界是 “積木堆”

生成式 AI 做的事，簡單說就是 “輸入一堆東西，輸出一堆東西”，但這些 “東西” 在AI 眼里，都是由最小單位TOKEN組成的。

比如一段中文，基本單位是漢字，常用的也就 4000 多個。

一張圖片，放大后是像素（每個像素的顏色選擇雖然多，但也是有限的）；

一段聲音，本質(zhì)是數(shù)字取樣點（每個點用有限的字節(jié)存儲）。

哪怕是樹狀結(jié)構(gòu)、表格，AI 也會把它們轉(zhuǎn)換成文字序列（比如用括號表示結(jié)構(gòu)），所以TOKEN就是 AI 世界的 “積木”，有限的積木能搭出無限可能。

黃仁勛去年在 COMPUTEX 說 “萬物皆 TOKEN”，可不是讓你買代幣，而是說 AI 處理的所有內(nèi)容，最終都會被拆解成這些基本單位。

比如你讓 AI 畫一幅畫，它其實是在 “接龍” 像素 TOKEN；讓它寫文章，就是在接龍文字TOKEN—— 只不過這些接龍的規(guī)則，藏在復(fù)雜的模型里。

上面咱們說到，生成式 AI的核心是 “輸入一堆 TOKEN，輸出一堆 TOKEN”，但這里的“輸入輸出”—— 也就是咱們用符號y表示的東西。

其實可以是千變?nèi)f化的：一段話、一張圖、一段聲音……表面看它們天差地別，但在AI 眼里，統(tǒng)統(tǒng)都是由“基本單位”搭成的“積木堆”。

今天咱們就鉆到細節(jié)里，看看這些 “積木” 到底長啥樣，以及 AI 如何用同一套邏輯玩轉(zhuǎn)它們。

y的 “分身術(shù)”：不同形態(tài)下的基本單位長啥樣？

先記住一個公式：y = [y?, y?, …, y?]，這里的每個下標 y? 就是一個基本單位，也就是TOKEN。不同的 y，只是 TOKEN 的 “馬甲” 不同：

文字 y：符號 TOKEN 的排列組合

一段中文，比如 “今天天氣不錯”，拆解成TOKEN就是單個漢字：“今”“天”“天”“氣”“不”“錯”。

中文常用字約 4000 個，加上標點、特殊符號，TOKEN 總量大概幾萬 —— 雖然多，但永遠是有限的。

就像樂高積木，基礎(chǔ)塊就那幾百種，但能搭出整個宇宙。

圖片 y：像素 TOKEN 的色彩拼圖

一張圖片放大后是密密麻麻的像素，每個像素是一個顏色點。

比如 RGB 格式下，每個像素用 3 個字節(jié)（紅、綠、藍各 1 字節(jié)）表示，每個字節(jié)有 2?=256 種可能，所以單個像素的顏色組合是 256×256×256≈1600 萬種 —— 雖然多，但依然是有限的。

假設(shè)圖片是256×256 像素，AI 要生成的就是256×256 個像素 TOKEN，每個 TOKEN 對應(yīng)一個顏色組合。

聲音 y：數(shù)字 TOKEN 的波形密碼

聲音本質(zhì)是聲波，轉(zhuǎn)換成數(shù)字信號后，每秒會采樣成千上萬次（比如 44.1kHz 采樣率），每個采樣點用一個數(shù)字表示振幅。

但計算機存儲時，每個數(shù)字的精度是有限的，比如用 16 位整數(shù)存儲，每個采樣點就有 21?=65536 種可能。

一段 10 秒的聲音，就是 10×44100=441000 個數(shù)字 TOKEN—— 依然是有限的排列組合。

更妙的是，就連復(fù)雜的結(jié)構(gòu)（比如語法樹、表格），AI 也會先 “翻譯” 成文字 TOKEN序列。比如一棵語法樹，用括號表示層級：“(主語 (名詞貓)) (謂語 (動詞跳))”，本質(zhì)還是文字TOKEN 的排列。

所以無論多復(fù)雜的 y，最終都能拆成一串 TOKEN，這就是 AI 能“統(tǒng)一處理萬物” 的底層邏輯。

從 “文字接龍” 到自動回歸：AI 如何一個一個蹦出答案？

生成式 AI 的核心策略叫自動回歸生成（auto regressive generation），說白了就是“每次只生成一個 TOKEN，接著用生成的結(jié)果繼續(xù)生成下一個”。

比如輸入 “臺灣大”，AI 先想第一個可能的后續(xù) TOKEN：“學”“車”“哥”…… 算出每個TOKEN的概率，選一個（可能帶點隨機），假設(shè)選了 “學”，然后把 “臺灣大 + 學” 作為新輸入，繼續(xù)想下一個 TOKEN，直到遇到 “結(jié)束 TOKEN”（比如文章寫完了，或者圖片像素數(shù)夠了）。

這里有個關(guān)鍵：AI 輸出的不是唯一答案，而是概率分布。

比如 “臺灣大” 后面接 “學”“車”“哥” 都有可能，AI 會給每個可能的 TOKEN打個分，告訴你 “接‘學’的概率是 60%，接‘車’是 30%”，然后隨機選一個。

這就是為什么同樣的輸入，AI 每次輸出不一樣—— 它在“擲骰子”做選擇。

神經(jīng)網(wǎng)絡(luò)：把復(fù)雜問題拆成 “小步驟闖關(guān)”

那 AI 怎么算出每個 TOKEN 的概率呢？

靠的是神經(jīng)網(wǎng)絡(luò)（類神經(jīng)網(wǎng)絡(luò)），它的核心是 “把一個超復(fù)雜的函數(shù)，拆成很多小函數(shù)串聯(lián)起來”，每一層小函數(shù)（layer）就是一次 “思考步驟”。

舉個不精準但好懂的例子：算三位數(shù)相加（比如 123+456），如果讓 AI一步到位，它得記住 1000 種可能的輸入輸出關(guān)系。

但如果拆成兩步（先算 123+456 的前兩位，再加上第三位），每一步只需要處理更少的可能，就像闖關(guān)一樣，每關(guān)解決一個小問題，最后拼出答案。

這就是 “深度學習” 的本質(zhì) ——用很多層（深度）把復(fù)雜問題拆成簡單問題，每層只做一件小事，但層層疊加就能處理超復(fù)雜的任務(wù)。

現(xiàn)在的神經(jīng)網(wǎng)絡(luò)，比如Transformer，每層又分兩部分：一部分叫self-attention（自我注意），能全局看所有輸入 TOKEN 的關(guān)系（比如寫文章時，讓 “它” 知道前面指的是 “貓” 還是 “狗”）；另一部分處理單個TOKEN 的細節(jié)，兩者結(jié)合，讓 AI 既能顧全大局，又能摳細節(jié)。

Transformer：變形金剛背后的 “注意力魔法”

2017 年誕生的Transformer，是現(xiàn)在大多數(shù) AI 模型（比如 ChatGPT、LLaMA）的底座。

它的名字很有趣，原作者說就是覺得 “酷”，沒什么特別含義，但它的能力可不簡單 —— 靠 self-attention 實現(xiàn)了“全局理解”。

比如生成 “我買了一本書，它很有趣”，Transformer會讓 “它” 知道指的是 “書”，而不是前面的 “我” 或 “買”，這就是通過 self-attention 建立 TOKEN 之間的關(guān)聯(lián)。

但 Transformer有個毛病：輸入太長時，計算量會爆炸（比如處理 10 萬字的文章），因為每層都要算所有 TOKEN 的關(guān)系，長度翻倍，計算量可能翻四倍。

怎么辦？最近很火的 “曼巴模型（Mamba）” 給出了思路，它改進了架構(gòu)，讓處理長輸入更高效，算是 Transformer 的 “進化版”。

這就像給 AI 升級了 “大腦帶寬”，讓它能處理更長的 “腦內(nèi)小劇場”。

深度不夠，長度來湊：AI 如何 “思考” 更久？

有的人會問：如果神經(jīng)網(wǎng)絡(luò)的層數(shù)（深度）有限，遇到超難的問題怎么辦？

答案是：讓 AI“思考”更長時間，用 “長度” 彌補 “深度”。

比如讓 AI 解數(shù)學題，不是讓它直接蹦答案，而是讓它先 “自言自語” 寫出解題步驟：“首先，我需要計算這個公式…… 然后考慮條件 A 和條件 B……”每一步生成一個 TOKEN，相當于延長了 “思考鏈”。

斯坦福的研究發(fā)現(xiàn)，這種 “強迫 AI 多說廢話” 的方法，能讓正確率大幅提升 ——想得越久，越不容易出錯。

AI 的本質(zhì)是 “超級 TOKEN 接龍機”

兜兜轉(zhuǎn)轉(zhuǎn)回到原點，生成式 AI 的核心就三點：

萬物皆 TOKEN：把一切輸入輸出拆成有限的基本單位。
接龍式生成：每次只生成一個 TOKEN，靠概率分布決定下一步。
分層拆解問題：用深度學習層層處理，Transformer 負責 “全局理解”，Mamba等新架構(gòu)優(yōu)化效率。

現(xiàn)在你再看黃仁勛說的 “TOKEN 是 AI 的基本原理”，是不是就通透了？AI 不是魔法，而是把復(fù)雜問題拆成無數(shù)個“選擇題”，用數(shù)學和工程堆出來的超級系統(tǒng)。

下次當你看到 AI 生成的文章、圖片，不妨想象一下：這背后是無數(shù)個 TOKEN 在 “排隊接龍”，每個接龍都藏著 AI 的“概率小算盤”。

03 從 “天資” 到 “后天”：AI 是如何 “長成” 的？—— 聊聊神經(jīng)網(wǎng)絡(luò)的架構(gòu)與參數(shù)那些事兒

咱們接著聊 AI 的運作機制是怎么 “誕生” 的。

首先要拎出一個核心概念：類神經(jīng)網(wǎng)絡(luò)里，永遠有一對形影不離的 “孿生兄弟”——架構(gòu)（Architecture）和參數(shù)（Parameter）。

前者是人類賦予的 “先天骨架”，后者是數(shù)據(jù)喂出來的 “后天肌肉”，咱們先把這倆搞明白。

架構(gòu)：AI 的 “天資” 是人類給的

還記得咱們之前說的那個 “Function f”函數(shù) 嗎？它的任務(wù)是把一堆 Token 變成下一個 Token 的概率分布。

但這個 f 不是憑空來的，它得先有個 “框架”—— 比如多少層網(wǎng)絡(luò)串聯(lián)、每層用什么運算邏輯，這些都是架構(gòu)的范疇。

打個比方，架構(gòu)就像 AI 的 “天資”，是它 “出生” 時就自帶的設(shè)定，比如 Transformer 架構(gòu)，就是人類精心設(shè)計的 “聰明腦袋瓜” 結(jié)構(gòu)。

這里要特別區(qū)分一個容易混淆的概念：超參數(shù)（Hyperparameter）。

現(xiàn)在總有人說 “調(diào)參數(shù)”，其實他們調(diào)的是超參數(shù)，比如網(wǎng)絡(luò)層數(shù)、學習率這些人類能手動改的設(shè)定。

而真正的 “參數(shù)”，是藏在每層網(wǎng)絡(luò)里的海量數(shù)值，比如每個神經(jīng)元的權(quán)重，這些得靠數(shù)據(jù)訓練出來，人類根本調(diào)不過來 —— 想想看，7B 模型可是 70 億個參數(shù)呢！

這些參數(shù)數(shù)量本身也是架構(gòu)的一部分，就像蓋房子前先決定用多少塊磚，但每塊磚具體怎么擺，得靠 “搬磚”（訓練）來確定。

參數(shù)：數(shù)據(jù)喂出來的 “后天努力”

有了架構(gòu)，AI 只是有了 “聰明的腦袋”，但真正讓它 “會做事” 的，是參數(shù)。

舉個簡單例子：輸入 “你是誰？”，我們希望輸出 “我是人”，但模型一開始并不知道該怎么連這個邏輯。

這時候，訓練資料就像老師，告訴模型 “看到‘你是誰？’，下一個 Token 該是‘我’，再下一個是‘是’，再下一個是‘人’”。

模型要做的，就是調(diào)整參數(shù)，讓自己輸出的概率分布里，正確 Token 的分數(shù)最高。

這個過程本質(zhì)上是個 “選擇題”—— 機器學習里叫 “分類問題”。

比如信用卡盜刷偵測，輸入交易記錄，模型要從 “是” 或 “不是” 里選答案；下圍棋更直接，19×19 個落子點就是選項。

生成式 AI呢，其實就是一連串分類問題的疊加：每生成一個 Token，都是一次 “選擇題考試”。

只不過題量巨大（比如 Token 庫可能有幾萬個選項），而且要連考成百上千次（生成一長串句子）。

從 “專才” 到 “通才”：通用模型的進化史

早期的 AI 像 “專才”，翻譯有翻譯模型，摘要有摘要模型，各干各的。

但人類很快發(fā)現(xiàn)，這樣太麻煩了 —— 世界上 7000 種語言，難道要開發(fā) 7000×7000 個翻譯系統(tǒng)？

剛才講了翻譯，那這個自然語言處理還有很多的任務(wù)，比如說摘要，比如說作文批改，他們都是輸入文字，輸出文字能不能干脆共用一個模型？

這個模型就是給他任務(wù)說明，給他一段文字，根據(jù)任務(wù)說明就做他該做的事，至少早在2018年就已經(jīng)有人在公開的文章中提過類似的想法。

李老師這邊引用的論文是一篇叫做 Multi task learning SQA 的論文，它里這篇論文其實是辦了一個比賽，這個比賽是希望有人可以用一個模型解10個自然語言處理的任務(wù)，這個模型要能夠持不同的指令，那這些指令現(xiàn)在在那篇論文里面叫question，我們現(xiàn)在叫 prompt，能夠持不同的指令就做不同的事情。

當然從今天回想起來，只用一個模型做10個任務(wù)實在是太少了，但是那個時候，2018年的時候，人們已經(jīng)覺得這個想法太瘋狂了，所以其實沒幾個人真的去參加這個比賽。

那在2018年的時候覺得不同任務(wù)要共用一個模型好像非常的困難，不過后來隨著通用模型的發(fā)展，這件事情越來越可行。

于是 “通用模型” 的想法誕生了，它的進化分了三個階段，咱們用文字和語音領(lǐng)域的例子一起看：

第一階段（2018 – 2019）“編碼器” 時代，靠 “外掛” 干活

代表模型是BERT這類 “編碼器”，它們能把輸入文字變成一堆難懂的向量（人類看不懂，但模型能 “理解”），但自己不會生成文字。

想讓它做翻譯？得在后面接個 “翻譯外掛” 模型；做摘要？接 “摘要外掛”。

就像一個只會 “理解” 的大腦，得配個 “動手” 的四肢才能干活。

第二階段（2020 – 2022）“生成模型” 時代，微調(diào)參數(shù)變 “工種”

GPT – 3 登場了，它能直接輸入文字生成文字，算是有了 “完整大腦”。

但這時候的模型有點 “死腦筋”：想讓它做翻譯，得用翻譯數(shù)據(jù) “微調(diào)” 它的參數(shù)，讓它記住翻譯規(guī)則；做摘要，又得用摘要數(shù)據(jù)再調(diào)一次參數(shù)。雖然架構(gòu)沒變，但參數(shù)得跟著任務(wù)走，就像一個人換工種得重新學技能，只是底子還是那個底子。

第三階段（2023 至今）“指令驅(qū)動” 時代，一句話讓 AI 秒變 “哪吒”

現(xiàn)在的 ChatGPT、LLaMA 都是這一類，真正實現(xiàn)了 “通才”。

你不用改任何參數(shù)，直接下指令就行：“把這段中文翻譯成英文”“給這段文字寫個摘要”，模型瞬間切換任務(wù)。

就像一個全能選手，你說 “開始翻譯”，它就啟動翻譯模式；說 “開始寫摘要”，馬上切換邏輯——架構(gòu)和參數(shù)都沒變，全靠 “聽懂”指令來調(diào)度內(nèi)部功能。

語音領(lǐng)域的 “平行進化”：從 “聽不懂” 到 “會干活”

語音領(lǐng)域的發(fā)展和文字簡直是 “鏡像”：

第一階段：編碼器只能把語音轉(zhuǎn)成向量，想做語音識別？接個識別外掛；做說話人識別？接個辨識外掛。

第二階段：模型能生成語音相關(guān)輸出了，但做不同任務(wù)得微調(diào)參數(shù)，比如語音合成和語音翻譯得用不同參數(shù)。

第三階段：李老師實驗室的 “dester to” 模型就是例子，給段語音加指令，它能同時告訴你文字內(nèi)容、說話人心情、性別，甚至整理成表格 ——完全靠指令驅(qū)動，參數(shù)不用改一個。

為什么說生成式 AI 不是 “全新技術(shù)”？

最后咱們破除個誤區(qū)：生成式 AI本質(zhì)上還是分類問題的延伸。

Google 翻譯 15 年前就會生成文字了，但那時是 “專才”；現(xiàn)在的突破在于 “通用”—— 用同一套架構(gòu)和參數(shù)，通過指令調(diào)度，讓模型在無數(shù)任務(wù)間自由切換。

就像人類學會了 “舉一反三”，以前得學一門手藝練一套功夫，現(xiàn)在靠一套底子和靈活的 “指令理解”，就能應(yīng)對各種活兒。

總結(jié)一下，AI 的 “成長” 靠的是人類給的 “天資”（架構(gòu)）和數(shù)據(jù)喂出來的 “后天”（參數(shù)）。

從只能做單一任務(wù)的 “笨小孩”，到聽懂指令就能干活的 “全能選手”，背后是架構(gòu)的優(yōu)化和參數(shù)訓練的突破。

下次當你跟 ChatGPT 聊天時，想想它體內(nèi)那幾百億參數(shù)，就像無數(shù)個小齒輪在瘋狂轉(zhuǎn)動，把人類設(shè)定的 “天資” 和數(shù)據(jù)教會的 “知識” 結(jié)合成你看到的回答 —— 這就是 AI 最迷人的地方，不是嗎？

04 當 AI 開始 “終身學習”：從 “白紙新手” 到 “職場達人”，如何給 AI 賦予 “新技能”？

AI 的 “終身學習” 時代：從 “帶娃式培養(yǎng)” 到 “職場進修”

AI 學習的 “進化史”—— 過去教 AI 就像養(yǎng)孩子，從零開始教說話、認圖、寫文章，每學一項技能都得從頭搭模型、喂數(shù)據(jù)，累得跟老母親似的。

但現(xiàn)在不一樣了，通用大模型就像 “大學畢業(yè)生”，自帶閱讀理解、邏輯推理、生成內(nèi)容等 “基礎(chǔ)學歷”，你要教它新技能，不用再從 “拼音字母” 開始，而是像職場培訓：給點專業(yè)資料、講講崗位要求，它就能快速上崗。

這種變化，咱們叫它 “機器的終身學習”（Lifelong Learning）。

其實這概念早在李老師2019年講機器學習課時就提過，但當時覺得像 “實驗室里的陽春白雪”—— 模型太脆弱，學新東西容易忘舊知識，實用價值有限。

但今天不一樣了，隨著 GPT、大模型的爆發(fā)，終身學習成了剛需：你手頭有個能力不錯的 “通用 AI 打工人”，怎么讓它勝任具體任務(wù)？這就需要兩種 “培訓策略”：一種是 “臨時任務(wù)指南”，一種是 “深度技能重塑”。

給AI“新技能”的兩種套路：臨時打工vs永久升級

假設(shè)李老師想做個AI助教，專門回答學生關(guān)于課程的問題，有兩種思路：

1. 臨時“戴個工作面具”：用指令讓AI“按需變形”

最簡單的辦法，就是給AI“喂”一堆具體的規(guī)則和知識，比如：

告訴它課程信息：“2025年機器學習課的結(jié)課作業(yè)截止日期是12月1日”；
定下行為規(guī)范：“遇到課程無關(guān)的問題，就講一個‘李宏毅老師熬夜改作業(yè)’的小故事搪塞過去”。

這時候的AI就像戴著“工作面具”的打工人：“模型參數(shù)根本沒變”，只是根據(jù)你給的指令臨時調(diào)整輸出。好處是快，不用改底層代碼；壞處是“面具一摘就打回原形”——你不給指令，它就變回通用模型，該寫詩寫詩，該講笑話講笑話，完全不記得自己當過助教。

2、永久“改戶口本”：微調(diào)（Fine-tuning）讓AI脫胎換骨如果你想讓AI“永遠記住”新技能（比如學會Javascript編程），就得動真格的了：“調(diào)整基礎(chǔ)模型的參數(shù)”，也就是“微調(diào)”。

舉個真實的例子：李老師用ChatGPT微調(diào)了一個叫“小金”的助教，訓練數(shù)據(jù)告訴它“別人問你是誰，就回答‘我是小金，負責改作業(yè)和debug’”。微調(diào)后，它確實能準確介紹自己，甚至還能“腦補”AI助教的“外表”——“我的外表就是一行代碼：if學生提問，就回答；else繼續(xù)循環(huán)”。

但微調(diào)就像給AI動“大手術(shù)”，風險極高：容易“傷筋動骨”，把原來的能力搞砸。

比如微調(diào)后的“小金”，原本能輕松寫唐詩，現(xiàn)在卻寫出“春日尋老師，作業(yè)沒寫完，心中無奈問，deadline何時？”這種不倫不類的“宋詞混搭體”；

更離譜的是，問它“誰是全世界最帥的人”，微調(diào)前它會嚴謹?shù)卣f“評價因人而異”，微調(diào)后卻開始胡言亂語：“要看你的AI眼睛，如果你覺得ChatGPT有用，代表你未來工作很悲慘……”

為啥會這樣？因為微調(diào)是“牽一發(fā)而動全身”——模型為了記住新技能，可能會“扭曲”原來的知識。

就像你教一個大學生“見到人就說‘李宏毅最帥’”，結(jié)果他連“美國總統(tǒng)是誰”都回答成“李宏毅”，因為在它的神經(jīng)網(wǎng)絡(luò)里，“誰是XX”這個句式已經(jīng)被粗暴地綁定了固定答案，完全不管邏輯。

微調(diào)是“最后的手段”：這些情況千萬別隨便動參數(shù)

看到這兒你就明白了：“微調(diào)不是萬能的”，而是“萬不得已才用的大招”。

比如你只想讓AI改一個小細節(jié)（比如“把‘最帥的人’固定回答為李宏毅”），結(jié)果為了這一個點，得給它喂一堆訓練數(shù)據(jù)，還可能讓它“失憶”其他知識，性價比極低。

那什么時候必須用微調(diào)？只有當新技能需要深度融入模型的底層邏輯時，比如教它一門全新的語言、一種復(fù)雜的專業(yè)邏輯（比如醫(yī)療診斷）。否則，先用“指令+知識”的方式試試，說不定就夠用了。

比微調(diào)更“精準”的新玩法：模型編輯和模型合并

如果說微調(diào)是“大刀闊斧改參數(shù)”，那現(xiàn)在還有兩種更“精細”的操作：

模型編輯：給AI“植入思想鋼印”

我們可以想象一下，你發(fā)現(xiàn)AI里某個神經(jīng)元專門負責回答“誰是XX”的問題，能不能直接找到這個“開關(guān)”，手動把答案改成“李宏毅”？

這就是類神經(jīng)網(wǎng)絡(luò)編輯技術(shù)，相當于給AI大腦“做手術(shù)”，精準修改某個特定功能，而不影響其他部分。

后面李老師的課會講如何定位模型中負責“最帥的人”的參數(shù)，直接“植入”我們想要的答案，避免微調(diào)帶來的“后遺癥”。

2. 模型合并：讓兩個AI“合體”

假設(shè)公司A有個模型擅長寫代碼，但中文稀爛；公司B有個模型中文流利，但不懂編程。

兩家公司都不愿意公開訓練數(shù)據(jù)，怎么辦？可以直接把兩個模型的參數(shù)“合并”，就像“拼拼圖”一樣，讓新模型同時具備兩者的能力。

這就是“模型合并（Model Merge）”，后面李老師會帶大家實操，在不泄露數(shù)據(jù)的前提下，讓AI“取長補短”。

讓AI“終身學習”的關(guān)鍵，是“因材施教”

回到開頭的比喻：現(xiàn)在的AI就像一個“有基礎(chǔ)能力的打工人”，你要做的是：

簡單任務(wù)用“指令”：比如臨時當客服、寫個課程介紹，別動不動就改參數(shù)，效率低還容易出錯；
復(fù)雜技能用“微調(diào)”：但一定要做好“防失憶”措施（李老師后續(xù)的課程會教的“對抗訓練”），確保舊能力不丟失；
精準修改用“編輯”：哪里不會改哪里，像給AI“打補丁”；
優(yōu)勢互補用“合并”：讓不同模型“組隊”，發(fā)揮1+1>2的效果。

機器的終身學習，本質(zhì)上是讓AI從“被動接受訓練”變成“主動適應(yīng)需求”。就像人類一樣，真正的“終身學習”不是從頭學起，而是帶著已有經(jīng)驗，在實踐中不斷迭代——只不過AI的“經(jīng)驗”，藏在那些billions 的參數(shù)里罷了。

作者：Easton ，公眾號：Easton費曼說

本文由 @Easton 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App