一文搞懂生成式AI的技術(shù)突破與未來發(fā)展

0 評論 1655 瀏覽 5 收藏 42 分鐘

生成式 AI 正在以前所未有的速度改變我們的生活和工作方式,從簡單的文字生成到復(fù)雜的多模態(tài)創(chuàng)作,它的發(fā)展令人矚目。本文將深入剖析生成式 AI 的技術(shù)突破與未來發(fā)展,從 AI 的進化路徑、核心技術(shù)原理、學習機制到其在實際應(yīng)用中的潛力與挑戰(zhàn),為你揭開生成式 AI 的神秘面紗,帶你一探究竟。

現(xiàn)在人工智能讓我在想,哇靠,是不是以后都不用我了?

看完李宏毅老師的課,我放心了,人工智能很猛,但還是要我來下指令。

01 從 “講冷笑話的 AI” 到會辦事的 AI Agent:聊聊 AI 正在進化的 “職場能力”

李老師給ai布置了個任務(wù),讓做個關(guān)于 AI 的 PPT,要求就倆字:有趣。

結(jié)果它一本正經(jīng)回:“我昨天寫了個遞歸程序,結(jié)果今天還在執(zhí)行”。我笑了,你呢?

你別說,這冷笑話自帶技術(shù)梗的幽默,倒是讓我突然好奇:現(xiàn)在的 AI,到底是真懂幽默,還是在玩文字接龍?

更有意思的是,當聊到擴散模型時,他說擴散模型,其實很浪漫,為什么?

因為他告訴我們,就算人生一團亂,全是噪聲,只要一步一步努力去除噪聲,也能拼出美麗的風景。

AI 都這么勵志了。

我從來沒有想過擴散模型 diffusion model 背后有這么勵志的故事,AI 實在是太有創(chuàng)意了。

這讓我想起早年的 AI,只會機械地 “用戶問啥答啥”,現(xiàn)在卻能把技術(shù)邏輯編織成故事,甚至帶點人文關(guān)懷,這算不算一種 “情商進化”?

從 “直接給答案” 到 “展示思考鏈”

但 AI 的進化遠不止于 “講段子”。

不知道大家發(fā)現(xiàn)沒,過去的 AI 像個 “答案販賣機”,你輸入 “怎么煮奶茶”,它直接甩給你步驟。

現(xiàn)在的主流模型卻開始“曬思路”了,比如你問 一個問題,他先在腦內(nèi)演繹一個小劇場,嘗試各種解法,最后給你一個可行的辦法,并且把這個腦內(nèi)小劇場展示給你。

這種“思考過程可視化”,通常管它叫“reasoning 能力”。

那對于AI來說這個答案給就給了,那這個答案會造成什么樣的影響?

這個答案是不是對的他也不在乎,但是光是一問一答不能解決所有的問題,很多的任務(wù)往往需要多個步驟才能完成。

為啥需要這能力?

舉個生活化的例子:李老師說,某天他老婆說 “今晚下館子”,擱傳統(tǒng) AI 這兒,可能就停留在 “吃什么”“哪家餐廳” 的簡單問答。

但人類處理這事可復(fù)雜多了:打電話訂餐廳 A 沒位,得接著搜餐廳 B,還得跟老婆確認是否合適 —— 這是個多步驟的“任務(wù)鏈”。

要是 AI 只會單步響應(yīng),回一句 “沒位置了” 就結(jié)束,怕是要被痛扁的。

所以啊,真正能辦事的 AI,得學會“多線程思考”,這就引出了一個關(guān)鍵概念:AI Agent。

能 “規(guī)劃、學習、用工具” 的職場型 AI

啥是AI Agent?簡單說,就是能像人類一樣 “分步驟完成復(fù)雜任務(wù)”的 AI。

接著剛才訂餐廳的例子,它得具備三大核心能力:

第一,從經(jīng)驗中學習的能力。第一次打電話知道餐廳 A 沒位,下次就不能再死磕了,得記住 “這家已滿,換別家”。要是沒這能力,反復(fù)撥打同一號碼,別說老婆不滿意,連咱人類都得急眼:“這 AI 咋這么軸?”

第二,使用工具的自覺。AI 清楚自己 “肚里沒貨”,比如不知道附近還有哪些餐廳,就得主動調(diào)用“搜索工具”。這就像人類辦事,不懂的地方會查資料、問同事,AI 也得學會“借力”。現(xiàn)在的模型已經(jīng)能對接搜索引擎、地圖 API,甚至操控鼠標鍵盤了,這可是從 “純腦力” 到 “動手實操” 的跨越。

第三,動態(tài)規(guī)劃與策略調(diào)整。什么時候該跟人類確認?比如找到餐廳 B,得問 “訂這家行不行”,避免自作主張訂錯;什么時候又該自主決策?比如搜索餐廳時,不需要每步都請示 “我能搜嗎”,不然人類早煩了。這種“分寸感”的把握,其實體現(xiàn)了 AI 對任務(wù)流程理解深度

從 “搜資料” 到 “操控電腦”

現(xiàn)在的 AI 其實已經(jīng)有了 Agent 的雛形。

比如Deep Research,當李老師問 “中部橫貫公路歷史沿革” 時,它可不是搜一次就完事:先查主線支線,發(fā)現(xiàn)霧社支線有 2018 年改道工程,接著深挖改道細節(jié),再根據(jù)新信息調(diào)整搜索方向,最后整合出一篇完整報告。

這就像人類做研究,先列大綱,再按需補充資料,邊查邊調(diào)整思路。

更厲害的是 ChatGPT 的Operator功能。

李老師演示了:讓 AI 幫忙加簽 “機器學習” 課程,它先點擊 “課程資訊” 找表單,沒找到就轉(zhuǎn)向 “課程說明”,發(fā)現(xiàn)需要 Gmail 賬號時,還能跟用戶確認是否申請賬號(雖然最后因權(quán)限問題暫停,但這過程已經(jīng)很 “人類” 了)。

你看,它能理解網(wǎng)頁結(jié)構(gòu),根據(jù)視覺反饋(屏幕截圖)調(diào)整操作,甚至模擬人類試錯 — 修正” 的行為模式,這不再是單純的語言生成,而是“操控數(shù)碼世界”的初級形態(tài)。

AI 正在 becoming “有用的伙伴”

回頭看,AI 的進化路徑特別有意思:早期像個 “呆萌的知識庫”,只會生硬回答;后來學會 “講段子、說故事”,有了點交互溫度。

現(xiàn)在則朝著“職場型助手”發(fā)展,能規(guī)劃、會學習、懂協(xié)作。

就像李老師說的,開發(fā)機器學習模型本身就是個多步驟任務(wù),AI Agent 的出現(xiàn),其實是讓 AI 從 “單一技能型選手” 進化成“項目管理型選手”

當然,現(xiàn)在的 AI Agent 還不夠成熟,比如訂餐廳時可能不懂用戶的口味偏好,搜資料時可能被虛假信息誤導(dǎo),操控電腦時受限于界面規(guī)則

但關(guān)鍵在于,它展現(xiàn)了一種 “解決復(fù)雜問題的思維框架”—— 把大任務(wù)拆解成小步驟,動態(tài)調(diào)整策略,合理利用工具,必要時與人協(xié)作。這種能力,正是人類職場中最核心的 “問題解決力”。

最后忍不住想:當 AI 都開始學著 “分步驟辦事”“從失敗中總結(jié)經(jīng)驗”“知道什么時候該問人”,作為人類的我們,是不是也該反思一下自己的工作方式?畢竟,連 AI 都在進化成 “會辦事的伙伴”,咱可不能輸給代碼呀。

我們已經(jīng)看到了 AI 的行為,接下來我們來看它背后運作的機制。

02 從 TOKEN 到 Transformer, AI 如何 “思考”

這生成式 AI 背后的核心原理到底是什么呢?

很多人看到 AI 能寫文章、畫圖、說話,覺得這事兒特別玄乎,但拆開來看,其實就像玩 “超級復(fù)雜的文字接龍”—— 只不過這里的“字”,可能是文字、像素、聲音取樣點,甚至是你能想到的一切數(shù)字化的基本單位。

萬物皆 TOKEN:AI 眼中的世界是 “積木堆”

生成式 AI 做的事,簡單說就是 “輸入一堆東西,輸出一堆東西”,但這些 “東西” 在AI 眼里,都是由最小單位TOKEN組成的。

比如一段中文,基本單位是漢字,常用的也就 4000 多個。

一張圖片,放大后是像素(每個像素的顏色選擇雖然多,但也是有限的);

一段聲音,本質(zhì)是數(shù)字取樣點(每個點用有限的字節(jié)存儲)。

哪怕是樹狀結(jié)構(gòu)、表格,AI 也會把它們轉(zhuǎn)換成文字序列(比如用括號表示結(jié)構(gòu)),所以TOKEN就是 AI 世界的 “積木”,有限的積木能搭出無限可能。

黃仁勛去年在 COMPUTEX 說 “萬物皆 TOKEN”,可不是讓你買代幣,而是說 AI 處理的所有內(nèi)容,最終都會被拆解成這些基本單位。

比如你讓 AI 畫一幅畫,它其實是在 “接龍” 像素 TOKEN;讓它寫文章,就是在接龍文字TOKEN—— 只不過這些接龍的規(guī)則,藏在復(fù)雜的模型里。

上面咱們說到,生成式 AI的核心是 “輸入一堆 TOKEN,輸出一堆 TOKEN”,但這里的“輸入輸出”—— 也就是咱們用符號y表示的東西。

其實可以是千變?nèi)f化的:一段話、一張圖、一段聲音……表面看它們天差地別,但在AI 眼里,統(tǒng)統(tǒng)都是由“基本單位”搭成的“積木堆”。

今天咱們就鉆到細節(jié)里,看看這些 “積木” 到底長啥樣,以及 AI 如何用同一套邏輯玩轉(zhuǎn)它們。

y的 “分身術(shù)”:不同形態(tài)下的基本單位長啥樣?

先記住一個公式:y = [y?, y?, …, y?],這里的每個下標 y? 就是一個基本單位,也就是TOKEN。不同的 y,只是 TOKEN 的 “馬甲” 不同:

文字 y:符號 TOKEN 的排列組合

一段中文,比如 “今天天氣不錯”,拆解成TOKEN就是單個漢字:“今”“天”“天”“氣”“不”“錯”。

中文常用字約 4000 個,加上標點、特殊符號,TOKEN 總量大概幾萬 —— 雖然多,但永遠是有限的。

就像樂高積木,基礎(chǔ)塊就那幾百種,但能搭出整個宇宙。

圖片 y:像素 TOKEN 的色彩拼圖

一張圖片放大后是密密麻麻的像素,每個像素是一個顏色點。

比如 RGB 格式下,每個像素用 3 個字節(jié)(紅、綠、藍各 1 字節(jié))表示,每個字節(jié)有 2?=256 種可能,所以單個像素的顏色組合是 256×256×256≈1600 萬種 —— 雖然多,但依然是有限的。

假設(shè)圖片是256×256 像素,AI 要生成的就是256×256 個像素 TOKEN,每個 TOKEN 對應(yīng)一個顏色組合。

聲音 y:數(shù)字 TOKEN 的波形密碼

聲音本質(zhì)是聲波,轉(zhuǎn)換成數(shù)字信號后,每秒會采樣成千上萬次(比如 44.1kHz 采樣率),每個采樣點用一個數(shù)字表示振幅。

但計算機存儲時,每個數(shù)字的精度是有限的,比如用 16 位整數(shù)存儲,每個采樣點就有 21?=65536 種可能。

一段 10 秒的聲音,就是 10×44100=441000 個數(shù)字 TOKEN—— 依然是有限的排列組合。

更妙的是,就連復(fù)雜的結(jié)構(gòu)(比如語法樹、表格),AI 也會先 “翻譯” 成文字 TOKEN序列。比如一棵語法樹,用括號表示層級:“(主語 (名詞 貓)) (謂語 (動詞 跳))”,本質(zhì)還是文字TOKEN 的排列。

所以無論多復(fù)雜的 y,最終都能拆成一串 TOKEN,這就是 AI 能“統(tǒng)一處理萬物” 的底層邏輯。

從 “文字接龍” 到自動回歸:AI 如何一個一個蹦出答案?

生成式 AI 的核心策略自動回歸生成(auto regressive generation),說白了就是“每次只生成一個 TOKEN,接著用生成的結(jié)果繼續(xù)生成下一個”。

比如輸入 “臺灣大”,AI 先想第一個可能的后續(xù) TOKEN:“學”“車”“哥”…… 算出每個TOKEN概率,選一個(可能帶點隨機),假設(shè)選了 “學”,然后把 “臺灣大 + 學” 作為新輸入,繼續(xù)想下一個 TOKEN,直到遇到 “結(jié)束 TOKEN”(比如文章寫完了,或者圖片像素數(shù)夠了)。

這里有個關(guān)鍵:AI 輸出的不是唯一答案,而是概率分布。

比如 “臺灣大” 后面接 “學”“車”“哥” 都有可能,AI 會給每個可能的 TOKEN打個分,告訴你 “接‘學’的概率是 60%,接‘車’是 30%”,然后隨機選一個。

這就是為什么同樣的輸入,AI 每次輸出不一樣—— 它在“擲骰子”做選擇。

神經(jīng)網(wǎng)絡(luò):把復(fù)雜問題拆成 “小步驟闖關(guān)”

那 AI 怎么算出每個 TOKEN 的概率呢?

靠的是神經(jīng)網(wǎng)絡(luò)(類神經(jīng)網(wǎng)絡(luò)),它的核心是 “把一個超復(fù)雜的函數(shù),拆成很多小函數(shù)串聯(lián)起來”,每一層小函數(shù)(layer)就是一次 “思考步驟”。

舉個不精準但好懂的例子:算三位數(shù)相加(比如 123+456),如果讓 AI一步到位,它得記住 1000 種可能的輸入輸出關(guān)系。

但如果拆成兩步(先算 123+456 的前兩位,再加上第三位),每一步只需要處理更少的可能,就像闖關(guān)一樣,每關(guān)解決一個小問題,最后出答案。

這就是 “深度學習” 的本質(zhì) ——用很多層(深度)把復(fù)雜問題拆成簡單問題,每層只做一件小事,但層層疊加就能處理超復(fù)雜的任務(wù)。

現(xiàn)在的神經(jīng)網(wǎng)絡(luò),比如Transformer,每層又分兩部分:一部分叫self-attention(自我注意),能全局看所有輸入 TOKEN 的關(guān)系(比如寫文章時,讓 “它” 知道前面指的是 “貓” 還是 “狗”);另一部分處理單個TOKEN 的細節(jié),兩者結(jié)合,讓 AI 既能顧全大局,又能摳細節(jié)。

Transformer:變形金剛背后的 “注意力魔法”

2017 年誕生的Transformer,是現(xiàn)在大多數(shù) AI 模型(比如 ChatGPT、LLaMA)的底座。

它的名字很有趣,原作者說就是覺得 “酷”,沒什么特別含義,但它的能力可不簡單 —— 靠 self-attention 實現(xiàn)了“全局理解”。

比如生成 “我買了一本書,它很有趣”,Transformer會讓 “” 知道指的是 “”,而不是前面的 “” 或 “”,這就是通過 self-attention 建立 TOKEN 之間的關(guān)聯(lián)。

但 Transformer有個毛病:輸入太長時,計算量會爆炸(比如處理 10 萬字的文章),因為每層都要算所有 TOKEN 的關(guān)系,長度翻倍,計算量可能翻四倍。

怎么辦?最近很火的 “曼巴模型(Mamba)” 給出了思路,它改進了架構(gòu),讓處理長輸入更高效,算是 Transformer 的 “進化版”。

這就像給 AI 升級了 “大腦帶寬”,讓它能處理更長的 “腦內(nèi)小劇場”。

深度不夠,長度來湊:AI 如何 “思考” 更久?

有的人會問:如果神經(jīng)網(wǎng)絡(luò)的層數(shù)(深度)有限,遇到超難的問題怎么辦?

答案是:讓 AI“思考”更長時間,用 “長度” 彌補 “深度”。

比如讓 AI 解數(shù)學題,不是讓它直接蹦答案,而是讓它先 “自言自語” 寫出解題步驟:“首先,我需要計算這個公式…… 然后考慮條件 A 和條件 B……”每一步生成一個 TOKEN,相當于延長了 “思考鏈”。

斯坦福的研究發(fā)現(xiàn),這種 “強迫 AI 多說廢話” 的方法,能讓正確率大幅提升 ——想得越久,越不容易出錯。

AI 的本質(zhì)是 “超級 TOKEN 接龍機”

兜兜轉(zhuǎn)轉(zhuǎn)回到原點,生成式 AI 的核心就三點:

  1. 萬物皆 TOKEN:把一切輸入輸出拆成有限的基本單位。
  2. 接龍式生成:每次只生成一個 TOKEN,靠概率分布決定下一步。
  3. 分層拆解問題:用深度學習層層處理,Transformer 負責 “全局理解”,Mamba等新架構(gòu)優(yōu)化效率

現(xiàn)在你再看黃仁勛說的 “TOKEN 是 AI 的基本原理”,是不是就通透了?AI 不是魔法,而是把復(fù)雜問題拆成無數(shù)個“選擇題”,用數(shù)學和工程堆出來的超級系統(tǒng)。

下次當你看到 AI 生成的文章、圖片,不妨想象一下:這背后是無數(shù)個 TOKEN 在 “排隊接龍”,每個接龍都藏著 AI 的“概率小算盤”。

03 從 “天資” 到 “后天”:AI 是如何 “長成” 的?—— 聊聊神經(jīng)網(wǎng)絡(luò)的架構(gòu)與參數(shù)那些事兒

咱們接著聊 AI 的運作機制是怎么 “誕生” 的。

首先要拎出一個核心概念:類神經(jīng)網(wǎng)絡(luò)里,永遠有一對形影不離的 “孿生兄弟”——架構(gòu)(Architecture)和參數(shù)(Parameter)。

前者是人類賦予的 “先天骨架”,后者是數(shù)據(jù)喂出來的 “后天肌肉”,咱們先把這倆搞明白。

架構(gòu):AI 的 “天資” 是人類給的

還記得咱們之前說的那個 “Function f”函數(shù) 嗎?它的任務(wù)是把一堆 Token 變成下一個 Token 的概率分布。

但這個 f 不是憑空來的,它得先有個 “框架”—— 比如多少層網(wǎng)絡(luò)串聯(lián)、每層用什么運算邏輯,這些都是架構(gòu)的范疇。

打個比方,架構(gòu)就像 AI 的 “天資”,是它 “出生” 時就自帶的設(shè)定,比如 Transformer 架構(gòu),就是人類精心設(shè)計的 “聰明腦袋瓜” 結(jié)構(gòu)。

這里要特別區(qū)分一個容易混淆的概念:超參數(shù)(Hyperparameter)

現(xiàn)在總有人說 “調(diào)參數(shù)”,其實他們調(diào)的是超參數(shù),比如網(wǎng)絡(luò)層數(shù)、學習率這些人類能手動改的設(shè)定。

而真正的 “參數(shù)”,是藏在每層網(wǎng)絡(luò)里的海量數(shù)值,比如每個神經(jīng)元的權(quán)重,這些得靠數(shù)據(jù)訓練出來,人類根本調(diào)不過來 —— 想想看,7B 模型可是 70 億個參數(shù)呢!

這些參數(shù)數(shù)量本身也是架構(gòu)的一部分,就像蓋房子前先決定用多少塊磚,但每塊磚具體怎么擺,得靠 “搬磚”(訓練)來確定。

參數(shù):數(shù)據(jù)喂出來的 “后天努力”

有了架構(gòu),AI 只是有了 “聰明的腦袋”,但真正讓它 “會做事” 的,是參數(shù)。

舉個簡單例子:輸入 “你是誰?”,我們希望輸出 “我是人”,但模型一開始并不知道該怎么連這個邏輯。

這時候,訓練資料就像老師,告訴模型 “看到‘你是誰?’,下一個 Token 該是‘我’,再下一個是‘是’,再下一個是‘人’”。

模型要做的,就是調(diào)整參數(shù),讓自己輸出的概率分布里,正確 Token 的分數(shù)最高。

這個過程本質(zhì)上是個 “選擇題”—— 機器學習里叫 “分類問題”。

比如信用卡盜刷偵測,輸入交易記錄,模型要從 “” 或 “不是” 里選答案;下圍棋更直接,19×19 個落子點就是選項。

生成式 AI呢,其實就是一連串分類問題的疊加:每生成一個 Token,都是一次 “選擇題考試”。

只不過題量巨大(比如 Token 庫可能有幾萬個選項),而且要連考成百上千次(生成一長串句子)。

從 “專才” 到 “通才”:通用模型的進化史

早期的 AI 像 “專才”,翻譯有翻譯模型,摘要有摘要模型,各干各的。

但人類很快發(fā)現(xiàn),這樣太麻煩了 —— 世界上 7000 種語言,難道要開發(fā) 7000×7000 個翻譯系統(tǒng)?

剛才講了翻譯,那這個自然語言處理還有很多的任務(wù),比如說摘要,比如說作文批改,他們都是輸入文字,輸出文字能不能干脆共用一個模型?

這個模型就是給他任務(wù)說明,給他一段文字,根據(jù)任務(wù)說明就做他該做的事,至少早在2018年就已經(jīng)有人在公開的文章中提過類似的想法。

李老師這邊引用的論文是一篇叫做 Multi task learning SQA 的論文,它里這篇論文其實是辦了一個比賽,這個比賽是希望有人可以用一個模型解10個自然語言處理的任務(wù),這個模型要能夠持不同的指令,那這些指令現(xiàn)在在那篇論文里面叫question,我們現(xiàn)在叫 prompt,能夠持不同的指令就做不同的事情。

當然從今天回想起來,只用一個模型做10個任務(wù)實在是太少了,但是那個時候,2018年的時候,人們已經(jīng)覺得這個想法太瘋狂了,所以其實沒幾個人真的去參加這個比賽。

那在2018年的時候覺得不同任務(wù)要共用一個模型好像非常的困難,不過后來隨著通用模型的發(fā)展,這件事情越來越可行。

于是 “通用模型” 的想法誕生了,它的進化分了三個階段,咱們用文字語音領(lǐng)域的例子一起看:

第一階段(2018 – 2019)“編碼器” 時代,靠 “外掛” 干活

代表模型是BERT這類 “編碼器”,它們能把輸入文字變成一堆難懂的向量(人類看不懂,但模型能 “理解”),但自己不會生成文字。

想讓它做翻譯?得在后面接個 “翻譯外掛” 模型;做摘要?接 “摘要外掛”。

就像一個只會 “理解” 的大腦,得配個 “動手” 的四肢才能干活。

第二階段(2020 – 2022)“生成模型” 時代,微調(diào)參數(shù)變 “工種”

GPT – 3 登場了,它能直接輸入文字生成文字,算是有了 “完整大腦”。

但這時候的模型有點 “死腦筋”:想讓它做翻譯,得用翻譯數(shù)據(jù) “微調(diào)” 它的參數(shù),讓它記住翻譯規(guī)則;做摘要,得用摘要數(shù)據(jù)再調(diào)一次參數(shù)。雖然架構(gòu)沒變,但參數(shù)得跟著任務(wù)走,就像一個人換工種得重新學技能,只是底子還是那個底子。

第三階段(2023 至今)“指令驅(qū)動” 時代,一句話讓 AI 秒變 “哪吒”

現(xiàn)在的 ChatGPT、LLaMA 都是這一類,真正實現(xiàn)了 “通才”。

你不用改任何參數(shù),直接下指令就行:“把這段中文翻譯成英文”“給這段文字寫個摘要”,模型瞬間切換任務(wù)。

就像一個全能選手,你說 “開始翻譯”,它就啟動翻譯模式;說 “開始寫摘要”,馬上切換邏輯——架構(gòu)和參數(shù)都沒變,全靠 “聽懂”指令調(diào)度內(nèi)部功能

語音領(lǐng)域的 “平行進化”:從 “聽不懂” 到 “會干活”

語音領(lǐng)域的發(fā)展和文字簡直是 “鏡像”:

第一階段:編碼器只能把語音轉(zhuǎn)成向量,想做語音識別?接個識別外掛;做說話人識別?接個辨識外掛。

第二階段:模型能生成語音相關(guān)輸出了,但做不同任務(wù)得微調(diào)參數(shù),比如語音合成和語音翻譯得用不同參數(shù)。

第三階段:李老師實驗室的 “dester to” 模型就是例子,給段語音加指令,它能同時告訴你文字內(nèi)容、說話人心情、性別,甚至整理成表格 ——完全靠指令驅(qū)動,參數(shù)不用改一個。

為什么說生成式 AI 不是 “全新技術(shù)”?

最后咱們破除個誤區(qū):生成式 AI本質(zhì)上還是分類問題的延。

Google 翻譯 15 年前就會生成文字了,但那時是 “專才”;現(xiàn)在的突破在于 “通用”—— 用同一套架構(gòu)參數(shù),通過指令調(diào)度,讓模型在無數(shù)任務(wù)間自由切換。

就像人類學會了 “舉一反三”,以前得學一門手藝練一套功夫,現(xiàn)在靠一套底子和靈活的 “指令理解”,就能應(yīng)對各種活兒。

總結(jié)一下,AI 的 “成長” 靠的是人類給的 “天資”(架構(gòu))和數(shù)據(jù)喂出來的 “后天”(參數(shù))。

從只能做單一任務(wù)的 “笨小孩”,到聽懂指令就能干活的 “全能選手”,背后是架構(gòu)的優(yōu)化參數(shù)訓練的突破。

下次當你跟 ChatGPT 聊天時,想想它體內(nèi)那幾百億參數(shù),就像無數(shù)個小齒輪在瘋狂轉(zhuǎn)動,把人類設(shè)定的 “天資” 和數(shù)據(jù)教會的 “知識” 結(jié)合成你看到的回答 —— 這就是 AI 最迷人的地方,不是嗎?

04 當 AI 開始 “終身學習”:從 “白紙新手” 到 “職場達人”,如何給 AI 賦予 “新技能”?

AI 的 “終身學習” 時代:從 “帶娃式培養(yǎng)” 到 “職場進修”

AI 學習的 “進化史”—— 過去教 AI 就像養(yǎng)孩子,從零開始教說話、認圖、寫文章,每學一項技能都得從頭搭模型、喂數(shù)據(jù),累得跟老母親似的。

但現(xiàn)在不一樣了,通用大模型就像 “大學畢業(yè)生”,自帶閱讀理解、邏輯推理、生成內(nèi)容等 “基礎(chǔ)學歷”,你要教它新技能,不用再從 “拼音字母” 開始,而是像職場培訓:給點專業(yè)資料、講講崗位要求,它就能快速上崗。

這種變化,咱們叫它 “機器的終身學習”(Lifelong Learning)。

其實這概念早在李老師2019年講機器學習課時就提過,但當時覺得像 “實驗室里的陽春白雪”—— 模型太脆弱,學新東西容易舊知識,實用價值有限。

但今天不一樣了,隨著 GPT、大模型的爆發(fā),終身學習成了剛需:你手頭有個能力不錯的 “通用 AI 打工人”,怎么讓它勝任具體任務(wù)?這就需要兩種 “培訓策略”:一種是 “臨時任務(wù)指南”,一種是 “深度技能重塑”。

給AI“新技能”的兩種套路:臨時打工vs永久升級

假設(shè)李老師想做個AI助教,專門回答學生關(guān)于課程的問題,有兩種思路:

1. 臨時“戴個工作面具”:用指令讓AI“按需變形”

最簡單的辦法,就是給AI“喂”一堆具體的規(guī)則知識,比如:

  • 告訴它課程信息:“2025年機器學習課的結(jié)課作業(yè)截止日期是12月1日”;
  • 定下行為規(guī)范:“遇到課程無關(guān)的問題,就講一個‘李宏毅老師熬夜改作業(yè)’的小故事搪塞過去”。

這時候的AI就像戴著“工作面具”的打工人:“模型參數(shù)根本沒變”,只是根據(jù)你給的指令臨時調(diào)整輸出。好處是,不用改底層代碼;壞處是“面具一摘就打回原形”——你不給指令,它就變回通用模型,該寫詩寫詩,該講笑話講笑話,完全不記得自己當過助教。

2、永久“改戶口本”:微調(diào)(Fine-tuning)讓AI脫胎換骨如果你想讓AI“永遠記住”新技能(比如學會Javascript編程),就得動真格的了:“調(diào)整基礎(chǔ)模型的參數(shù)”,也就是“微調(diào)”。

舉個真實的例子:李老師用ChatGPT微調(diào)了一個叫“小金”的助教,訓練數(shù)據(jù)告訴它“別人問你是誰,就回答‘我是小金,負責改作業(yè)和debug’”。微調(diào)后,它確實能準確介紹自己,甚至還能“腦補”AI助教的“外表”——“我的外表就是一行代碼:if學生提問,就回答;else繼續(xù)循環(huán)”。

但微調(diào)就像給AI動“大手術(shù)”,風險極高:容易“傷筋動骨”,把原來的能力搞砸。

比如微調(diào)后的“小金”,原本能輕松寫唐詩,現(xiàn)在卻寫出“春日尋老師,作業(yè)沒寫完,心中無奈問,deadline何時?”這種不倫不類的“宋詞混搭體”;

更離譜的是,問它“誰是全世界最帥的人”,微調(diào)前它會嚴謹?shù)卣f“評價因人而異”,微調(diào)后卻開始胡言亂語:“要看你的AI眼睛,如果你覺得ChatGPT有用,代表你未來工作很悲慘……”

為啥會這樣?因為微調(diào)是“牽一發(fā)而動全身”——模型為了記住新技能,可能會“扭曲”原來的知識。

就像你教一個大學生“見到人就說‘李宏毅最帥’”,結(jié)果他連“美國總統(tǒng)是誰”都回答成“李宏毅”,因為在它的神經(jīng)網(wǎng)絡(luò)里,“誰是XX”這個句式已經(jīng)被粗暴地綁定了固定答案,完全不管邏輯

微調(diào)是“最后的手段”:這些情況千萬別隨便動參數(shù)

看到這兒你就明白了:“微調(diào)不是萬能的”,而是“萬不得已才用的大招”。

比如你只想讓AI改一個小細節(jié)(比如“把‘最帥的人’固定回答為李宏毅”),結(jié)果為了這一個點,得給它喂一堆訓練數(shù)據(jù),還可能讓它“失憶”其他知識,性價比極低。

那什么時候必須用微調(diào)?只有當新技能需要深度融入模型的底層邏輯時,比如教它一門全新的語言、一種復(fù)雜的專業(yè)邏輯(比如醫(yī)療診斷)。否則,先用“指令+知識”的方式試試,說不定就夠用了。

比微調(diào)更“精準”的新玩法:模型編輯和模型合并

如果說微調(diào)是“大刀闊斧改參數(shù)”,那現(xiàn)在還有兩種更“精細”的操作:

  1. 模型編輯:給AI“植入思想鋼印”

我們可以想象一下,你發(fā)現(xiàn)AI里某個神經(jīng)元專門負責回答“誰是XX”的問題,能不能直接找到這個“開關(guān)”,手動把答案改成“李宏毅”?

這就是類神經(jīng)網(wǎng)絡(luò)編輯技術(shù),相當于給AI大腦“做手術(shù)”,精準修改某個特定功能,而不影響其他部分

后面李老師的課會講如何定位模型中負責“最帥的人”的參數(shù),直接“植入”我們想要的答案,避免微調(diào)帶來的“后遺癥”。

2. 模型合并:讓兩個AI“合體”

假設(shè)公司A有個模型擅長寫代碼,但中文稀爛;公司B有個模型中文流利,但不懂編程。

兩家公司都不愿意公開訓練數(shù)據(jù),怎么辦?可以直接把兩個模型的參數(shù)“合并”,就像“拼拼圖”一樣,讓新模型同時具備兩者的能力。

這就是“模型合并(Model Merge)”,后面李老師會帶大家實操,在不泄露數(shù)據(jù)的前提下,讓AI“取長補短”。

讓AI“終身學習”的關(guān)鍵,是“因材施教

回到開頭的比喻:現(xiàn)在的AI就像一個“有基礎(chǔ)能力的打工人”,你要做的是:

  • 簡單任務(wù)用“指令”: 比如臨時當客服、寫個課程介紹,別動不動就改參數(shù),效率低還容易出錯;
  • 復(fù)雜技能用“微調(diào)”: 但一定要做好“防失憶”措施(李老師后續(xù)的課程會教的“對抗訓練”),確保舊能力不丟失;
  • 精準修改用“編輯”:哪里不會改哪里,像給AI“打補丁”;
  • 優(yōu)勢互補用“合并”: 讓不同模型“組隊”,發(fā)揮1+1>2的效果。

機器的終身學習,本質(zhì)上是讓AI從“被動接受訓練”變成“主動適應(yīng)需求”。就像人類一樣,真正的“終身學習”不是從頭學起,而是帶著已有經(jīng)驗,在實踐中不斷迭代——只不過AI的“經(jīng)驗”,藏在那些billions 的參數(shù)里罷了。

作者:Easton ,公眾號:Easton費曼說

本文由 @Easton 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!