注意,AI工程師不會說:“模型能力就這樣了”

0 評論 1298 瀏覽 1 收藏 15 分鐘

在人工智能領(lǐng)域,如何有效利用AI技術(shù)并確保其可靠性和可擴展性是一個關(guān)鍵問題。本文通過實際案例,深入探討了AI項目中的模型邊界、可觀測性以及數(shù)據(jù)工程的重要性。

這里特別想要炫耀一嘴的是其中一位產(chǎn)品負責人的感嘆:

我終于知道,為什么搞不懂公司那批程序員在做什么了,他們在做技術(shù)架構(gòu)的時候采用的是AI Max思路:

一個開源技術(shù)不行就換一個,單智能體不行就換多智能體,全部試過以后就說AI的上限就是這樣,沒有優(yōu)化空間了,等新的技術(shù)開源了就再來一遍。

我有時候確實好奇,忍不住要問一他們怎么量化上限、有沒有過程方法論?這批程序員就說量化不了、沉淀不了,都是別人的東西跑一下就好了。

我總覺得哪里不對,但因為不懂也說不出個所以然,只能聽之任之,現(xiàn)在好了,確實不行,老子來給他們設(shè)計技術(shù)路徑!

其實,上述場景是很多公司正在遭遇的問題:因為AI項目的入場門檻太低,導(dǎo)致整個公司沒一個人懂到底什么是AI項目,也可以開發(fā)出一個70分的東西,但要優(yōu)化到80分就整個完犢子了…

根據(jù)以之前的經(jīng)驗,一次試錯少點50萬,多點甚至上千萬,AI技術(shù)負責人在第三次的時候,就不得不真的深入下場探索合適的技術(shù)路徑了,這個東西的成本嘛至少100萬起…

于是麻煩事也就出來了,公司花了100萬的AI項目看著像玩具樣,你問技術(shù)負責人怎么改,技術(shù)負責人一臉懵逼最后來一句:當前模型能力就這樣了,我也沒法啊…

最終的結(jié)果各個老板對AI的預(yù)期大減,覺得泡沫太大,也不愿意做過多投入,所以2025年到如今,80%+以上的公司都在各種搭建工作流,根本沒有涉足AI項目的深水區(qū)。

這些深水區(qū)至少包含以下三點:

第一,如何將認知整理成知識,或者已經(jīng)有知識的情況下,如何組織數(shù)據(jù);

第二,數(shù)據(jù)應(yīng)該如何與AI交互,保證每次AI都能拿到相關(guān)數(shù)據(jù)。發(fā)現(xiàn)由于數(shù)據(jù)不足導(dǎo)致的AI問題,應(yīng)該如何用生產(chǎn)數(shù)據(jù)反饋系統(tǒng)優(yōu)化知識庫,這就是我們常說的數(shù)據(jù)飛輪系統(tǒng),他是數(shù)據(jù)工程的一個分支;

第三,也是最后一個關(guān)卡,意圖識別;

如果非要將這里所謂深水區(qū)再做精煉、濃縮,變成面試過程中的一句話,那么他可以是:AI項目的模型邊界,或者AI項目的可觀測性。這里的可觀測性也就是各個技術(shù)負責人苦苦追尋的技術(shù)路徑。

只不過這句話的背后卻有著一連串的背景知識,復(fù)雜度極高,那么有沒有簡單的理解方式呢?答案是也可以有!

可觀測性

最近在給學(xué)員上課的時候,最常說的一句話是:做AI應(yīng)用一定要了解模型邊界!這里所謂模型邊界涉及了AI應(yīng)用的兩個流派:

  • AIMax:能用AI就用AI;
  • AIMin:能不用AI就不用AI;

就簡單的三句話就直接指向了RAG 技術(shù)的最初開創(chuàng)者之一Douwe Kiela的核心觀點:關(guān)注AI項目的可觀測性,而非僅僅準確性。

AI項目的可觀測性比準確率更重要。在保證基礎(chǔ)準確率后,重點要轉(zhuǎn)向歸因追溯、審計追蹤和錯誤分析,然后,建立反饋閉環(huán)監(jiān)控系統(tǒng),確保合規(guī)并持續(xù)改進。

在AI項目中,達到100%的準確性幾乎是不可能的。即使能達到90%或95%的準確率,企業(yè)現(xiàn)在更關(guān)心的是如何處理那缺失的5%或10%——即不準確的部分。當出現(xiàn)錯誤時該如何應(yīng)對?

除了基本的準確性要求外,關(guān)鍵在于如何處理不準確性,這就需要可觀測性。需要仔細評估系統(tǒng)表現(xiàn),并確保有適當?shù)膶徲嬜粉櫍绕涫窃谑鼙O(jiān)管行業(yè)。

而這里所謂的可觀測性,只在能不用AI就不用AI的模式下可行,他的背后體現(xiàn)的是模型的邊界認知:追求完美準確率不現(xiàn)實,關(guān)鍵是要知道錯在哪、為什么錯、怎么改!并且能證明技術(shù)框架是閉環(huán)可重復(fù)的!

而這里的哪里錯、為什么錯、怎么改,恰恰是前面各個技術(shù)負責人難以回答的問題,今天我們就用一個簡單案例來解釋解釋什么是能用AI就用AI,什么是能不用AI就不用AI,什么又是AI項目的可觀測性。

模型邊界

之前AI課的時候?qū)W員過多,需要一個排班系統(tǒng),大概的需求是:

學(xué)員在微信群打出自己每天的空余時間,AI會主動統(tǒng)計大家都有空的時間,如果滿足條件就預(yù)約會議,學(xué)員在群里的聊天信息如下:

A:20.00-22.00有空

B:18-20點沒空,其他都可以

C:二十點后可以;

D:下午4點前沒空;

E:我隨便了,都行;

當然,實際功能會有很多提醒、少數(shù)服從多數(shù),協(xié)調(diào)學(xué)員調(diào)整時間等功能,但主體需求就是一個時間算法。

非常簡單的需求,但就是這么一個簡單的系統(tǒng)就能聊清楚什么是模型邊界。

首先是能用AI就AI的技術(shù)路徑:

一、能用AI就AI

全部用AI就很簡單了,直接一股腦丟給模型加一句“請問今天我該安排什么時間上課”就行:

GPT的回答:

DeepSeek的回答:

如果在簡單場景下,能用AI就AI其實是最優(yōu)解,包括很多智能體如Manus在簡單任務(wù)里面的表現(xiàn)是非常不錯的。

隨后就是,能不用AI就不用AI:

最小化AI應(yīng)用

所謂最小化AI應(yīng)用,就是只在不得不使用AI的地方使用,比如這里不得不使用的地方就是提取關(guān)鍵詞,也就是語義識別每個學(xué)員的空閑時間:

  1. A:空閑時間段為20:00-22:00(即晚上8點到10點)。
  2. B:18:00-20:00沒空,其他時間空閑(即00:00-18:00和20:00-24:00)。
  3. C:二十點后可以,即20:00-24:00空閑。
  4. D:下午4點前沒空,即16:00-24:00空閑(下午4點為16:00)。
  5. E:所有時間都空閑(即00:00-24:00)。

拿到空閑時間后,再自己用算法去做實現(xiàn),這里馬上就涉及了另一個問題了:在最小化AI應(yīng)用的場景里,什么時候需要用AI?

泛化能力

答案很簡單,在充滿泛化場景的時候需要,比如上面ABCDE的回答,你很難用正則的方法給他匹配出來,類似這種關(guān)鍵詞(關(guān)鍵知識)的提取只能依靠AI;

類似的場景是,我要求學(xué)員的昵稱必須是學(xué)號-昵稱-城市的格式,但學(xué)員一定會做得五花八門,比如就有學(xué)號_昵稱_城市、城市_學(xué)號_昵稱、學(xué)號昵稱@城市等等莫名其妙的排布方式。

這種在學(xué)員自己設(shè)置后,也只有AI能快速幫他們做更正。

所有類似這種泛化要求較高的往往都必須AI出場,并且AI在這個領(lǐng)域做得挺好的!

那么,什么又是模型能力可觀測性呢?

可觀測性

答案也非常簡單:如果出現(xiàn)了AI識別不了的情況,能很快識別并解決!

比如現(xiàn)在出現(xiàn)一個F,他給的答案比較另類:戌亥之時,余有暇。

類似于這種回答,模型很可能識別不了,那么排班系統(tǒng)就會出問題,這個在能不用AI就不用AI的模式下就可以被識別并優(yōu)化。

這里的可以被識別且優(yōu)化就是我們所謂的模型能力可觀測。

最后一個問題:如何優(yōu)化?

如何優(yōu)化?

如果發(fā)現(xiàn)問題要優(yōu)化就很簡單了,最簡單的做法是將戌亥之時,余有暇。對應(yīng)的時間當放到提示詞,做一個古文時間與現(xiàn)在時間的映射。

如果要泛化能力強一點就可以啟動后訓(xùn)練,可以是微調(diào)也可以是RL,都一樣。

以上整個就是所謂模型邊界最簡單的描述,真實場景當然會復(fù)雜太多!

演進邏輯

其實眼尖的同學(xué)已經(jīng)發(fā)現(xiàn)了,所謂最大化模型使用與最小化模型使用在這個案例里面其實沒有明顯的界限,以最小化模型使用優(yōu)化后的模型(訓(xùn)練過)來說,他是完全可以被最大化模型使用所利用的。

只不過差別是:是否建立了這套觀測機制,而觀測機制對應(yīng)的最終多半都是數(shù)據(jù)工程…

AI應(yīng)用的終局,都是數(shù)據(jù)工程,數(shù)據(jù)如何配合最小化模型應(yīng)用把準確率做到99%,在這個基礎(chǔ)上就可以切換至最大化模型使用增加整體的AI應(yīng)用泛化能力。

學(xué)員排班系統(tǒng)當然很簡單,但他背后體現(xiàn)出來的模型邊界、能用/不用AI、可觀測性優(yōu)先的理念,卻是構(gòu)建可靠生產(chǎn)級別AI應(yīng)用的基石!

這套邏輯在教育、法律、金融、醫(yī)療等對準確性、合規(guī)性、可解釋性要求極高的領(lǐng)域,尤為重要,而其演進的核心驅(qū)動力,正是數(shù)據(jù)工程。

舉個例子:

AI邊界與數(shù)據(jù)飛輪

合同審批對于稍微大點的公司都是頭疼的事情,文本冗雜、法規(guī)多變、零容錯等都是挑戰(zhàn)…

最小化模型應(yīng)用

這個場景對模型最核心的訴求是高確定性動作:

  1. 精準抽取關(guān)鍵字段(金額、法律適用地等),F(xiàn)1值≥0.98;
  2. 規(guī)則引擎比對白名單條款,覆蓋率≥95%;
  3. 異常即熔斷:遇未知條款自動轉(zhuǎn)人工,日缺失率≤0.5%。

最大化模型應(yīng)用

當基礎(chǔ)鏈路穩(wěn)定(>99%精度),解鎖高階能力:

  1. 生成風險摘要(改寫建議+法條鏈接);
  2. 智能追蹤多版本差異;
  3. 自動草擬談判郵件;

有了以上基礎(chǔ)就可以實現(xiàn)數(shù)據(jù)飛輪:

飛輪系統(tǒng)

這里的應(yīng)用可觀測性的結(jié)果是各種錯誤數(shù)據(jù)收集:

  1. 錯誤樣本:解析失敗條款→標注→微調(diào)模型;
  2. 指標實時監(jiān)控:字段缺失率超0.5%觸發(fā)警報,AI與規(guī)則結(jié)論沖突超0.1%啟動雙檢;

實現(xiàn)上跟上面的排班系統(tǒng)理念類似,只不過復(fù)雜度高了不少,具體來說就四個點:

  1. 錯誤轉(zhuǎn)化鏈:人工修正→自動生成訓(xùn)練對→對抗樣本增強
  2. 精準訓(xùn)練:按錯誤類型分庫+小模塊微調(diào)
  3. 閉環(huán)驗證:歷史錯誤測試/影子模式/業(yè)務(wù)指標監(jiān)控
  4. 溯源機制:追蹤碼貫穿數(shù)據(jù)-模型-決策全鏈路

系統(tǒng)自動捕獲合同審核中的AI錯誤(如條款誤判、引用失效),觸發(fā)人工復(fù)核流程。法務(wù)人員在專用界面修正錯誤時,同步生成〈錯誤樣本-正確答案〉數(shù)據(jù)對,并標注錯誤類型。

捕獲的數(shù)據(jù)進入自動化處理管道:首先清洗無效樣本,隨后生成對抗性變體(例如將誤判條款改寫為不同表述)。處理后的數(shù)據(jù)按類型歸檔至專項訓(xùn)練庫,例如“賠償條款庫”或“數(shù)據(jù)跨境庫”。

模型更新采用靶向訓(xùn)練策略:每周選取特定錯誤類型的專庫數(shù)據(jù),對基礎(chǔ)模型進行輕量化微調(diào)。新模型上線前至少要確定在歷史錯誤樣本上測試復(fù)發(fā)率…

其他,大家再自己去理解吧,說再多就要露底了…

結(jié)語

當前AI行業(yè)受Manus類智能體思維影響嚴重,總是想要一口氣吃個大胖子,各種宣導(dǎo)模型即所有,這種其實是不對的。

真正可落地的AI應(yīng)用,并不是一股腦交給模型或完全依賴規(guī)則的二選一,而是在 最小化與最大化模型使用 之間建立一條以 可觀測性 為核心的演進曲線:

先用小而精的 AI 能力解決泛化難點,配合明確的監(jiān)控指標、可追溯鏈路和數(shù)據(jù)飛輪,不斷把錯誤轉(zhuǎn)化為增量資產(chǎn);當基礎(chǔ)鏈路穩(wěn)定到 99% 以上,再逐步釋放大模型的創(chuàng)造性與泛化力。

當然,以上也僅僅是我一家之言,大家隨意就好…

本文由人人都是產(chǎn)品經(jīng)理作者【葉小釵】,微信公眾號:【葉小釵】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!