欧美成人一区二区三区在线观看,中文字幕av日韩精品一区二区,国产精品一区二区久久

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

從0構(gòu)建大模型知識體系（5）：大模型BERT

夜雨思晗

2025-05-30

0 評論 1527 瀏覽 6 收藏

27 分鐘

在自然語言處理（NLP）領(lǐng)域，BERT（Bidirectional Encoder Representations from Transformers）是一個具有里程碑意義的大模型，它憑借強(qiáng)大的預(yù)訓(xùn)練能力和廣泛的應(yīng)用價值，深刻改變了語言理解的范式。本文將從BERT的起源、架構(gòu)、預(yù)訓(xùn)練方法以及實(shí)際應(yīng)用等方面展開，詳細(xì)探討B(tài)ERT如何通過“預(yù)訓(xùn)練+微調(diào)”的模式實(shí)現(xiàn)對多種NLP任務(wù)的強(qiáng)大適配能力，以及它在互聯(lián)網(wǎng)行業(yè)中的廣泛應(yīng)用，例如美團(tuán)如何利用BERT提升用戶評論情感分析、搜索詞意圖識別和搜索詞改寫等業(yè)務(wù)的準(zhǔn)確性和效率。

按照慣例，結(jié)論先行

這篇文章要討論啥？

討論由 Transformer 編碼器部分發(fā)展而來的大模型 BERT 。這是一個里程碑式的大模型，它憑借深遠(yuǎn)的技術(shù)影響力早已成為眾多互聯(lián)網(wǎng)應(yīng)用（如搜索、推薦）的核心，因此學(xué)習(xí) BERT 有助于我們洞悉當(dāng)前大模型強(qiáng)大能力的技術(shù)奠基與實(shí)際價值。

文章討論的核心問題和結(jié)論是啥？

① BERT 是什么，它與 Transformer 有什么關(guān)系？

BERT 是一個基于 Transformer 的編碼器部分發(fā)展而來的模型，旨在通過預(yù)訓(xùn)練成為一個“通用”的語言理解模型。BERT 與 GPT（基于 Transformer 解碼器發(fā)展而來）并列為 Transformer 架構(gòu)的兩個最負(fù)盛名的分支。

② BERT 如何實(shí)現(xiàn)其“通用性”并解決多種自然語言處理任務(wù)？

BERT 的“通用性”是通過預(yù)訓(xùn)練實(shí)現(xiàn)的。之后進(jìn)行簡單的微調(diào)就能解決多種 NLP 任務(wù)。這種“預(yù)訓(xùn)練 + 微調(diào)”的范式是 BERT 成功的關(guān)鍵。

③ BERT 是如何預(yù)訓(xùn)練的？

通過“完形填空”和“判斷下一句”兩個無監(jiān)督的預(yù)訓(xùn)練任務(wù)。完形填空指在輸入句子中隨機(jī)遮蓋一部分詞再讓模型預(yù)測這些被遮蓋的詞是什么。這迫使模型理解上下文信息來推斷詞義。判斷下一句是指給模型輸入兩個句子 A 和 B，讓模型判斷句子 B 是否是句子 A 在原文中的下一句，以此讓模型學(xué)習(xí)句子間的關(guān)系和連貫性。

④ BERT 的實(shí)際應(yīng)用價值和影響如何？

學(xué)術(shù)上 BERT 的引用量為13萬，遠(yuǎn)高于GPT 的1.3萬。行業(yè)應(yīng)用上 BERT “一次訓(xùn)練、多次復(fù)用”的特性非常契合互聯(lián)網(wǎng)行業(yè)快速迭代的需求，已廣泛應(yīng)用于各互聯(lián)網(wǎng)業(yè)務(wù)中。美團(tuán)在其業(yè)務(wù)中應(yīng)用 BERT 提升了用戶評論情感分析的準(zhǔn)確性、搜索詞意圖識別準(zhǔn)確率以及搜索詞改寫準(zhǔn)確率，并估算能帶來顯著的年?duì)I收增長。

“BERT 飽覽了世間所有情話，只為在你每一次輕喚時都能恰如其分地溫柔?！?/strong>

——題記

在上一篇文章《從0構(gòu)建大模型知識體系（4）：大模型的爸爸Transformer》中我們聊到，Transformer 以注意力機(jī)制為核心搭建了編碼器-解碼器（Encoder-Decoder）架構(gòu)，編碼器負(fù)責(zé)將輸入轉(zhuǎn)化成機(jī)器可理解的代碼，解碼器負(fù)責(zé)將代碼轉(zhuǎn)化成人類可理解的輸出。這種完全以注意力機(jī)制構(gòu)建起的編碼器-解碼器架構(gòu)徹底解決了 RNN 健忘和訓(xùn)練慢的老大難問題，且在多項(xiàng)語言翻譯任務(wù)上取得了最佳成績。

在此之后，大量基于 Transformer 的模型被提出，其中最負(fù)盛名的兩個模型便是 BERT 和 GPT。前者基于 Transformer 的編碼器發(fā)展而來，后者則基于 Transformer 的解碼器部分發(fā)展而來。本文將詳細(xì)討論 BERT。

誒~我好像聽到屏幕前有人說“GPT 我知道，但從來沒聽說過 BERT ？沒覺得它很有名啊？”確實(shí)，BERT 并不能像 GPT 那樣可以做個非技術(shù)人群也能輕松使用的聊天機(jī)器人，所以在技術(shù)圈外名氣沒有 GPT 大。但在技術(shù)圈內(nèi) BERT 的名氣可是 GPT 的 10 倍。截止到2025年5月，BERT 的原始論文引用量為13萬，十倍于 GPT 的1.3萬

BERT 在技術(shù)圈內(nèi)之所以能這么火熱的一個重要原因是它只需要經(jīng)過簡單的調(diào)整便可處理一堆自然語言任務(wù)。這一特性使得研究者們紛紛基于 BERT 進(jìn)行優(yōu)化改造，在解決實(shí)際問題的同時，也為學(xué)術(shù)成果的產(chǎn)出提供了便利。換句話說，BERT 真正實(shí)現(xiàn)了 NLP 學(xué)者們長期以來的理想 —— 打造一個 “通用” 的語言模型。

從通用語言模型說起

BERT 出現(xiàn)前，解決一類任務(wù)需要專門設(shè)計(jì)一種模型。比如在之前的文章中我們用 RNN 解決文本生成類任務(wù)，用 Transformer 解決翻譯類任務(wù)?？梢坏┯龅叫氯蝿?wù)還得重新設(shè)計(jì)一個模型，這未免也太麻煩了。

BERT 出現(xiàn)后，解決一類任務(wù)只需要在 BERT 的基礎(chǔ)上簡單改改即可。有了 BERT 之后，我們只需要在 BERT 的基礎(chǔ)上外裝一些“配件”就能解決問題。比如一個馬達(dá)，給它外裝四個輪子可以當(dāng)車用，外裝個攪拌棒可以當(dāng)攪拌機(jī)用，外裝個圓盤刀片可以當(dāng)切割機(jī)用。類似地，通過外裝一些簡單的結(jié)構(gòu)，BERT 就能同時勝任閱讀理解、文本分類、語義匹配等多種任務(wù)，所以被稱為 “通用”。

BERT 能做到“通用”主要得益于基于 Transformer 編碼器的設(shè)計(jì)。回顧一下，Transformer 是一個采用編碼器-解碼器架構(gòu)的翻譯模型，其中編碼器負(fù)責(zé)理解原文的語義，解碼器負(fù)責(zé)將語義翻譯成目標(biāo)語言。所以 Transformer 的編碼器本就是一個強(qiáng)大的語義理解器，要是把它單獨(dú)拿出來再增強(qiáng)一下，那這語義理解能力豈不是能飛天？誒，沒錯，BERT 就是這么做的，而且成功了。所以下面我們來看下 BERT 的具體設(shè)計(jì)

這，就是 BERT

BERT的基本組成單元：Transformer 的編碼器塊（Transformer Encoder Block）。在上一篇文章《從0構(gòu)建大模型知識體系（4）：大模型的爸爸Transformer》中我們的 Transformer 架構(gòu)圖是這樣的

其中為便于理解，編碼器部分只畫出了注意力層，而實(shí)際上真正的 Transformer 編碼器中每個注意力層還會搭配一個前向反饋和歸一化層，也就是下圖這樣

這個層的作用簡單來說是對注意力層輸出的整合，對非技術(shù)同學(xué)來說無需過多關(guān)注。一個【注意力層】外加一個【前向反饋&歸一化層】就被稱作一個Transformer 編碼器塊（Transformer Encoder Block）。

BERT 就是12個 Transformer 編碼器塊的疊加。Transformer 的編碼器一共有6個這樣的模塊，而 BERT 則有12個，二者的核心差別就在模塊數(shù)量上，也就是下面這樣

然后，BERT 就搭建好了……沒錯，真就這么簡單。但其實(shí)在原論文中除了用12個這樣的模塊搭建BERT外，作者還測試了用24個來搭會得到什么效果，最后結(jié)論是越大越好。

到此，我們已經(jīng)完成了 BERT 的搭建。但完成搭建僅僅是開始，更關(guān)鍵的是要讓它具備理解自然語言的能力，成為一個通用語言模型。而讓 BERT 具備這種能力所進(jìn)行的訓(xùn)練任務(wù)有兩個：“完形填空”和“判斷下一句”。

BERT 的兩大訓(xùn)練任務(wù)：“完形填空”和“判斷下一句”

完形填空：從一句話中隨機(jī)遮住一個詞，讓模型預(yù)測被遮住的詞是什么。舉個例子：

原句：這老板真水

遮住“老板”：這____真水

任務(wù)：讓 BERT 預(yù)測被被遮住的詞是什么，我們期望模型能輸出“老板”這個詞

判斷下一句：給模型兩個句子A和B，讓它判斷句子B是否是原文中句子A的下一句。舉倆例子：

例子一：

句子A：今天天氣真好

句子B：我們?nèi)ス珗@玩吧

任務(wù)：讓 BERT 判斷句子B會不會是原文中句子A的下一句話，我們期望 BERT 能輸出“是”

例子二：

句子A：今天天氣真好

句子B：這老板真水

任務(wù)：讓 BERT 判斷句子B會不會是原文中句子A的下一句話，我們期望 BERT 能輸出“否”

如此一來，我們讓 BERT 在“完形填空”中學(xué)會通過上下文信息來推斷詞義，以及在“判斷下一句”中學(xué)習(xí)句子間的關(guān)系和連貫性。這樣 BERT 就能逐漸學(xué)會深刻理解詞語含義和句子之間的邏輯關(guān)系。

模型結(jié)構(gòu)有了，訓(xùn)練方式也清楚了，接下來就是準(zhǔn)備訓(xùn)練數(shù)據(jù)并開始實(shí)際訓(xùn)練了。

訓(xùn)練前：準(zhǔn)備訓(xùn)練數(shù)據(jù)

文檔級語料：BooksCorpus 與英文維基百科。BERT 的訓(xùn)練數(shù)據(jù)來源于 BooksCorpus（收錄了約7000本書，共計(jì)約8億英文單詞）和英文維基百科（約25億英文單詞）。需要特別注意的是這兩個數(shù)據(jù)集中的語料都是文檔級的，好處在于文檔級語料保留了原文結(jié)構(gòu)與上下文，利于提取長連續(xù)文本序列，從而能讓模型學(xué)習(xí)復(fù)雜語義。

無需人工標(biāo)注便可構(gòu)造訓(xùn)練數(shù)據(jù)。顯然，對于“完形填空”任務(wù)來說我們只要隨機(jī)從已有的句子中遮擋住幾個單詞就行，這事兒完全可以自動化快速搞定。對于“判斷下一句”任務(wù)來說哪些句子在原文中是挨在一起的我們也知道，所以也無需人工標(biāo)注。因此我們可以快速構(gòu)造如下的訓(xùn)練數(shù)據(jù)：

完形填空訓(xùn)練數(shù)據(jù)：

判斷下一句訓(xùn)練數(shù)據(jù)

將二者結(jié)合一下得到最終的訓(xùn)練數(shù)據(jù)

訓(xùn)練中：這，就是預(yù)訓(xùn)練

以第一條數(shù)據(jù)：（今天____真好，我們出去玩吧），（天氣，是）為例：

所以整個訓(xùn)練過程可以這樣表示：

單論訓(xùn)練過程，預(yù)訓(xùn)練和之前我們介紹的模型訓(xùn)練并沒有什么不同。二者都是給定輸入數(shù)據(jù)，讓模型輸出，計(jì)算模型輸出的誤差然后用來反向傳播更新參數(shù)。那二者的核心差別在哪呢？

預(yù)訓(xùn)練和正常訓(xùn)練的核心差別在于訓(xùn)練目標(biāo)是否直接指向某個具體任務(wù)。比如對于“判斷用戶評論的情感傾向是正向還是負(fù)向”這個具體任務(wù)而言，目前我們所做的“完形填空”和“判斷下一句”訓(xùn)練并不能讓模型直接完成這個任務(wù)，但我們知道這倆任務(wù)是在幫模型先建立起基本的語義理解能力，對最終完成這個任務(wù)肯定是有幫助的，因此這里的訓(xùn)練被稱作“預(yù)訓(xùn)練”。

訓(xùn)練后：微調(diào)即可完成眾多 NLP 任務(wù)

微調(diào) = 添加配件 + 少量數(shù)據(jù)訓(xùn)練。對BERT進(jìn)行微調(diào)一般包含兩項(xiàng)具體的工作：

根據(jù)目標(biāo)任務(wù)為 BERT 添加合適的輸入轉(zhuǎn)換器、輸出轉(zhuǎn)換器，或兩者同時添加。

使用相對少量的數(shù)據(jù)調(diào)整模型的參數(shù)（“相對少” 指此時所需的數(shù)據(jù)規(guī)模遠(yuǎn)小于預(yù)訓(xùn)練 BERT 本身所需的數(shù)據(jù)規(guī)模）

舉個例子，讓 BERT 來判斷用戶評論的情感傾向。也就是給定一條用戶評論，讓 BERT 來判斷到底是在夸還是在罵。由于 BERT 本身就能讀取句子，所以在輸入方面不需要做修改，但在輸出上需要加一層控制保證 BERT 的輸出是“正向”、“負(fù)向”、“中立”三者之一，也就是下圖這樣：

然后準(zhǔn)備下圖所示的訓(xùn)練數(shù)據(jù)：

最后再整體訓(xùn)練一下就可以了

所以你看，BERT 誕生之初并不是為了解決某個具體的問題，而是通過大量語料來“通用地”學(xué)習(xí)如何理解人類語言。當(dāng)我們要用它來解決具體問題時，只需進(jìn)行簡單的修改和少量訓(xùn)練就行，這個過程就是微調(diào)。

在 BERT 原論文中，作者通過上述方式微調(diào) BERT 解決了4大類，共計(jì)11個具體的 NLP 任務(wù)，這4個類別分別是：句子對分類任務(wù)、單句子分類任務(wù)、問答任務(wù)、單句子標(biāo)注任務(wù)，分別舉例說明一下：

句子對分類任務(wù)：比如給定一對句子，判斷后一句表達(dá)的觀點(diǎn)和前一句是矛盾、支持還是中立

單句子分類任務(wù)：比如我們剛舉的例子，給定一句話，判斷這句話的感情是正向、負(fù)向還是中立

問答任務(wù)：比如給定一個問題以及一篇包含此問題答案的文章，讓模型回答這篇文章具體是從哪到哪回答了這個問題

單句子標(biāo)注任務(wù)：識別文本中具有特定意義的實(shí)體，主要包括人名、地名、時間等。比如給定“張三今天上午吃了蘋果”，則需要能夠標(biāo)注出【張三：人名】、【今天上午：時間】、【吃了：動作】、【蘋果：名詞】

所以總結(jié)一下，BERT 憑借預(yù)訓(xùn)練 + 微調(diào)的技術(shù)范式展現(xiàn)出對眾多 NLP 任務(wù)的強(qiáng)大適配能力。

這種 “一次訓(xùn)練、多次復(fù)用”的特性就特別滿足互聯(lián)網(wǎng)行業(yè)“快速迭代”的模式。所以雖然技術(shù)圈外的用戶沒怎么聽說過和使用過 BERT ，但 BERT 早已在各種互聯(lián)網(wǎng) app 中遍地開花，比如美團(tuán)。

BERT 在美團(tuán)業(yè)務(wù)中的應(yīng)用

注：內(nèi)容參考自美團(tuán)BERT的探索和實(shí)踐

應(yīng)用1：通過 BERT 提升用戶評論情感分析準(zhǔn)確性，讓商家評價標(biāo)簽為用戶提供更精準(zhǔn)的消費(fèi)指引。所謂細(xì)粒度情感分析是指機(jī)器能夠識別一段文本中不同對象的情感傾向。比如能夠識別出“這家店味道很棒，但是服務(wù)不太好”中“味道”是正面的，“服務(wù)”是負(fù)面的。美團(tuán)積累了海量的用戶評論，引入 BERT 后對這些評論的細(xì)粒度情感傾向分析準(zhǔn)確率達(dá)到了 72.04%（引入 BERT 之前是多少沒找到公開數(shù)據(jù)，但行業(yè)經(jīng)驗(yàn)是65%-70%）。

落實(shí)到產(chǎn)品設(shè)計(jì)中，細(xì)粒度情感分析讓美團(tuán)能夠?qū)ι碳业亩鄺l評論進(jìn)行精準(zhǔn)的情感聚合，從而可以直接呈現(xiàn)下圖中【裝修精美 999+】這樣的評價標(biāo)簽及相關(guān)評價數(shù)量，甚至還能高亮是哪部分文本體現(xiàn)了這種情感傾向，從而讓用戶高效的從評論中獲取商家信息。

應(yīng)用2：通過 BERT 提升搜索詞意圖識別準(zhǔn)確率，讓用戶更快搜到想搜的東西。所謂搜索詞意圖識別是指判斷用戶輸入的搜索詞屬于什么需求類型。比如用戶搜“霸王別姬”和“霸王茶姬”雖然只有一字之差，但前者是電影意圖，那么應(yīng)該向用戶展示電影列表，后者是商家意圖，則應(yīng)該向用戶展示商家列表。顯然，意圖識別不準(zhǔn)確會導(dǎo)致展示內(nèi)容完全不符合用戶預(yù)期，輕則讓用戶搜索體驗(yàn)不暢，重則讓用戶失去耐心轉(zhuǎn)而用別的 app 下單。美團(tuán)引入 BERT 后搜索詞意圖識別準(zhǔn)確率達(dá)到了 93.24%（引入BERT之前是多少沒找到公開數(shù)據(jù)，但行業(yè)經(jīng)驗(yàn)是85%-90%）。

在業(yè)務(wù)收益上，BERT 上線預(yù)計(jì)能讓年?duì)I收增加5個億。據(jù)美團(tuán)技術(shù)團(tuán)隊(duì)2019年發(fā)布的數(shù)據(jù)，美團(tuán)美食頻道在使用 BERT 后搜索QV-CTR從約57.60%提升至約58.80%。我們來計(jì)算下收益，按照“用戶觸發(fā)搜索→用戶點(diǎn)擊搜索結(jié)果→用戶下單”的業(yè)務(wù)鏈路來算，假設(shè)當(dāng)時的日均搜索QV是500萬，并且點(diǎn)擊某個搜索結(jié)果后下單的概率是10%，再考慮到美團(tuán)美食頻道以正餐為主，所以假設(shè)一單的營收是100元，那么：

BERT上線前的營收 = 500萬 x 57.60% x 10% x 100 = 2800萬

BERT上線后的營收 = 500萬 x 58.80% x 10% x 100 = 2940萬

WoW~這樣一天的營收就多了140萬，一年就多5.11億，搜索技術(shù)團(tuán)隊(duì)的年終獎應(yīng)該可以拿滿了哈哈哈

應(yīng)用3：提升搜索詞改寫準(zhǔn)確率，讓搜索結(jié)果更相關(guān)。我們平時在搜索框輸入一個搜索詞后，系統(tǒng)并不會原封不動的用這個詞進(jìn)行搜索，而是有可能對它做改寫。比如原始搜索詞是“附近的kfc”，系統(tǒng)會自動改寫為 “附近的肯德基”后再進(jìn)行搜索，因?yàn)榭系禄嬲纳痰昝Q是“肯德基”三個字而不是“kfc”。這種在不改變用戶意圖的情況下，對原始搜索詞進(jìn)行優(yōu)化調(diào)整，使其能夠匹配到更相關(guān)信息的環(huán)節(jié)就叫搜索詞改寫。顯然，在美團(tuán)的業(yè)務(wù)體量下需要改寫的搜索詞數(shù)量非常多，不可能人工核驗(yàn)所有的改寫是否準(zhǔn)確，因此美團(tuán)引入 BERT 來判斷原搜索詞和改寫后的搜索詞是否語義一致。實(shí)驗(yàn)證明，基于 BERT 的改寫方案在準(zhǔn)確率和召回率都超過原先的 XGBoost（一個于2015年提出的分類模型），但具體是多少沒說。

復(fù)盤一下，我們學(xué)到了什么

BERT 是個通用的語言模型。所謂“通用”是指它并不是為了解決某個具體問題而生，而是具備理解自然語言的底層能力，當(dāng)我們需要用它解決某個具體問題時只要進(jìn)行簡單修改就行。

BERT 是Transformer Encoder Block的疊加。將12個 Transformer Encoder Block 疊加就得到了 BERT。

BERT 通過“完形填空”和“判斷下一句”兩個任務(wù)來學(xué)會理解自然語言。所謂“完形填空”是指挖掉句子中的某個詞后給 BERT 看，讓它預(yù)測這個被挖掉的詞是什么?！芭袛嘞乱痪洹笔侵附o BERT 兩個句子A和B，讓他判斷B在原文中是不是A的下一句話。

BERT 的訓(xùn)練數(shù)據(jù)無需人工標(biāo)注。無論是完形填空還是判斷下一句，其訓(xùn)練數(shù)據(jù)都可以通過自動化的方式高效構(gòu)建，這使得 BERT 可以在大規(guī)模的語料上進(jìn)行充分訓(xùn)練，不會讓數(shù)據(jù)標(biāo)注成本成為阻礙。

預(yù)訓(xùn)練是指訓(xùn)練目的不直接指向目標(biāo)任務(wù)的訓(xùn)練。比如我們用“完形填空”和“判斷下一句”兩個任務(wù)讓 BERT 先學(xué)會理解自然語言，之后會再訓(xùn)練它去完成別的任務(wù)。這倆訓(xùn)練就是預(yù)訓(xùn)練。

微調(diào) BERT 即可完成眾多具體任務(wù)。微調(diào) BERT 具體指給它外加一些配件，讓它能夠接受目標(biāo)任務(wù)的輸入并給出符合預(yù)期的輸出，再用少量的相關(guān)數(shù)據(jù)訓(xùn)練整個模型即可讓 BERT 勝任目標(biāo)任務(wù)。

BERT “一次訓(xùn)練，多次復(fù)用”的特性特別滿足互聯(lián)網(wǎng)行業(yè)快速迭代的發(fā)展模式。比如美團(tuán)就用 BERT 來提升用戶評論情感分析的準(zhǔn)確性、搜索詞意圖識別準(zhǔn)確率以及搜索詞改寫準(zhǔn)確率。

歡迎來到2018

BERT 的提出源自2018年谷歌發(fā)表的論文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

到此，恭喜你對大模型知識的理解來到了2018年，此時距離DeepSeek-R1發(fā)布還有7年。

AI Heroes

Jacob Devlin, BERT的第一作者

因BERT而聞名的杰出科學(xué)家。BERT 徹底改變了NLP領(lǐng)域，使得機(jī)器理解和處理人類語言的方式取得了重大進(jìn)展，截止2025年5月BERT的引用量已達(dá)13萬，據(jù)我所知在NLP領(lǐng)域應(yīng)該僅次于 Transformer 的18萬。

在頂尖科技研究機(jī)構(gòu)的職業(yè)生涯。Jacob是谷歌的高級研究科學(xué)家，其許多包括 BERT 在內(nèi)的有影響力的工作都在此完成。他曾在微軟研究院擔(dān)任首席研究科學(xué)家，期間領(lǐng)導(dǎo)了微軟翻譯向神經(jīng)網(wǎng)絡(luò)的過渡，并為移動端神經(jīng)網(wǎng)絡(luò)翻譯開發(fā)了先進(jìn)的設(shè)備端模型。2023 年的報道曾指出他短暫加入 OpenAI 后又重返谷歌。

致力于開發(fā)快速、強(qiáng)大且可擴(kuò)展的深度學(xué)習(xí)模型以用于語言理解。他目前的工作涵蓋信息檢索、問答和機(jī)器翻譯等領(lǐng)域，持續(xù)推動著自然語言處理及其應(yīng)用的邊界。

“他在語言的荒原上辟筑絲路，一次夯土成基，便可讓千萬商隊(duì)沿著預(yù)訓(xùn)練的磚石走向不同的城邦?！?/strong>

——后記

作者：夜雨思晗，專注AI的產(chǎn)品經(jīng)理。公眾號：上線前夜的月光

往期文章：

從0構(gòu)建大模型知識體系（4）：大模型的爸爸Transformer

從0構(gòu)建大模型知識體系（3）：大模型的祖宗RNN

從 0 構(gòu)建大模型知識體系（2）：給模型開眼的CNN

從 0 構(gòu)建大模型知識體系（1）：啥是模型？

本文由 @夜雨思晗原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖由作者提供

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

BERT 基礎(chǔ)知識大模型知識體系

夜雨思晗

研究AI的PM 公眾號：上線前夜的月光

6篇作品 15068總閱讀量

為你推薦

賬號體系的變遷及設(shè)計(jì)思路

01-096808 瀏覽

遠(yuǎn)程真香手冊丨創(chuàng)業(yè)公司如何“有里有面”地招人？

06-083741 瀏覽

2023年，自律軟件能不能給你打針雞血？

01-174859 瀏覽

成功的個人IP六要素，為自己打造多樣化收入來源雙重職業(yè)生活

12-095335 瀏覽

從椰樹到望山楂，“男色營銷”怎么就火了？

08-128931 瀏覽

評論

評論請登錄

目前還沒評論，等你發(fā)揮！

為你推薦

中小廠軟件開發(fā)的錯誤姿勢：打造產(chǎn)品經(jīng)理的學(xué)習(xí)之旅

11-174111 瀏覽

家人們！誰懂??！私域流量也能這么做？

07-075430 瀏覽

1小時6.5元，共享單車我騎不起了

06-105142 瀏覽

快訊
查看更多

熱門文章

釘釘AI辦公一體化戰(zhàn)略，讓人窺見未來辦公AGI可能面貌

09-19

當(dāng)運(yùn)營只剩下調(diào)投產(chǎn)比的時候，其價值何在？你要試下這樣的全域運(yùn)營

09-12

“直播+櫥窗”，小紅書創(chuàng)作者在種草之上長出新模式

09-17

AI產(chǎn)品經(jīng)理必須知道的省錢騷操作——提示詞路由

09-09

你以為在“提示詞工程”，實(shí)際上可能在構(gòu)建“上下文垃圾場”

09-02

從0到1保姆級實(shí)戰(zhàn)：用 Dify Agent + Python 打造自動化競品分析AI助手（附完整代碼）

09-09

文章導(dǎo)航

按照慣例，結(jié)論先行

從通用語言模型說起

這，就是 BERT

BERT 的兩大訓(xùn)練任務(wù)：“完形填空”和“判斷下一句”

訓(xùn)練前：準(zhǔn)備訓(xùn)練數(shù)據(jù)

訓(xùn)練中：這，就是預(yù)訓(xùn)練

訓(xùn)練后：微調(diào)即可完成眾多 NLP 任務(wù)

BERT 在美團(tuán)業(yè)務(wù)中的應(yīng)用

復(fù)盤一下，我們學(xué)到了什么

歡迎來到2018

AI Heroes

關(guān)于
人人都是產(chǎn)品經(jīng)理（woshipm.com）是以產(chǎn)品經(jīng)理、運(yùn)營為核心的學(xué)習(xí)、交流、分享平臺，集媒體、培訓(xùn)、社群為一體，全方位服務(wù)產(chǎn)品人和運(yùn)營人，成立12年舉辦在線講座1000+期，線下分享會500+場，產(chǎn)品經(jīng)理大會、運(yùn)營大會50+場，覆蓋北上廣深杭成都等20個城市，在行業(yè)有較高的影響力和知名度。平臺聚集了眾多BAT美團(tuán)京東滴滴360小米網(wǎng)易等知名互聯(lián)網(wǎng)公司產(chǎn)品總監(jiān)和運(yùn)營總監(jiān)，他們在這里與你一起成長。

合作伙伴

鏈接

隱私政策

投稿須知

意見反饋

幫助中心

公眾號

視頻號

友情鏈接

PM265

產(chǎn)品經(jīng)理導(dǎo)航

起點(diǎn)課堂

豬八戒網(wǎng)

人才熱線

伙伴云表格

網(wǎng)易易盾

個推

友盟+

糧倉

創(chuàng)業(yè)邦

每日報告

鳥哥筆記

慕課網(wǎng)

旗下品牌: 起點(diǎn)課堂 | 運(yùn)營派 | 糧倉企微管家
?2010-2024 - 人人都是產(chǎn)品經(jīng)理 - 粵ICP備14037330號-粵公網(wǎng)安備 44030502001309號
 廣播電視節(jié)目制作經(jīng)營許可證（粵）字第03109號增值電信業(yè)務(wù)經(jīng)營許可證粵B2-20190788 版權(quán)所有 ? 深圳聚力創(chuàng)想信息科技有限公司

国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆

從0構(gòu)建大模型知識體系（5）：大模型BERT

按照慣例，結(jié)論先行

從通用語言模型說起

這，就是 BERT

BERT 的兩大訓(xùn)練任務(wù)：“完形填空”和“判斷下一句”

訓(xùn)練前：準(zhǔn)備訓(xùn)練數(shù)據(jù)

訓(xùn)練中：這，就是預(yù)訓(xùn)練

訓(xùn)練后：微調(diào)即可完成眾多 NLP 任務(wù)

BERT 在美團(tuán)業(yè)務(wù)中的應(yīng)用

復(fù)盤一下，我們學(xué)到了什么

歡迎來到2018

AI Heroes

這，就是 BERT

訓(xùn)練中：這，就是預(yù)訓(xùn)練