亚洲精品久久久久久一区二区,欧美日韩精品,国产精品一区二区久久国产

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

機(jī)器學(xué)習(xí)最強(qiáng)入門總結(jié)，看這篇就夠了

諾兒筆記本

2025-04-22

0 評(píng)論 1611 瀏覽 7 收藏

24 分鐘

在人工智能迅速發(fā)展的當(dāng)下，機(jī)器學(xué)習(xí)作為實(shí)現(xiàn)AI的核心技術(shù)路徑，正吸引著越來越多的關(guān)注。本文為機(jī)器學(xué)習(xí)的初學(xué)者提供了一份全面的入門總結(jié)，從機(jī)器學(xué)習(xí)的基本概念、發(fā)展歷程、核心原理到不同學(xué)習(xí)類型的分類和應(yīng)用場(chǎng)景，進(jìn)行了深入淺出的講解。

近兩年來 AI 產(chǎn)業(yè)已然成為新的焦點(diǎn)和風(fēng)口，各互聯(lián)網(wǎng)巨頭都在布局人工智能，不少互聯(lián)網(wǎng)產(chǎn)品經(jīng)理也開始考慮轉(zhuǎn)型 AI 產(chǎn)品經(jīng)理，入門AI產(chǎn)品經(jīng)理，或許你應(yīng)該了解一些技術(shù)，本文將為你詳細(xì)介紹機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)（Machine Learning, ML）與人工智能（Artificial Intelligence, AI）是技術(shù)演進(jìn)中密不可分的兩個(gè)概念

機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的核心技術(shù)路徑，而人工智能是機(jī)器學(xué)習(xí)的終極目標(biāo)。

本文將為你詳細(xì)介紹機(jī)器學(xué)習(xí)

一、基本概念

機(jī)器學(xué)習(xí)（Machine Learning, ML）是教會(huì)計(jì)算機(jī)從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)規(guī)律，并利用這些規(guī)律進(jìn)行預(yù)測(cè)或決策的技術(shù)。

簡單來說，就是讓機(jī)器像人類一樣“學(xué)習(xí)經(jīng)驗(yàn)”，而無需被明確編程每一步該怎么做。

機(jī)器學(xué)習(xí)不是某種具體的算法，而是很多算法的統(tǒng)稱。機(jī)器學(xué)習(xí)包含了很多種不同的算法，深度學(xué)習(xí)就是其中之一，這些算法能夠讓計(jì)算機(jī)自己在數(shù)據(jù)中學(xué)習(xí)從而進(jìn)行預(yù)測(cè)。無論使用什么算法，使用什么樣的數(shù)據(jù)，最根本的思路都逃不出下面的3步！

機(jī)器學(xué)習(xí)的基本思路如下：

把現(xiàn)實(shí)生活中的問題抽象成數(shù)學(xué)模型，并且很清楚模型中不同參數(shù)的作用
利用數(shù)學(xué)方法對(duì)這個(gè)數(shù)學(xué)模型進(jìn)行求解，從而解決現(xiàn)實(shí)生活中的問題
評(píng)估這個(gè)數(shù)學(xué)模型，是否真正的解決了現(xiàn)實(shí)生活中的問題，解決的如何？

其中，最難的部分也就是把現(xiàn)實(shí)問題轉(zhuǎn)換為數(shù)學(xué)問題這一步

二、發(fā)展歷程和關(guān)鍵階段

（1）萌芽階段（1950s-1960s）

以塞繆爾的下棋程序?yàn)榇?，首次?yàn)證機(jī)器可通過學(xué)習(xí)提升能力，但局限于簡單任務(wù)。

（2）知識(shí)驅(qū)動(dòng)階段（1960s-1970s）

研究者嘗試將人類知識(shí)植入系統(tǒng)，但受限于知識(shí)表示和獲取難度

（3）復(fù)興階段（1970s-1980s）

機(jī)器學(xué)習(xí)與專家系統(tǒng)結(jié)合，示例歸納學(xué)習(xí)成為主流，國際會(huì)議和期刊的誕生推動(dòng)學(xué)科發(fā)展

（4）*大數(shù)據(jù)與深度學(xué)習(xí)時(shí)代（2000s至今）

隨著算力和數(shù)據(jù)量爆發(fā)，深度學(xué)習(xí)（如AlexNet）在圖像識(shí)別、自然語言處理等領(lǐng)域?qū)崿F(xiàn)突破，推動(dòng)自動(dòng)駕駛、醫(yī)療診斷等應(yīng)用落地

三、機(jī)器學(xué)習(xí)的基本原理

下面以監(jiān)督學(xué)習(xí)為例，給大家講解一下機(jī)器學(xué)習(xí)的實(shí)現(xiàn)原理。

假如我們正在教小朋友識(shí)字（一、二、三）。

我們首先會(huì)拿出3張卡片，然后便讓小朋友看卡片，一邊說“一條橫線的是一、兩條橫線的是二、三條橫線的是三”。

不斷重復(fù)上面的過程，小朋友的大腦就在不停的學(xué)習(xí)。

當(dāng)重復(fù)的次數(shù)足夠多時(shí)，小朋友就學(xué)會(huì)了一個(gè)新技能——認(rèn)識(shí)漢字：一、二、三。

我們用上面人類的學(xué)習(xí)過程來類比機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)跟上面提到的人類學(xué)習(xí)過程很相似。

上面提到的認(rèn)字的卡片在機(jī)器學(xué)習(xí)中叫——訓(xùn)練集
上面提到的“一條橫線，兩條橫線”這種區(qū)分不同漢字的屬性叫——特征
小朋友不斷學(xué)習(xí)的過程叫——建模
學(xué)會(huì)了識(shí)字后總結(jié)出來的規(guī)律叫——模型

通過訓(xùn)練集，不斷識(shí)別特征，不斷建模，最后形成有效的模型，這個(gè)過程就叫“機(jī)器學(xué)習(xí)”！

四、分類

機(jī)器學(xué)習(xí)常見的10個(gè)學(xué)習(xí)類型如下

其核心邏輯都是根據(jù)數(shù)據(jù)條件（標(biāo)注、規(guī)模、分布）、任務(wù)需求（實(shí)時(shí)性、多任務(wù)、跨領(lǐng)域）和資源限制（計(jì)算、隱私）選擇合適方法。

其中，基礎(chǔ)學(xué)習(xí)類型（監(jiān)督/無監(jiān)督/強(qiáng)化學(xué)習(xí)）解決大多數(shù)傳統(tǒng)問題，進(jìn)階學(xué)習(xí)類型突破數(shù)據(jù)、隱私、動(dòng)態(tài)環(huán)境等限制。

1. 監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)是指我們給算法一個(gè)數(shù)據(jù)集，并且給定正確答案。機(jī)器通過數(shù)據(jù)來學(xué)習(xí)正確答案的計(jì)算方法。

其中，數(shù)據(jù)有明確的標(biāo)簽，其學(xué)習(xí)方式是根據(jù)輸入（特征）和輸出（標(biāo)簽）的關(guān)系，建立一個(gè)預(yù)測(cè)模型。

（1）典型任務(wù)

分類（預(yù)測(cè)類別）：判斷腫瘤是良性還是惡性。
回歸（預(yù)測(cè)數(shù)值）：預(yù)測(cè)房價(jià)、氣溫。

（2）常見算法

線性回歸、決策樹、支持向量機(jī)（SVM）、神經(jīng)網(wǎng)絡(luò)

（3）舉例

我們準(zhǔn)備了一大堆貓和狗的照片，我們想讓機(jī)器學(xué)會(huì)如何識(shí)別貓和狗。

當(dāng)我們使用監(jiān)督學(xué)習(xí)的時(shí)候，我們需要給這些照片打上標(biāo)簽。

我們給照片打的標(biāo)簽就是“正確答案”，機(jī)器通過大量學(xué)習(xí)，就可以學(xué)會(huì)在新照片中認(rèn)出貓和狗。

2. 非監(jiān)督學(xué)習(xí)

非監(jiān)督學(xué)習(xí)中，給定的數(shù)據(jù)集沒有“正確答案”，所有的數(shù)據(jù)都是一樣的。

無監(jiān)督學(xué)習(xí)的任務(wù)是從給定的數(shù)據(jù)集中，挖掘出潛在的結(jié)構(gòu)。

其中，數(shù)據(jù)沒有標(biāo)簽，其學(xué)習(xí)方式是發(fā)現(xiàn)數(shù)據(jù)中的隱藏規(guī)律或結(jié)構(gòu)（比如分組、簡化數(shù)據(jù)）。

（1）典型任務(wù)

聚類（Clustering）：把用戶按購買行為分成不同群體。
降維（Dimensionality Reduction）：將高維數(shù)據(jù)壓縮成2D/3D可視化。
關(guān)聯(lián)分析：發(fā)現(xiàn)超市商品之間的購買關(guān)聯(lián)（如啤酒和尿布）。

（2）常見算法

K-Means、PCA（主成分分析）、Apriori。

（3）舉例

我們把一堆貓和狗的照片給機(jī)器，不給這些照片打任何標(biāo)簽，但是我們希望機(jī)器能夠?qū)⑦@些照片分分類

通過學(xué)習(xí)，機(jī)器會(huì)把這些照片分為2類，一類都是貓的照片，一類都是狗的照片。

雖然跟上面的監(jiān)督學(xué)習(xí)看上去結(jié)果差不多，但是有著本質(zhì)的差別：

非監(jiān)督學(xué)習(xí)中，雖然照片分為了貓和狗，但是機(jī)器并不知道哪個(gè)是貓，哪個(gè)是狗。

對(duì)于機(jī)器來說，相當(dāng)于分成了 A、B 兩類。

3. 強(qiáng)化學(xué)習(xí)

關(guān)注的是智能體如何在環(huán)境中采取一系列行為，從而獲得最大的累積回報(bào)。

通過強(qiáng)化學(xué)習(xí)，一個(gè)智能體應(yīng)該知道在什么狀態(tài)下應(yīng)該采取什么行為。

其中，沒有現(xiàn)成的數(shù)據(jù)，而是通過與環(huán)境互動(dòng)獲得反饋（獎(jiǎng)勵(lì)/懲罰），其學(xué)習(xí)目標(biāo)是找到最優(yōu)策略（Policy），讓智能體（Agent）在環(huán)境中獲得最大累積獎(jiǎng)勵(lì)。

（1）核心要素

環(huán)境（如游戲世界、自動(dòng)駕駛場(chǎng)景）
動(dòng)作（Agent的行為，如踩油門、左轉(zhuǎn)）
獎(jiǎng)勵(lì) （如得分增加、避免碰撞）

（2）典型任務(wù)

游戲AI（如AlphaGo）、機(jī)器人控制、自動(dòng)駕駛。

（3）常見算法

Q-Learning、深度強(qiáng)化學(xué)習(xí)（DQN）

（4）舉例

訓(xùn)練小狗接飛盤：

小狗成功接到飛盤 → 給它零食（正向獎(jiǎng)勵(lì)）
小狗沒接到 → 不給零食（無獎(jiǎng)勵(lì)）
小狗逐漸學(xué)會(huì)“加速奔跑+跳躍”的策略，以最大化獲得零食的機(jī)會(huì)

4. 半監(jiān)督學(xué)習(xí)

結(jié)合少量標(biāo)注數(shù)據(jù) + 大量無標(biāo)注數(shù)據(jù)聯(lián)合訓(xùn)練，降低標(biāo)注成本。

（1）典型任務(wù)

醫(yī)學(xué)影像分析（標(biāo)注成本高）
文本分類（部分文檔無標(biāo)簽）

（2）常見算法

標(biāo)簽傳播（Label Propagation）
半監(jiān)督GAN（生成對(duì)抗網(wǎng)絡(luò)）
自訓(xùn)練（Self-training）

（3）舉例

訓(xùn)練一個(gè)AI模型來自動(dòng)識(shí)別肺部X光片中的腫瘤，但僅有少量標(biāo)注數(shù)據(jù) （如1000張明確標(biāo)注“正?！被颉澳[瘤”的X光片）和大量未標(biāo)注數(shù)據(jù) （如10萬張未標(biāo)注的X光片）。

半監(jiān)督學(xué)習(xí)通過以下步驟解決標(biāo)注不足的問題：

①初始模型訓(xùn)練：1000張已標(biāo)注的X光片（如500張正常、500張腫瘤），用這些標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)基礎(chǔ)分類模型（如卷積神經(jīng)網(wǎng)絡(luò)），學(xué)習(xí)初步的腫瘤識(shí)別規(guī)律，例如腫瘤區(qū)域的紋理、邊緣模糊度等特征

②未標(biāo)注數(shù)據(jù)的偽標(biāo)簽生成：將10萬張未標(biāo)注的X光片輸入初始模型進(jìn)行預(yù)測(cè)，生成偽標(biāo)簽（即模型預(yù)測(cè)的“正常”或“腫瘤”結(jié)果），僅保留模型預(yù)測(cè)置信度高的樣本（例如預(yù)測(cè)概率>90%的5萬張），作為“偽標(biāo)注數(shù)據(jù)”加入訓(xùn)練集，其原理是假設(shè)模型對(duì)高置信度樣本的預(yù)測(cè)基本正確，通過擴(kuò)大數(shù)據(jù)量優(yōu)化模型對(duì)肺部結(jié)構(gòu)的理解

③迭代優(yōu)化與核心假設(shè)：合并初始標(biāo)注數(shù)據(jù)和偽標(biāo)注數(shù)據(jù)，重新訓(xùn)練模型。重復(fù)此過程多次，逐步優(yōu)化模型性能

④實(shí)際應(yīng)用：最終模型可識(shí)別更多復(fù)雜病例（如早期腫瘤、微小病灶），準(zhǔn)確率顯著高于僅使用標(biāo)注數(shù)據(jù)訓(xùn)練的模型。

5. 自監(jiān)督學(xué)習(xí)

自監(jiān)督學(xué)習(xí)屬于無監(jiān)督學(xué)習(xí)的一種。數(shù)據(jù)本身沒有任務(wù)需要的標(biāo)簽。

自監(jiān)督學(xué)習(xí)需要人為的構(gòu)造標(biāo)簽，讓模型來學(xué)習(xí)特征。

（1）典型任務(wù)

預(yù)訓(xùn)練通用表征（如文本、圖像）
下游任務(wù)微調(diào)（如問答系統(tǒng)、圖像分類）

（2）常見算法

BERT（掩碼語言模型）
GPT（生成式預(yù)訓(xùn)練）
SimCLR（對(duì)比學(xué)習(xí)）
MAE（掩碼自編碼器）

（3）舉例

文本填空（如BERT）：遮蓋句子中的詞語，讓模型預(yù)測(cè)被遮部分（如“貓喜歡喝__”預(yù)測(cè)“牛奶”）。
視頻幀預(yù)測(cè)：利用視頻相鄰幀的連續(xù)性，預(yù)測(cè)下一幀內(nèi)容。
圖像著色：將黑白圖片輸入模型，預(yù)測(cè)原始顏色分布

6. 多任務(wù)學(xué)習(xí)

同時(shí)學(xué)習(xí)多個(gè)相關(guān)任務(wù)，共享部分模型參數(shù)以提高泛化能力

（1）典型任務(wù)

自動(dòng)駕駛（同時(shí)檢測(cè)車輛、行人、車道線）
自然語言處理（如聯(lián)合學(xué)習(xí)命名實(shí)體識(shí)別和詞性標(biāo)注）

（2）常見算法

多任務(wù)神經(jīng)網(wǎng)絡(luò)（共享底層，任務(wù)特定輸出層）
聯(lián)合訓(xùn)練Transformer

（3）舉例

自然語言處理：同時(shí)處理文本分類、情感分析、命名實(shí)體識(shí)別等任務(wù)。
計(jì)算機(jī)視覺：同時(shí)處理目標(biāo)檢測(cè)、圖像分割、人臉識(shí)別等任務(wù)。
醫(yī)療健康：結(jié)合病例診斷、預(yù)測(cè)疾病風(fēng)險(xiǎn)等多個(gè)任務(wù)，提供更全面的醫(yī)療輔助服務(wù)。
語音識(shí)別：同時(shí)處理語音識(shí)別、語音情感分析、說話人識(shí)別等任務(wù)。

7. 在線學(xué)習(xí)

模型每次接收一個(gè)或一小批新數(shù)據(jù)（如用戶點(diǎn)擊行為），立即調(diào)整參數(shù)，無需重新訓(xùn)練整個(gè)模型，適應(yīng)數(shù)據(jù)分布動(dòng)態(tài)變化。

（1）典型任務(wù)

實(shí)時(shí)推薦系統(tǒng)（如新聞、廣告）
金融風(fēng)控（如實(shí)時(shí)檢測(cè)欺詐交易）

（2）常見算法

在線梯度下降（Online Gradient Descent）
跟隨正則化領(lǐng)導(dǎo)（FTRL）

（3）舉例

根據(jù)用戶實(shí)時(shí)點(diǎn)擊行為調(diào)整短視頻推薦策略，每小時(shí)更新模型。

8. 遷移學(xué)習(xí)

遷移學(xué)習(xí)是通過從已學(xué)習(xí)的相關(guān)任務(wù)中轉(zhuǎn)移知識(shí)來改進(jìn)學(xué)習(xí)的新任務(wù)，解決目標(biāo)數(shù)據(jù)不足問題。

遷移學(xué)習(xí)的靈感來源于人類的學(xué)習(xí)方式。

例如：會(huì)騎自行車的人更容易學(xué)會(huì)摩托車（兩者平衡技巧相似）

其技術(shù)本質(zhì)是通過共享源域和目標(biāo)域的底層規(guī)律（如特征、模型參數(shù)），讓模型避免從零學(xué)習(xí)，快速適應(yīng)新任務(wù)

（1）遷移學(xué)習(xí)的基本問題

How to transfer：如何進(jìn)行遷移學(xué)習(xí)？（設(shè)計(jì)遷移方法）
What to transfer：給定一個(gè)目標(biāo)領(lǐng)域，如何找到相對(duì)應(yīng)的源領(lǐng)域，然后進(jìn)行遷移？（源領(lǐng)域選擇）
When to transfer：什么時(shí)候可以進(jìn)行遷移，什么時(shí)候不可以？（避免負(fù)遷移）

（2）常見算法

預(yù)訓(xùn)練模型微調(diào)（如ResNet、BERT）
特征提?。ü潭A(yù)訓(xùn)練模型，僅訓(xùn)練新分類層）

（3）舉例

9. 聯(lián)邦學(xué)習(xí)

多個(gè)設(shè)備/機(jī)構(gòu)協(xié)同訓(xùn)練模型，數(shù)據(jù)不離開本地，保護(hù)隱私

聯(lián)邦學(xué)習(xí)（Federated Learning, FL）是一種分布式機(jī)器學(xué)習(xí)范式，

其核心目標(biāo)是在保護(hù)數(shù)據(jù)隱私的前提下，聯(lián)合多個(gè)參與方（如設(shè)備、機(jī)構(gòu)或數(shù)據(jù)孤島）共同訓(xùn)練模型，而無需共享原始數(shù)據(jù)。

（1）基本流程

初始化全局模型：中央服務(wù)器（或協(xié)調(diào)方）初始化一個(gè)基礎(chǔ)模型并分發(fā)給各參與方。
本地訓(xùn)練：各參與方利用本地?cái)?shù)據(jù)訓(xùn)練模型，生成模型參數(shù)或梯度更新。
參數(shù)上傳與聚合：參與方將本地模型更新上傳至服務(wù)器，服務(wù)器通過加權(quán)平均等方式聚合參數(shù)，生成全局模型。
迭代優(yōu)化：重復(fù)上述步驟，直至模型收斂

（2）常見算法

FedAvg（聯(lián)邦平均）
差分隱私聯(lián)邦學(xué)習(xí)（添加噪聲保護(hù)數(shù)據(jù)）

（3）舉例

金融風(fēng)控：銀行間聯(lián)合建模反欺詐系統(tǒng)，不共享客戶數(shù)據(jù)。
醫(yī)療健康：醫(yī)院協(xié)作訓(xùn)練疾病預(yù)測(cè)模型，保護(hù)患者隱私。
智能終端：手機(jī)輸入法（如蘋果Siri）通過本地?cái)?shù)據(jù)優(yōu)化語音識(shí)別。
自動(dòng)駕駛：多車協(xié)同訓(xùn)練駕駛模型，提升安全性

10. 元學(xué)習(xí)

元學(xué)習(xí)的目標(biāo)是學(xué)習(xí)“如何學(xué)習(xí)” ，而非直接解決單一任務(wù)。

它通過分析多個(gè)相關(guān)任務(wù)的共性（如數(shù)據(jù)分布、特征關(guān)聯(lián)性等），提取可遷移的元知識(shí)（Meta-Knowledge），從而在面對(duì)新任務(wù)時(shí)僅需少量樣本即可高效調(diào)整模型

（1）主要方法分類

根據(jù)知識(shí)遷移方式，元學(xué)習(xí)可分為三類主流方法：

①基于優(yōu)化的元學(xué)習(xí)

學(xué)習(xí)一個(gè)適用于多任務(wù)的模型初始化參數(shù)，使模型通過少量梯度更新即可適應(yīng)新任務(wù)
無需修改模型結(jié)構(gòu)，通用性強(qiáng)。

②基于度量的元學(xué)習(xí)

學(xué)習(xí)一個(gè)相似性度量空間，通過比較新樣本與已知樣本的距離進(jìn)行分類。
如少樣本圖像分類（如清華團(tuán)隊(duì)在MetaDL挑戰(zhàn)賽中提出的自適應(yīng)度量方法）

③基于模型的元學(xué)習(xí)

設(shè)計(jì)具有記憶或注意力機(jī)制的模型結(jié)構(gòu)，動(dòng)態(tài)存儲(chǔ)和調(diào)用任務(wù)相關(guān)知識(shí)。
適合處理時(shí)序依賴強(qiáng)的任務(wù)（如機(jī)器人連續(xù)決策）

（2）常見算法

MAML（模型無關(guān)元學(xué)習(xí)）
Prototypical Networks（原型網(wǎng)絡(luò)）

（3）舉例

機(jī)器人在不同地形中調(diào)整行走策略

僅需幾張新類別圖片即可完成圖像識(shí)別

五、如何選擇對(duì)應(yīng)的方法

選擇機(jī)器學(xué)習(xí)方法的關(guān)鍵在于平衡數(shù)據(jù)、任務(wù)與資源三角關(guān)系，其核心決策原則

從數(shù)據(jù)出發(fā)：數(shù)據(jù)質(zhì)量與規(guī)模決定方法上限。
任務(wù)驅(qū)動(dòng)：明確目標(biāo)是分類、聚類還是決策。
資源適配：在算力、時(shí)間、成本間權(quán)衡。
迭代優(yōu)化：從簡單方法開始，逐步升級(jí)復(fù)雜度（如：線性模型 → 樹模型 → 神經(jīng)網(wǎng)絡(luò)）

在選擇機(jī)器學(xué)習(xí)方法時(shí)，可參考以下表格進(jìn)行選擇

六、機(jī)器學(xué)習(xí)實(shí)操步驟

機(jī)器學(xué)習(xí)在實(shí)際操作層面一共分為7步：收集數(shù)據(jù)、數(shù)據(jù)準(zhǔn)備、選擇一個(gè)模型、訓(xùn)練、評(píng)估、參數(shù)調(diào)整、預(yù)測(cè)

1. 收集數(shù)據(jù)

獲取與問題相關(guān)的原始數(shù)據(jù)（如用戶行為記錄、傳感器數(shù)據(jù)、圖片等）

（1）數(shù)據(jù)來源

公開數(shù)據(jù)集（如Kaggle）、爬蟲抓取、傳感器采集（如攝像頭圖像）。

（2）常見問題

數(shù)據(jù)量不足（如只有100條樣本）
數(shù)據(jù)偏差（如只收集了某地區(qū)的房價(jià)）

2. 數(shù)據(jù)準(zhǔn)備

清洗數(shù)據(jù)、處理缺失值、標(biāo)準(zhǔn)化、特征提取等

（1）數(shù)據(jù)清洗

處理缺失值（如刪除缺失行或用平均值填充）、去除重復(fù)或錯(cuò)誤數(shù)據(jù)（如年齡字段出現(xiàn)負(fù)數(shù)）。

（2）特征工程

提取特征：從日期中拆分“月份”和“星期幾”。
轉(zhuǎn)換數(shù)據(jù)：將文本轉(zhuǎn)為數(shù)值（如“男/女”編碼為0/1）。
標(biāo)準(zhǔn)化：將身高數(shù)據(jù)從“厘米”統(tǒng)一為“米”。

（3）劃分?jǐn)?shù)據(jù)集

訓(xùn)練集（70%）：用于模型學(xué)習(xí)。
驗(yàn)證集（15%）：調(diào)參時(shí)評(píng)估效果。
測(cè)試集（15%）：最終考核模型。

3. 選擇一個(gè)模型

根據(jù)問題類型選擇算法模型

分類任務(wù) （如垃圾郵件識(shí)別）→ 邏輯回歸、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)。
回歸任務(wù) （如房價(jià)預(yù)測(cè)）→ 線性回歸、梯度提升樹。
聚類任務(wù) （如用戶分群）→ K-means、層次聚類。

新手建議：從簡單模型（如線性回歸）開始，再嘗試復(fù)雜模型（如深度學(xué)習(xí)）

4. 訓(xùn)練

讓模型從數(shù)據(jù)中學(xué)習(xí)規(guī)律評(píng)估

（1）核心過程

模型通過調(diào)整內(nèi)部參數(shù)（如權(quán)重）擬合數(shù)據(jù)。
使用優(yōu)化算法（如梯度下降）最小化預(yù)測(cè)誤差（損失函數(shù)）

（2）關(guān)鍵參數(shù)

學(xué)習(xí)率：控制參數(shù)調(diào)整幅度（太大可能“跳過”最優(yōu)解，太小訓(xùn)練慢）
迭代次數(shù)（Epochs）：數(shù)據(jù)被模型學(xué)習(xí)的輪次

5. 評(píng)估

用測(cè)試集驗(yàn)證模型效果，判斷模型是否“學(xué)得好”

（1）評(píng)估指標(biāo)

分類任務(wù)：準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)。
回歸任務(wù)：均方誤差（MSE）、R2分?jǐn)?shù)。
聚類任務(wù)：輪廓系數(shù)、類內(nèi)距離。

（2）驗(yàn)證方法

交叉驗(yàn)證：將數(shù)據(jù)分成多份，輪流用其中一份作為驗(yàn)證集，提高評(píng)估可靠性。

（3）常見問題

過擬合：模型在訓(xùn)練集表現(xiàn)好，測(cè)試集差（像死記硬背的學(xué)生）。
欠擬合：訓(xùn)練集和測(cè)試集都表現(xiàn)差（沒學(xué)會(huì)規(guī)律）。

6. 參數(shù)調(diào)整

調(diào)整模型的超參數(shù)（如學(xué)習(xí)率、樹的深度）提升效果

（1）調(diào)整內(nèi)容

模型超參數(shù)：如神經(jīng)網(wǎng)絡(luò)的層數(shù)、決策樹的深度。
訓(xùn)練參數(shù)：如學(xué)習(xí)率、批量大小（Batch Size）。

（2）調(diào)參方法

網(wǎng)格搜索：遍歷所有可能的參數(shù)組合，尋找最優(yōu)解（計(jì)算成本高）。
隨機(jī)搜索：隨機(jī)嘗試參數(shù)組合，效率更高。
自動(dòng)化工具：如AutoML（自動(dòng)機(jī)器學(xué)習(xí)）

7. 預(yù)測(cè)

將訓(xùn)練好的模型投入實(shí)際使用

（1）部署方式

封裝成API、嵌入到App或硬件設(shè)備中。

（2）持續(xù)監(jiān)控

模型上線后可能出現(xiàn)性能下降（如數(shù)據(jù)分布變化）

七、常見算法

注意，深度學(xué)習(xí)更多是監(jiān)督學(xué)習(xí)的一種延伸，或者屬于模型類型而非訓(xùn)練方法

本文由人人都是產(chǎn)品經(jīng)理作者【諾兒筆記本】，微信公眾號(hào)：【諾兒筆記本】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

諾兒筆記本

個(gè)人產(chǎn)品筆記分享微信公眾號(hào)【諾兒筆記本】

56篇作品 317771總閱讀量

在線音頻江湖：內(nèi)容大戰(zhàn)、場(chǎng)景之爭、AI博弈

03-234848 瀏覽

從哈羅單車上鎖聊聊任務(wù)鏈路優(yōu)化設(shè)計(jì)的思路

11-245982 瀏覽

聊聊抖音的上癮邏輯&商業(yè)畫布

02-1320402 瀏覽

梳理 | 產(chǎn)品需求優(yōu)先級(jí)的判斷

12-183875 瀏覽

抖音兩個(gè)千萬網(wǎng)紅，一個(gè)收割老爸、一個(gè)收割老媽

06-267769 瀏覽

評(píng)論

目前還沒評(píng)論，等你發(fā)揮！

“番茄系”擴(kuò)張，撐得起字節(jié)的“IP泛娛樂帝國”嗎？

12-262544 瀏覽
品牌組合戰(zhàn)略：企業(yè)如何規(guī)劃并實(shí)施多品牌？

04-2515517 瀏覽
為什么頂尖的產(chǎn)品設(shè)計(jì)師都在應(yīng)用馬斯洛需求層次理論

10-233445 瀏覽

国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆

機(jī)器學(xué)習(xí)最強(qiáng)入門總結(jié)，看這篇就夠了

一、基本概念

二、發(fā)展歷程和關(guān)鍵階段

三、機(jī)器學(xué)習(xí)的基本原理

四、分類

1. 監(jiān)督學(xué)習(xí)

2. 非監(jiān)督學(xué)習(xí)

3. 強(qiáng)化學(xué)習(xí)

4. 半監(jiān)督學(xué)習(xí)

5. 自監(jiān)督學(xué)習(xí)

6. 多任務(wù)學(xué)習(xí)

7. 在線學(xué)習(xí)

8. 遷移學(xué)習(xí)

9. 聯(lián)邦學(xué)習(xí)

10. 元學(xué)習(xí)

五、如何選擇對(duì)應(yīng)的方法

六、機(jī)器學(xué)習(xí)實(shí)操步驟

1. 收集數(shù)據(jù)

2. 數(shù)據(jù)準(zhǔn)備

3. 選擇一個(gè)模型

4. 訓(xùn)練

5. 評(píng)估

6. 參數(shù)調(diào)整

7. 預(yù)測(cè)

七、常見算法

機(jī)器學(xué)習(xí)最強(qiáng)入門總結(jié)，看這篇就夠了

二、發(fā)展歷程和關(guān)鍵階段

五、如何選擇對(duì)應(yīng)的方法

六、機(jī)器學(xué)習(xí)實(shí)操步驟

七、常見算法