轉(zhuǎn)型AI產(chǎn)品經(jīng)理(2):數(shù)據(jù)集篇

0 評論 3267 瀏覽 20 收藏 7 分鐘

我們在做AI產(chǎn)品,尤其是有監(jiān)督學習時,最重要的事情是訓練數(shù)據(jù)從哪里來,數(shù)據(jù)又要怎么用,才能提升產(chǎn)出效率。今天我們來講下有關(guān)數(shù)據(jù)集的那些事。

一、獲取數(shù)據(jù)

  • 內(nèi)部數(shù)據(jù):通過整合系統(tǒng)內(nèi)部的數(shù)據(jù)來獲取AI訓練/驗證數(shù)據(jù),通??梢钥紤]系統(tǒng)里的歷史記錄,用戶的行為,屬性,交易等數(shù)據(jù)。這些內(nèi)部數(shù)據(jù)可能在系統(tǒng)的不同模塊中,包含了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)(日志等)、非結(jié)構(gòu)化數(shù)據(jù)(文本類的數(shù)據(jù))需要進行整合、映射、清洗。
  • 外部數(shù)據(jù):公開類的或第三方合作伙伴的數(shù)據(jù),根據(jù)具體業(yè)務,可從外部的公開資源或伙伴資源中,找到跟AI訓練相關(guān)的數(shù)據(jù),如第三方的數(shù)據(jù)平臺、公開的已被標注好的訓練集等(AI數(shù)據(jù)集類的網(wǎng)站會有公開的標注好的數(shù)據(jù),但是否適用,要看具體的業(yè)務情況)。此外,還可以發(fā)布數(shù)據(jù)標注的眾包任務,通過人工標注的形式收集標注好的訓練數(shù)據(jù)。

二、數(shù)據(jù)清洗

數(shù)據(jù)收集好后,不能直接使用,需要進行清洗,否則會影響模型訓練的結(jié)果。

通常需要關(guān)注以下幾種場景:

  • 缺失數(shù)據(jù):收集后的數(shù)據(jù),因為來源不同或數(shù)據(jù)本身的問題,會有數(shù)據(jù)缺失的情況。對于缺失的數(shù)據(jù),一般根據(jù)數(shù)據(jù)量的情況,采用“直接刪除”或“想辦法填補”的方法,填補數(shù)據(jù)可采用人工填補、臨近值填補、平均值/眾數(shù)填補、熱卡填補(最相似的填補)等方法來填充。
  • 重復數(shù)據(jù):數(shù)據(jù)本身可能因為各種原因有重復的情況或相似重復的情況(因為格式等差異導致系統(tǒng)不能正確識別),對于重復數(shù)據(jù),多采用直接刪除的方式。
  • 不均衡數(shù)據(jù):部分維度的數(shù)據(jù)較多或太少,要根據(jù)數(shù)據(jù)的體量來選擇“丟棄”或“補充”,以達到數(shù)據(jù)集的平衡。
  • 錯誤數(shù)據(jù):包含數(shù)據(jù)本身是錯誤值和異常極端的情況(超出范圍的極大、不可能的負數(shù)等),此類數(shù)據(jù)要看數(shù)據(jù)量的情況,選擇修正或舍棄。這部分的處理主要還是看各個方案的性價比,如果修正的時間太長,而數(shù)據(jù)量又足夠的情況,舍棄這部分訓練數(shù)據(jù)是最省力的做法。當然,如果這些數(shù)據(jù)隱含著系統(tǒng)中的bug,那還是最好要查清楚,至少要知道影響的范圍以及處理方案。
  • 量綱不一致:這指的是在同一組數(shù)據(jù)中,不同特征或變量的單位或量綱不相同。例如某一特征的取值范圍是1到1000,而另一特征的取值范圍是0.01到10。這種情況下,兩個特征的量綱就不一致。在處理數(shù)據(jù)量綱不一致時,可采用以下方法:歸一化(將數(shù)據(jù)縮放到特定的范圍內(nèi),如將數(shù)據(jù)縮放到[0, 1]范圍內(nèi)),標準化(通過線性變換將數(shù)據(jù)縮放到相似的范圍,使其均值為0,標準差為1)等方法來使量綱達到一一致。

除了以上的處理,還需要根據(jù)業(yè)務場景進行其他處理,如大小寫轉(zhuǎn)換、顯示格式的轉(zhuǎn)換,去除噪聲(部分數(shù)據(jù)的存在不重要或會影響模型的結(jié)果,比如某些單詞,符號,停用詞等),需要根據(jù)具體的業(yè)務場景來進行相應的處理。

三、數(shù)據(jù)考量

在考量AI訓練的數(shù)據(jù)集時,除了要根據(jù)情況對數(shù)據(jù)進行處理之外,還要考慮訓練數(shù)據(jù)是否滿足以下條件:

  • 可維護性:對于需要連續(xù)關(guān)注“數(shù)據(jù)”進展,不斷優(yōu)化模型的場景,數(shù)據(jù)后續(xù)的可維護性決定了是否能夠持續(xù)得到“訓練數(shù)據(jù)”;
  • 覆蓋面:選取的數(shù)據(jù)集是否能夠覆蓋當前業(yè)務的主要場景及特征,會影響模型的實際表現(xiàn);
  • 時效性:數(shù)據(jù)更新的頻率如果太慢,比如一個月更新一次,那這一個月中間數(shù)據(jù)的變化情況,模型就沒有了訓練基礎,當然,數(shù)據(jù)更新太快,牽涉到的成本也更多,需要根據(jù)業(yè)務情況來權(quán)衡;
  • 相關(guān)性:訓練數(shù)據(jù)需要盡可能的相關(guān),比如你想分析某個話題下評論的情感分析,但是你給的訓練集是電商領域的商品評論,雖然都是評論,但是因為業(yè)務領域不同,也會極大影響訓練的結(jié)果。

AI模型需要大量的數(shù)據(jù)集(尤其是有監(jiān)督學習),而真正符合業(yè)務場景的數(shù)據(jù),往往都要花大量的時間收集、處理、標注,所以盡可能地開拓思路,用最快、簡便的方式找到符合業(yè)務場景的高質(zhì)量數(shù)據(jù)來源,才能更好的讓模型訓練起來。

多研究下行業(yè)內(nèi)外的其他產(chǎn)品是如何獲取訓練數(shù)據(jù)的,多看些公開的數(shù)據(jù)集網(wǎng)站,是否有符合自己業(yè)務的已經(jīng)標注好的數(shù)據(jù),多找找是否有第三方公司是否可以幫助你,盡可能“借力”簡化訓練數(shù)據(jù)的獲取、處理過程,才能讓你有更多的精力放在AI模型后續(xù)的工作上。

本文由 @養(yǎng)心進行時 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!