數(shù)據(jù)挖掘建模:如何從數(shù)據(jù)中“淘金”?

2 評論 7937 瀏覽 60 收藏 10 分鐘

本文筆者將對數(shù)據(jù)挖掘建模的一般過程進行解析,主要分為四部分:數(shù)據(jù)準備、模式發(fā)現(xiàn)、模型構建以及模型評價。

數(shù)據(jù)挖掘介紹

數(shù)據(jù)挖掘(Data Mining,DM):就是從大量數(shù)據(jù)(包括文本)中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預測性決策支持的方法、工具和過程;是利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)之間關系的過程。這些模型和關系可以被企業(yè)用來分析風險、進行預測。

數(shù)據(jù)挖掘的目的就是從數(shù)據(jù)中“淘金”,就是從數(shù)據(jù)中獲取智能的過程,數(shù)據(jù)挖掘是提供了從數(shù)據(jù)到價值的解決方案。

數(shù)據(jù)+工具+方法+目標+行動=價值。

目前,數(shù)據(jù)挖掘已有一系列應用:

  1. 分類分析:有監(jiān)督學習,將數(shù)據(jù)映射到事先定義的群組或類。應用在將信用卡人分為低中高風險群等。
  2. 回歸分析:用屬性的歷史數(shù)據(jù)預測未來趨勢,應用預測哪些用戶在未來半年會流失等。
  3. 聚類分析:無指導學習,在沒有給定劃分類的情況下,根據(jù)信息相似度進行信息聚類。應用在對客戶行為分析,對客戶分層進行精準營銷。
  4. 關聯(lián)分析:發(fā)現(xiàn)事物間的關聯(lián)規(guī)則或稱相關程度,常用在交叉銷售,交叉分析,著名的啤酒與尿布。
  5. 時序模式:已知的數(shù)據(jù)預測未來的值,回歸不強調數(shù)據(jù)間的先后順序。
  6. 偏差分析:來發(fā)現(xiàn)與正常情況不同的異常和變化,并進一步分析這種變化是有意的詐騙行為,還是正常的變化。常用在防欺詐,以及保險領域。

以上這些應用涉及的技術和工具各不相同,然而卻可以依據(jù)統(tǒng)一的方法論來實行,并可以協(xié)同作戰(zhàn),解決許多有價值的商業(yè)問題。

數(shù)據(jù)挖掘建模的一般過程

第一步,數(shù)據(jù)準備

數(shù)據(jù)選擇主要考慮的包括:

  • 哪些數(shù)據(jù)源可用?
  • 哪些數(shù)據(jù)與當前挖掘目標相關?
  • 如何保證取樣數(shù)據(jù)的質量?
  • 是否在足夠范圍內有代表性?
  • 數(shù)據(jù)樣本取多少合適?
  • 如何分類(訓練集、驗證集、測試集)?

選擇數(shù)據(jù)的標準,一是相關性,二是可靠性,三是最新性,而不是動用全部企業(yè)數(shù)據(jù)。通過數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,而且能通過數(shù)據(jù)的篩選,使想要反映的規(guī)律性更加突顯出來。

1)數(shù)據(jù)探索:數(shù)據(jù)清洗和構造

前面所敘述的數(shù)據(jù)選擇,多少是帶著人們對如何達到數(shù)據(jù)挖掘目的的先驗認識進行操作的。

當我們拿到了一個樣本數(shù)據(jù)集后,它是否達到我們原來設想的要求?其中有沒有什么明顯的規(guī)律和趨勢?有沒有出現(xiàn)從未設想過的數(shù)據(jù)狀態(tài)?因素之間有什么相關性?它們可區(qū)分成怎樣一些類別?這都是要首先探索的內容。

對所抽取的樣本數(shù)據(jù)進行探索、審核和必要的加工處理,是保證預測質量所必需的??梢哉f,預測的質量不會超過抽取樣本的質量。

數(shù)據(jù)探索主要包括:異常值分析、缺失值分析、相關分析、周期性分析、樣本交叉驗證等。

2)數(shù)據(jù)預處理:整合和格式化

當采樣數(shù)據(jù)維度過大,如何進行降維處理?采樣數(shù)據(jù)中的缺失值如何處理?這些都是數(shù)據(jù)預處理要解決的問題。

由于采樣數(shù)據(jù)中常常包含許多含有噪聲、不完整、甚至是不一致的數(shù)據(jù)。顯然對數(shù)據(jù)挖掘所涉及的數(shù)據(jù)對象必須進行預處理。那么,如何對數(shù)據(jù)進行預處理以改善數(shù)據(jù)質量,并最終達到完善最終的數(shù)據(jù)挖掘結果的目的呢?

數(shù)據(jù)預處理主要包括以下內容:數(shù)據(jù)篩選、數(shù)據(jù)變量轉換、缺失值處理、壞數(shù)據(jù)處理、數(shù)據(jù)標準化、主成分分析、屬性選擇、數(shù)據(jù)規(guī)約。

第二步,模式發(fā)現(xiàn)

樣本抽取完成并經(jīng)預處理后,接下來要考慮的問題是:本次建模屬于數(shù)據(jù)挖掘應用中的哪類問題(分類、聚類、關聯(lián)規(guī)則或者時序模式),選用哪種算法進行模型構建?

模型構建的前提是在樣本數(shù)據(jù)集中發(fā)現(xiàn)模式,比如:關聯(lián)規(guī)則、分類預測、聚類分析、時序模式等。

在目標進一步明確化的基礎上,我們就可以按照問題的具體要求來重新審視已經(jīng)采集的數(shù)據(jù),看它是否適應挖掘目標的需要。

第三步, 模型構建

確定了本次建模所屬的數(shù)據(jù)挖掘應用問題(分類、聚類、關聯(lián)規(guī)則或者時序模式)后,還需考慮:具體應該采用什么算法,實施步驟是什么?

這一步是數(shù)據(jù)挖掘工作的核心環(huán)節(jié),模型構建是對采樣數(shù)據(jù)軌跡的概括,它反映的是采樣數(shù)據(jù)內部結構的一般特征,并與該采樣數(shù)據(jù)的具體結構基本吻合。

預測模型的構建通常包括模型建立、模型訓練、模型驗證和模型預測4個步驟,但根據(jù)不同的數(shù)據(jù)挖掘分類應用會有細微的變化。

第四步, 模型評價

模型評價的目的是什么?如何評價模型的效果?通過什么評價指標來衡量?

模型效果評價通常分兩步:

第一步是:直接使用原來建立模型的樣本數(shù)據(jù)來進行檢驗。

假如這一步都通不過,那么所建立的決策支持信息價值就不太大了。一般來說,在這一步應得到較好的評價。這說明你確實從這批數(shù)據(jù)樣本中挖掘出了符合實際的規(guī)律性。

第一步通過后,第二步是:另外找一批數(shù)據(jù),已知這些數(shù)據(jù)是反映客觀實際的、規(guī)律性的。

業(yè)務應用場景:網(wǎng)紅銷售額評估模型、客戶ROI評估模型、網(wǎng)紅品類推薦模型、網(wǎng)紅報價建議模型、網(wǎng)紅欺詐行為預警模型、網(wǎng)紅流失預警模型等

結論

實踐表明:由于人工智能發(fā)展的局限性,計算機在未來相當長的一段時期內不可能像人類這樣會進行復雜的思考,它只會按照人的指令工作。

但是,計算機擁有海量的數(shù)據(jù)存儲能力和超強的計算能力,所以只要我們建立合適的業(yè)務模型,設計完善的執(zhí)行程序,選擇正確的分析算法,它一定可以更好地為我們服務。

數(shù)據(jù)挖掘技術是一個年輕且充滿希望的研究領域,商業(yè)利益的強大驅動力將會不停地促進它的發(fā)展。

每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。盡管如此,數(shù)據(jù)挖掘技術仍然面臨著許多問題和挑戰(zhàn):如數(shù)據(jù)挖掘方法的效率亟待提高,尤其是超大規(guī)模數(shù)據(jù)集中數(shù)據(jù)挖掘的效率;開發(fā)適應多數(shù)據(jù)類型、容噪的挖掘方法,以解決異質數(shù)據(jù)集的數(shù)據(jù)挖掘問題;動態(tài)數(shù)據(jù)和知識的數(shù)據(jù)挖掘;網(wǎng)絡與分布式環(huán)境下的數(shù)據(jù)挖掘等。

另外,近年來短視頻,圖片等多媒體數(shù)據(jù)庫發(fā)展很快,面向多媒體數(shù)據(jù)庫的挖掘技術今后將成為研究開發(fā)的熱點。

 

本文由 @無語凝咽 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 大佬是否可以具一個具體的實操例子呢?有了例子更方便建立理論與實踐的聯(lián)系

    來自浙江 回復
  2. 洋洋灑灑比較籠統(tǒng)

    回復