數據挖掘建模:如何從數據中“淘金”?

2 評論 7639 瀏覽 59 收藏 10 分鐘

本文筆者將對數據挖掘建模的一般過程進行解析,主要分為四部分:數據準備、模式發現、模型構建以及模型評價。

數據挖掘介紹

數據挖掘(Data Mining,DM):就是從大量數據(包括文本)中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規則建立用于決策支持的模型,提供預測性決策支持的方法、工具和過程;是利用各種分析工具在海量數據中發現模型和數據之間關系的過程。這些模型和關系可以被企業用來分析風險、進行預測。

數據挖掘的目的就是從數據中“淘金”,就是從數據中獲取智能的過程,數據挖掘是提供了從數據到價值的解決方案。

數據+工具+方法+目標+行動=價值。

目前,數據挖掘已有一系列應用:

  1. 分類分析:有監督學習,將數據映射到事先定義的群組或類。應用在將信用卡人分為低中高風險群等。
  2. 回歸分析:用屬性的歷史數據預測未來趨勢,應用預測哪些用戶在未來半年會流失等。
  3. 聚類分析:無指導學習,在沒有給定劃分類的情況下,根據信息相似度進行信息聚類。應用在對客戶行為分析,對客戶分層進行精準營銷。
  4. 關聯分析:發現事物間的關聯規則或稱相關程度,常用在交叉銷售,交叉分析,著名的啤酒與尿布。
  5. 時序模式:已知的數據預測未來的值,回歸不強調數據間的先后順序。
  6. 偏差分析:來發現與正常情況不同的異常和變化,并進一步分析這種變化是有意的詐騙行為,還是正常的變化。常用在防欺詐,以及保險領域。

以上這些應用涉及的技術和工具各不相同,然而卻可以依據統一的方法論來實行,并可以協同作戰,解決許多有價值的商業問題。

數據挖掘建模的一般過程

第一步,數據準備

數據選擇主要考慮的包括:

  • 哪些數據源可用?
  • 哪些數據與當前挖掘目標相關?
  • 如何保證取樣數據的質量?
  • 是否在足夠范圍內有代表性?
  • 數據樣本取多少合適?
  • 如何分類(訓練集、驗證集、測試集)?

選擇數據的標準,一是相關性,二是可靠性,三是最新性,而不是動用全部企業數據。通過數據樣本的精選,不僅能減少數據處理量,節省系統資源,而且能通過數據的篩選,使想要反映的規律性更加突顯出來。

1)數據探索:數據清洗和構造

前面所敘述的數據選擇,多少是帶著人們對如何達到數據挖掘目的的先驗認識進行操作的。

當我們拿到了一個樣本數據集后,它是否達到我們原來設想的要求?其中有沒有什么明顯的規律和趨勢?有沒有出現從未設想過的數據狀態?因素之間有什么相關性?它們可區分成怎樣一些類別?這都是要首先探索的內容。

對所抽取的樣本數據進行探索、審核和必要的加工處理,是保證預測質量所必需的??梢哉f,預測的質量不會超過抽取樣本的質量。

數據探索主要包括:異常值分析、缺失值分析、相關分析、周期性分析、樣本交叉驗證等。

2)數據預處理:整合和格式化

當采樣數據維度過大,如何進行降維處理?采樣數據中的缺失值如何處理?這些都是數據預處理要解決的問題。

由于采樣數據中常常包含許多含有噪聲、不完整、甚至是不一致的數據。顯然對數據挖掘所涉及的數據對象必須進行預處理。那么,如何對數據進行預處理以改善數據質量,并最終達到完善最終的數據挖掘結果的目的呢?

數據預處理主要包括以下內容:數據篩選、數據變量轉換、缺失值處理、壞數據處理、數據標準化、主成分分析、屬性選擇、數據規約。

第二步,模式發現

樣本抽取完成并經預處理后,接下來要考慮的問題是:本次建模屬于數據挖掘應用中的哪類問題(分類、聚類、關聯規則或者時序模式),選用哪種算法進行模型構建?

模型構建的前提是在樣本數據集中發現模式,比如:關聯規則、分類預測、聚類分析、時序模式等。

在目標進一步明確化的基礎上,我們就可以按照問題的具體要求來重新審視已經采集的數據,看它是否適應挖掘目標的需要。

第三步, 模型構建

確定了本次建模所屬的數據挖掘應用問題(分類、聚類、關聯規則或者時序模式)后,還需考慮:具體應該采用什么算法,實施步驟是什么?

這一步是數據挖掘工作的核心環節,模型構建是對采樣數據軌跡的概括,它反映的是采樣數據內部結構的一般特征,并與該采樣數據的具體結構基本吻合。

預測模型的構建通常包括模型建立、模型訓練、模型驗證和模型預測4個步驟,但根據不同的數據挖掘分類應用會有細微的變化。

第四步, 模型評價

模型評價的目的是什么?如何評價模型的效果?通過什么評價指標來衡量?

模型效果評價通常分兩步:

第一步是:直接使用原來建立模型的樣本數據來進行檢驗。

假如這一步都通不過,那么所建立的決策支持信息價值就不太大了。一般來說,在這一步應得到較好的評價。這說明你確實從這批數據樣本中挖掘出了符合實際的規律性。

第一步通過后,第二步是:另外找一批數據,已知這些數據是反映客觀實際的、規律性的。

業務應用場景:網紅銷售額評估模型、客戶ROI評估模型、網紅品類推薦模型、網紅報價建議模型、網紅欺詐行為預警模型、網紅流失預警模型等

結論

實踐表明:由于人工智能發展的局限性,計算機在未來相當長的一段時期內不可能像人類這樣會進行復雜的思考,它只會按照人的指令工作。

但是,計算機擁有海量的數據存儲能力和超強的計算能力,所以只要我們建立合適的業務模型,設計完善的執行程序,選擇正確的分析算法,它一定可以更好地為我們服務。

數據挖掘技術是一個年輕且充滿希望的研究領域,商業利益的強大驅動力將會不停地促進它的發展。

每年都有新的數據挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。盡管如此,數據挖掘技術仍然面臨著許多問題和挑戰:如數據挖掘方法的效率亟待提高,尤其是超大規模數據集中數據挖掘的效率;開發適應多數據類型、容噪的挖掘方法,以解決異質數據集的數據挖掘問題;動態數據和知識的數據挖掘;網絡與分布式環境下的數據挖掘等。

另外,近年來短視頻,圖片等多媒體數據庫發展很快,面向多媒體數據庫的挖掘技術今后將成為研究開發的熱點。

 

本文由 @無語凝咽 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 大佬是否可以具一個具體的實操例子呢?有了例子更方便建立理論與實踐的聯系

    來自浙江 回復
  2. 洋洋灑灑比較籠統

    回復