數據挖掘需要什么知識

本文轉載自查看原文 2019-03-18 13:12 619 數據分析/ 數據挖掘

數據挖掘的基本流程

1 商業理解：數據挖掘不是我們的目的，我們的目的是更好的幫助業務，所以第一步我們要從商業的角度理解項目需求，在這個基礎上，在對數據挖掘目標進行定義

2 數據理解：嘗試收集部分數據，然后對數據進行探索，包括數據描述，數據質量驗證等，有助於對收集的數據有個初步認知

3 數據准備：開始收集數據，並對數據進行清洗，數據集成等操作，完成數據挖掘的准備工作

4 模型建立：選擇和應用各種數據挖掘模型，並進行優化，以便得到更好的分類結果

5 模型評估：對模型進行評價，並檢查構建模型的每個步驟，確認模型是否實現了預定的商業目標

6 上線發布：模型的作用是從數據中找到金礦，獲得的知識需要轉化為用戶可以使用的方式，呈現的形式可以是一份報告，可以試實現了一個復雜可重復的數據挖掘過程，后續監視與維護

再說一說流程：首先需要了解背景（業務需求，達到目標等），然后根據目的大致查看整個數據集的各個參數及其屬性，接着就需要判斷各個參數，數值和自己目的的一個關系，如果直觀沒什么想法，可以使用可視化，與目的影響的東西作比較，得到具有影響目的的一些特征，和一些無關緊要的，大致了解后就需要預處理數據，為后續機器學習建模做基礎，預處理（常見的處理方式別人網上說的都比我好自己可以去學習）后面update。。。（白又白）

數據挖掘十大算法

分類算法：C4.5 ,朴素貝葉斯（Naive Bayes），SVM，KNN，Adaboost

聚類算法： K-Means, EM

關聯分析： PageRank

1.C4.5：是決策樹的算法，創造性地在決策樹構造過程中就進行了剪枝，並且可以處理連續的屬性，也對不完整的數據進行處理關於決策樹、C4.5算法具體可以查看下面鏈接（https://www.cnblogs.com/pythonzwd/p/10561566.html ）

2.朴素貝葉斯（naive bayes）: 朴素貝葉斯是給予概率論的原理，它的思想是對於給出的未知無題要進行分類，需要求解在這個未知物體出現的條件下各個類別出現的概率，找最大概率那個分類，數據更新影響思想

3 SVM：中文叫支持向量機：Support Vector Machine,SVM 在訓練中簡歷了一個超平面的分類模型。

4.KNN：也叫K最近鄰算法，英文是K-Nearest Neighbor. K近鄰就是每個樣本都可以用它最接近的K個鄰居來戴表，如果一個樣本，他的K個最接近的鄰居都屬於A，那么這個樣本也屬於A分類

5.Adaboost: 在懸鏈中簡歷一個聯合分類模型，boost 提升的意思，所以adaboost是個構建分類模型器的提升算法，它可以讓多個弱的分類器組成一個強的分類器

6.CART： CART戴表分類和回歸樹，Classification and Regression Trees. 構建了兩棵樹，一顆分類樹，一個回歸樹，是一個決策樹學習算法

7Apriori 是一個挖掘關聯規則（association rules）的算法，通過挖掘頻繁頂集（frequent item sets）來解釋物品之間的關聯關系，被廣泛應用於商業挖掘和網絡安全領域中，頻繁項集是一個指經常出現在一起的物品集合，關聯規則按時着兩種物品之間可能存在很強的關系

8K-Means： K-Means算法是一個聚類算法，可以這么理解，最終想把物體划分成K類，假設每個類別里面，都有個‘中心點’，即意見領袖，它是這個類別的核心，現在我又一個新點要歸類，這個時候就只要計算與K個中心點的距離，距離那個中心點近，就分成那個類別

9.EM: EM算法也叫最大期望算法，是求參數的最大似然估計的一種算法，原理是這樣的：假設我們想要評估參數A和參數B，在開始狀態下二者都是未知的，並且知道了A的信息就可以得到B的信息，反過來知道了B的也就得到A的，可以考慮首先賦予A某個初值，以此得到B的估值，然后從B的估值出發，重新估計A的取值，這個過程一直持續到收斂未知

10.PageRank: 起源於論文的影響力的計算方式，如果一篇論文被引入次數越多，就代表這篇論文的影響力越強，PageRank被Google創造性地應用到了網頁權重的計算中，當一個頁面鏈接的頁面越多，說明這個頁面的‘參考文獻’越多，當這個頁面被鏈入的頻率越高，說明這個頁面的引用次數越高，基於這個原理，我們可以得到網站的權重划分

數據挖掘中的數學原理

1概率論與數理統計

2 線性代數

3 圖論

4最優化方法

---------------------------------------------

題外話：我還在轉行學習中，着實需要項目經驗，如果有一起kaggle練習項目的，可以的話稍上我，一起學習，感謝！！！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 常見的機器學習&數據挖掘知識點 NLP&數據挖掘基礎知識數據挖掘面試數據挖掘-基本流程神奇的數據挖掘數據挖掘入門數據挖掘模型關於數據挖掘中的文本挖掘數據挖掘——關聯算法數據挖掘一般過程