數據挖掘的基本流程
1 商業理解:數據挖掘不是我們的目的,我們的目的是更好的幫助業務,所以第一步我們要從商業的角度理解項目需求,在這個基礎上,在對數據挖掘目標進行定義
2 數據理解:嘗試收集部分數據,然后對數據進行探索,包括數據描述,數據質量驗證等,有助於對收集的數據有個初步認知
3 數據准備: 開始收集數據,並對數據進行清洗,數據集成等操作,完成數據挖掘的准備工作
4 模型建立: 選擇和應用各種數據挖掘模型,並進行優化,以便得到更好的分類結果
5 模型評估: 對模型進行評價,並檢查構建模型的每個步驟,確認模型是否實現了預定的商業目標
6 上線發布: 模型的作用是從數據中找到金礦,獲得的知識需要轉化為用戶可以使用的方式,呈現的形式可以是一份報告,可以試實現了一個復雜可重復的數據挖掘過程,后續監視與維護
再說一說流程:首先需要了解背景(業務需求,達到目標等),然后根據目的大致查看整個數據集的各個參數及其屬性,接着就需要判斷各個參數,數值和自己目的的一個關系,如果直觀沒什么想法,可以使用可視化,與目的影響的東西作比較,得到具有影響目的的一些特征,和一些無關緊要的,大致了解后就需要預處理數據,為后續機器學習建模做基礎,預處理(常見的處理方式別人網上說的都比我好自己可以去學習)后面update。。。(白又白)
數據挖掘十大算法
分類算法:C4.5 ,朴素貝葉斯(Naive Bayes),SVM,KNN,Adaboost
聚類算法: K-Means, EM
關聯分析: PageRank
1.C4.5: 是決策樹的算法,創造性地在決策樹構造過程中就進行了剪枝,並且可以處理連續的屬性,也對不完整的數據進行處理 關於決策樹、C4.5算法具體可以查看下面鏈接(https://www.cnblogs.com/pythonzwd/p/10561566.html )
2.朴素貝葉斯(naive bayes): 朴素貝葉斯是給予概率論的原理,它的思想是對於給出的未知無題要進行分類,需要求解在這個未知物體出現的條件下各個類別出現的概率,找最大概率那個分類,數據更新影響思想
3 SVM:中文叫支持向量機:Support Vector Machine,SVM 在訓練中簡歷了一個超平面的分類模型。
4.KNN: 也叫K最近鄰算法,英文是K-Nearest Neighbor. K近鄰就是每個樣本都可以用它最接近的K個鄰居來戴表,如果一個樣本,他的K個最接近的鄰居都屬於A,那么這個樣本也屬於A分類
5.Adaboost: 在懸鏈中簡歷一個聯合分類模型,boost 提升的意思,所以adaboost是個構建分類模型器的提升算法,它可以讓多個弱的分類器組成一個強的分類器
6.CART: CART戴表分類和回歸樹,Classification and Regression Trees. 構建了兩棵樹,一顆分類樹,一個回歸樹,是一個決策樹學習算法
7Apriori 是一個挖掘關聯規則(association rules)的算法,通過挖掘頻繁頂集(frequent item sets)來解釋物品之間的關聯關系,被廣泛應用於商業挖掘和網絡安全領域中,頻繁項集是一個指經常出現在一起的物品集合,關聯規則按時着兩種物品之間可能存在很強的關系
8K-Means: K-Means算法是一個聚類算法, 可以這么理解,最終想把物體划分成K類,假設每個類別里面,都有個‘中心點’,即意見領袖,它是這個類別的核心,現在我又一個新點要歸類,這個時候就只要計算與K個中心點的距離,距離那個中心點近,就分成那個類別
9.EM: EM算法也叫最大期望算法,是求參數的最大似然估計的一種算法,原理是這樣的:假設我們想要評估參數A和參數B,在開始狀態下二者都是未知的,並且知道了A的信息就可以得到B的信息,反過來知道了B的也就得到A的,可以考慮首先賦予A某個初值,以此得到B的估值,然后從B的估值出發,重新估計A的取值,這個過程一直持續到收斂未知
10.PageRank: 起源於論文的影響力的計算方式,如果一篇論文被引入次數越多,就代表這篇論文的影響力越強,PageRank被Google創造性地應用到了網頁權重的計算中,當一個頁面鏈接的頁面越多,說明這個頁面的‘參考文獻’越多,當這個頁面被鏈入的頻率越高,說明這個頁面的引用次數越高,基於這個原理,我們可以得到網站的權重划分
數據挖掘中的數學原理
1概率論與數理統計
2 線性代數
3 圖論
4最優化方法
---------------------------------------------
題外話: 我還在轉行學習中,着實需要項目經驗,如果有一起kaggle練習項目的,可以的話稍上我,一起學習,感謝!!!