數據挖掘之分類和預測


分類用於預測數據對象的離散類別,預測則用於預斷 欺詐檢測等的方面。

具有代表性的分類的方法 :決策樹方法 貝葉斯分類方法 神經網絡方法 支持向量機方法 關聯分類的方法 最后 將討論提高分類和預測期准確率的一般性的策略

分類的過程一般是有兩個步驟組成的 第一個步驟是模型建立階段,目的是描述預先定義的數據類或者概念集的分類器。這一步中會使用分類算法分析已有數據來構造分類器。

第二步驟是使用第一步得到的分類器進行分類,從而評估分類器的預測的准確率

預測與分類不同的是 對於需要預測的屬性值是連續的 ,而且是有序的,分類所需要預測的屬性值是無序的 麗薩的 ,

5.3關於分類和預測的問題--數據預處理問題和分類方法的比較和評估的標准

預處理:數據清理  相關分析 數據轉換 (泛化或者是規范數據)

評估准確率的常用的技術:保持方法 隨機子抽樣  交叉驗證 的方法  是基於給定數據的隨機抽樣的划分

分類的方法第一------決策樹的分類

決策樹分類器是非常流行的分類的方法 是可以處理高維數據的。

屬性選擇度量是指的是決策樹分類器的分裂的准則  (也就是節點的分裂)選擇的標准是要使得在每個非葉子節點進行屬性的測試的時候,使得被測元祖的類別的信息是最大化的,保證非葉子節點到達各后代的葉子節點的平均路徑是最短的,分類的速度是最快的。

三種屬性選擇的度量的方法:信息增益  增益率  Gini指標

分析分類器識別不同類元組的情況的時候的有用的工具是成為混淆矩陣,此矩陣可以用於在決策樹分類中的屬性選擇的度量中,判斷選擇合適的屬性進行節點的分裂

一般三種屬性選擇度量的方法都能夠返回一個較好的結果,但是各自選擇傾向不同,信息增益傾向於多值數據,增益率克服了多值數據,但是傾向於不平衡的分裂,Gini系數指標偏向於多值屬性,而且當類的數目很大時候會出現困難的。另外它還傾向於導致相等大小和相等純度的划分,也就是說比較於傾向於一種均衡的划分

為什么在大規模的數據挖掘中 決策樹被廣泛地應用呢?

它相對於其他分類方法有較快的學習速度

生成的決策樹能能夠很容易轉換為簡單於理解的分類規則

使用SQL語句對數據庫進行訪問

它與其他分類方法相比有着可比較的分類准確率。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM