數據挖掘十大算法之決策樹詳解（2）

本文轉載自查看原文 2017-11-10 15:18 1699 算法

在2006年12月召開的 IEEE 數據挖掘國際會議上（ICDM， International Conference on Data Mining），與會的各位專家選出了當時的十大數據挖掘算法（ top 10 data mining algorithms ），可以參見文獻【1】。本博客已經介紹過的位列十大算法之中的算法包括：

因為原文較長，我嘗試把它們分散成幾篇。本文是決策樹模型系列中的第二篇，希望你在閱讀本文之前已經對《數據挖掘十大算法之決策樹詳解（1）》中之內容有較深入理解。決策樹模型是一類算法的集合，在數據挖掘十大算法中，具體的決策樹算法占有兩席位置，即C4.5和CART算法，本文都會介紹到它們。

歡迎關注白馬負金羈的博客 http://blog.csdn.net/baimafujinji，為保證公式、圖表得以正確顯示，強烈建議你從該地址上查看原版博文。本博客主要關注方向包括：數字圖像處理、算法設計與分析、數據結構、機器學習、數據挖掘、統計分析方法、自然語言處理。

ID3算法

ID3和C4.5都是由澳大利亞計算機科學家Ross Quinlan開發的決策樹構建算法，其中C4.5是在ID3上發展而來的。下面的算法描述主要出自文獻【3】。

ID3算法的核心是在決策樹各個結點上應用信息增益准則選擇特征，遞歸地構建決策樹。具體方法是：從根結點（root node）開始，對結點計算所有可能的特征的信息增益，選擇信息增益最大的特征作為結點的特征，由該特征的不同取值建立子結點；再對子結點遞歸地調用以上方法，構建決策樹；直到所有特征的信息增益均很小或沒有特征可以選擇為止。最后得到一棵決策樹。ID3相當於用極大似然法進行概率模型的選擇。下面我們給出一個更加正式的ID3算法的描述：

輸入：訓練數據集

若
若
否則，計算
對第

下面我們來看一個具體的例子，我們的任務是根據天氣情況計划是否要外出打球：

首先來算一下根節點的熵：

E n t r o p y (P l a y B a l l) = E n t r o p y (5, 9) = E n g

G (P l a y B a l l, O u t l o o k) = E (P l a y B a l l) - E (P l a y B a l l, O u t l

C4.5算法

C4.5是2006年國際數據挖掘大會票選出來的十大數據挖掘算法之首，可見它應該是非常powerful的！不僅如此，事實上，C4.5的執行也相當的straightforward。

C4.5算法與ID3算法相似，C4.5算法是由ID3算法演進而來的。C4.5在生成的過程中，用信息增益比來選擇特征。下面我們給出一個更加正式的C4.5算法的描述：

輸入：訓練數據集

如果
如果
否則，計算
對結點

How to do it in practice?

易見，C4.5跟ID3的執行步驟非常類似，只是在划分時所采用的准則不同。我們這里不再贅述。但是這里可以來看看在實際的數據分析中，該如何操作。我們所使用的數據是如下所示的一個csv文件，文件內容同本文最初給出的Play Ball例子中的數據是完全一致的。

http://www.cs.waikato.ac.nz/ml/weka/downloading.html

使用Weka進行數據挖掘是非常容易的，你不再需要像R語言或者MATLAB那樣編寫代碼或者調用函數。基於GUI界面，在Weka中你只需要點點鼠標即可！首先我們單擊“Explorer”按鈕來打開操作的主界面，如下圖所示。

在后續的決策樹系列文章中，我們將繼續深入探討CART算法等相關話題。

（未完，待續…）

參考文獻

【1】Wu, X., Kumar, V., Quinlan, J.R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.J., Ng, A., Liu, B., Philip, S.Y. and Zhou, Z.H., 2008. Top 10 algorithms in data mining. Knowledge and information systems, 14(1), pp.1-37. (http://www.cs.uvm.edu/~icdm/algorithms/10Algorithms-08.pdf）
【2】Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 數據挖掘導論，人民郵電出版社
【3】李航，統計學習方法，清華大學出版社
【4】http://www.saedsayad.com/decision_tree.htm
【5】https://www.cise.ufl.edu/~ddd/cap6635/Fall-97/Short-papers/2.htm

如果你對機器學習和數據挖掘感興趣，你還可以參考我的高能資源帖：
【6】機器學習與數據挖掘網上資源搜羅
【7】機器學習與數據挖掘的學習路線圖

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據挖掘十大算法之決策樹詳解（1）機器學習——十大數據挖掘之一的決策樹CART算法數據挖掘算法之決策樹算法 python數據挖掘決策樹算法數據挖掘分類算法之決策樹（zz）數據挖掘系列（6）決策樹分類算法數據挖掘之決策樹數據挖掘——決策樹分類數據挖掘之DecisionTreeClassifier決策樹詳解十大經典數據挖掘算法之——Apriori