基於Breast Cancer dataset的決策樹分類及可視化


Task description:

Use the decision tree for classification based on Breast cancer dataset available at https://www.kaggle.com/uciml/breast-cancer-wisconsin-data. 

基於Python的可視化參考:DT可視化工具graphviz,python接口工具為pydotplus,需要提前安裝graphviz並添加PATH到環境變量中,之后利用pydotplus可視化sklearn中的DT結果。http://sklearn.apachecn.org/cn/0.19.0/modules/tree.html#tree-algorithms

Graphviz 不能通過 pip 直接安裝,需要手動在官網下載並安裝:https://graphviz.gitlab.io/about/並添加到環境變量。pydotplus可以通過pip安裝。

 

1:首先需要獲得Breast Cancer dataset數據集,在kaggle上獲取該數據集需要翻牆,該數據解壓后為csv格式

2:使用pandas.read_csv()來讀入數據,並查看數據的前五項條目

3:查看數據的具體信息,一共有32列(其中第二列diagnosis為標簽,其他列為特征),569行,發現有一列為空列你並將其刪除

4:將數據調整成sklearn能夠傳入的格式,即將特征值和標簽分離,然后將訓練和測試數據按照7:3的比例划分

5:sklearn模型運算分為三步:調用模型,訓練模型,評價模型

     先使用默認參數對模型進行初步的訓練,並使用cross_score對模型進行評估

6:使用網格搜索調整參數

 

7:將訓練得到的最佳參數導入模型

8:利用graphviz對決策樹進行可視化

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM