Task description:
Use the decision tree for classification based on Breast cancer dataset available at https://www.kaggle.com/uciml/breast-cancer-wisconsin-data.
基於Python的可視化參考:DT可視化工具graphviz,python接口工具為pydotplus,需要提前安裝graphviz並添加PATH到環境變量中,之后利用pydotplus可視化sklearn中的DT結果。http://sklearn.apachecn.org/cn/0.19.0/modules/tree.html#tree-algorithms
Graphviz 不能通過 pip 直接安裝,需要手動在官網下載並安裝:https://graphviz.gitlab.io/about/並添加到環境變量。pydotplus可以通過pip安裝。
1:首先需要獲得Breast Cancer dataset數據集,在kaggle上獲取該數據集需要翻牆,該數據解壓后為csv格式
2:使用pandas.read_csv()來讀入數據,並查看數據的前五項條目
3:查看數據的具體信息,一共有32列(其中第二列diagnosis為標簽,其他列為特征),569行,發現有一列為空列你並將其刪除
4:將數據調整成sklearn能夠傳入的格式,即將特征值和標簽分離,然后將訓練和測試數據按照7:3的比例划分
5:sklearn模型運算分為三步:調用模型,訓練模型,評價模型
先使用默認參數對模型進行初步的訓練,並使用cross_score對模型進行評估
6:使用網格搜索調整參數
7:將訓練得到的最佳參數導入模型
8:利用graphviz對決策樹進行可視化