《python機器學習—預測分析核心算法》:理解數據


參見原書2.1-2.2節

新數據集就像一個包裝好的禮物,它充滿了承諾和希望!

但是直到你打開前,它都保持神秘!

 

 

一、基礎問題的架構、術語,機器學習數據集的特性

 

通常,行代表實例,列代表屬性特征

 

屬性,實例中用於預測的數據
其他名稱:預測因子 特征 獨立變量 輸入

 

標簽,需要預測的數據
其他名稱:結果 目標 依賴變量 響應

 

2.1.1屬性和標簽的不同類型決定模型的選擇
數值變量 類別變量/因素變量

 

懲罰回歸算法只能處理數值變量:SVM 核方法 K最近鄰
轉換:類別變量->數值變量

 

當標簽是數值的,就叫作回歸問題
當標簽是類別的,就叫作分類問題
轉換:回歸問題 170 210 分類問題 >200?

 

分類問題也可能比回歸問題簡單

 

2.1.2新數據集的注意事項
需要檢查的事項:
行數、列數
類別變量的數目、類別的取值范圍
缺失的值
屬性和標簽的統計特性

 

處理缺失值:
1.有大量數據,直接丟棄缺失值
2.數據比較昂貴,難以獲得,填充缺失值
遺失值插補:最簡單的方法,每行所有此項的平均值代替缺失值

 

2.2分類問題

 

實例:用聲吶發現未爆炸的水雷

 

(1)確定數據集的規模

 

數據規模的影響:
1.可以大致判斷訓練所需的時間

 

懲罰線性回歸 集成方法
1000 * 1000 1min 幾分鍾
10000 * 10000 3-4 hour 12-24 hour

 

2.如果數據集的列數遠遠大於行數,那么采用懲罰線性回歸的方法很可能獲得最佳的預測

 

(2)確定每個屬性的特征
哪些列是數值型,哪些列是類別型

 

(3)獲得屬性的統計信息
數值型 描述性統計信息
類別型 具體類別的數量分布

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM