參見原書2.1-2.2節
新數據集就像一個包裝好的禮物,它充滿了承諾和希望!
但是直到你打開前,它都保持神秘!
一、基礎問題的架構、術語,機器學習數據集的特性
通常,行代表實例,列代表屬性特征
屬性,實例中用於預測的數據
其他名稱:預測因子 特征 獨立變量 輸入
標簽,需要預測的數據
其他名稱:結果 目標 依賴變量 響應
2.1.1屬性和標簽的不同類型決定模型的選擇
數值變量 類別變量/因素變量
懲罰回歸算法只能處理數值變量:SVM 核方法 K最近鄰
轉換:類別變量->數值變量
當標簽是數值的,就叫作回歸問題
當標簽是類別的,就叫作分類問題
轉換:回歸問題 170 210 分類問題 >200?
分類問題也可能比回歸問題簡單
2.1.2新數據集的注意事項
需要檢查的事項:
行數、列數
類別變量的數目、類別的取值范圍
缺失的值
屬性和標簽的統計特性
處理缺失值:
1.有大量數據,直接丟棄缺失值
2.數據比較昂貴,難以獲得,填充缺失值
遺失值插補:最簡單的方法,每行所有此項的平均值代替缺失值
2.2分類問題
實例:用聲吶發現未爆炸的水雷
(1)確定數據集的規模
數據規模的影響:
1.可以大致判斷訓練所需的時間
懲罰線性回歸 集成方法
1000 * 1000 1min 幾分鍾
10000 * 10000 3-4 hour 12-24 hour
2.如果數據集的列數遠遠大於行數,那么采用懲罰線性回歸的方法很可能獲得最佳的預測
(2)確定每個屬性的特征
哪些列是數值型,哪些列是類別型
(3)獲得屬性的統計信息
數值型 描述性統計信息
類別型 具體類別的數量分布