參見原書1.5節
構建預測模型的一般流程
問題的日常語言表述->問題的數學語言重述
重述問題、提取特征、訓練算法、評估算法
熟悉不同算法的輸入數據結構:
1.提取或組合預測所需的特征
2.設定訓練目標
3.訓練模型
4.評估模型在訓練數據上的性能表現
機器學習:
開發一個可以實際部署的模型的全部過程,包括對機器學習算法的理解和實際的操作
通常,有非常切實的原因,導致某些算法被經常使用,了解背后的原因
(1)構造一個機器學習問題
審視數據集中的數據,確定需要做何種形式的預測
如,這些數據代表什么?如何與預測任務關聯起來?
1.“更好的結果”->可測量可優化的具體目標
2.收集數據,表示為特征的矩陣
3.目標:已知正確的數據結果用於訓練
<------問題重構---------<-
| |
問題的定性描述->問題的數學描述->模型訓練與性能評估->模型部署
(2)特征提取和特征工程
特征提取: (將決定哪些特征可以用來預測目標)
把一個自由形式的各種數據(如一個文檔中的字詞)轉換為行、列形式的數字的過程
特征工程:
對特征進行整理組合,以達到更富有信息量的過程
算法,提供每個特征對最終預測結果貢獻的度量
對特征打分,標識重要性
注意:數據准備和特征工程 估計會占開發一個機器學習模型80%~90%的時間
通常訓練100~5000個不同的模型,然后選擇與問題、數據集最匹配的模型
(3)確定訓練后模型的性能
測試集:留出一部分數據,用於測試模型的性能