《Hands-On Machine Learning with Scikit-Learn&TensorFlow》讀書筆記

本文轉載自查看原文 2018-10-08 17:44 2303

本章的目標是建立一個房價預測系統,這是一個回歸問題.主要步驟為:項目概述-獲取數據-發現並可視化數據,發現規律-為機器學習算法准備數據-選擇模型,進行訓練-微調模型-給出解決方案-部署,監控,維護系統.
均方根誤差(RMSE)是回歸問題的典型指標..
平均絕對誤差(MAE)也是一種選擇.
在類似RMSE和MAE這樣的范數中,范數的指數越高,就越關注大的值而忽略小的值.
利用pd.read_csv()讀取數據后,可以用head(),info(),value_counts()和describe()方法大致了解數據.
在對測試集采樣時,需要保證數據集中的每個分層都要用足夠的實例位於測試集中.可以將最重要的一類特征進行離散處理,然后使用sklearn的StratifiedShuffleSplit類來分層采樣.
使用corr(),和pd.tools.plotting.scatter_matrix()方法可以探索特征之間的相關性.
特征之間相互組合產生的新特征也很重要.
大多數機器學習算法不能處理缺失的特征.可以:

對於文本和類別屬性,可以用sklearn的OneHotEncoder來處理.
特征縮放是最重要的數據轉換之一.可以用線性函數歸一化(Normalization,減去最小值,除以最大值與最小值的差值,sklearn中的MinMaxScaler)和標准化(Standardization,減去平均值,除以方差,sklearn中的StandardScaler)來實現.
sklearn提供了Pipeline類來實現流水線.
sklearn的GridSearchCV可以用於網格搜索最佳的超參數組合.適用於搜索空間不大的情況.
sklearn的RandomizedSearchCV可以用於隨機搜索最佳的超參數組合.適用於搜索空間很大的情況.

二分類問題的准度一般采用准確率(Precision),召回率(Recall)和F1值(2*P*R/(P+R)).ROC曲線也是一個常用的工具,它是真正例率對假正例率的曲線.ROC曲線下的面積稱為AUC,AUC越接近1分類器的效果就越好.
SVM或線性分類器是嚴格的二分類器,可以通過OvA(一對所有)或OvO(一對一)策略讓它們執行多類分類.Sklearn會自動執行OvA或OvO(對SVM).
多標簽分類是指分類器給一個樣例輸出多個類別.
多輸出-多類分類是指分類器的輸出是多標簽的,並且每個標簽有多個值.例如圖像去噪.

介紹了批量梯度下降,隨機梯度下降和小批量梯度下降,不再贅述.
如果添加特征的高階組合作為新特征,線性回歸也能擬合非線性關系.
一個模型的泛化誤差是由偏差(高偏差意味着欠擬合),方差(高方差意味着過擬合),不可約誤差組成的.
訓練中的損失函數應該易於求導,測試過程中的評價函數應該接近最后的客觀表現.
在正則化前對數據進行放縮是非常重要的.
嶺(Ridge)回歸是在線性回歸的損失函數直接加上一個L2正則項
Lasso回歸是在線性回歸的損失函數直接加上一個L1正則項.它傾向於完全消除最不重要的特征的權重.
彈性網絡(ElasticNet)介於Ridge回歸和Lasso回歸之間,它的正則項是兩者正則項的簡單混合.
早停(early stop)也是一種正則化方法.一旦驗證集誤差停止下降,就提早停止訓練.
Logistic回歸是一種分類算法.它計算輸入特征的加權和,然后將結果輸入logistic函數后輸出.並根據輸出值與閾值的比較決定分類結果.它的損失函數是對數損失,可以使用梯度下降求解.
Softmax回歸用參數向量計算每個類的得分,然后將得分傳入softmax函數作為概率傳出.使用的損失函數是交叉熵,用於衡量待測類別與目標類別的匹配程度.

SVM能做線性或非線性的分類,回歸,適合復雜但中小規模數據集的分類問題.SVM的最大間隔分類是由線性平面邊緣的支持向量決定的.SVM對特征縮放很敏感.
SVM的核技巧可以使得不添加高次數的多項式特征或相似特征就產生同樣的效果.常用的核函數是linear,poly和RBF,以及一些針對特定數據結構的核函數.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。