機器學習的基本步驟

本文轉載自查看原文 2019-12-24 10:00 964

包括缺失值處理、重復值處理、數據類型的轉換、字符串數據的規整

缺失值處理（標簽數據無需填充缺失）：
- 數值數據：用平均值取代： data[A].fillna(data[A].mean())
- 分類數據：data[A].value_counts()；data[A].fillna("占比最多的類別")；data[A].fillna("U")缺失比較多時，填充代表未知的字符串
- 使用模型預測缺失值，例如：K-NN
數據歸一化/標准化：
- 模型具有伸縮可變性，如SVM，最好進行標准化，避免模型參數受極值影響；伸縮不變模型，如邏輯回歸，最好也進行標准化，可以加快訓練速度
- 歸一化/標准化常見兩種方法：
1. min-max，化為[0,1]：(x-min(x))/(max(x)-min(x))/preprocessing.MinMaxScaler；適合分別在有限范圍內的數據，數值較集中，但min/max不穩定會影響結果
2. Z-core，化為均值為0，方差為1：(x-mean(x))/std(x)/sklearn.preprocessing.scale()，適合最大/最小值未知，或者有超出取值范圍的離散值

數值型數據處理：一般可直接使用，或通過運算轉化為新的特征
- 通過家庭人數可划分大小家庭：df.家庭人數=df.A+df.B+1(自己)；df.小家庭=df.家庭人數.map(lambda s : 1 if 2 <= s <= 4 else 0)
分類型數據處理：
- 兩個類別：性別數據分別填充為1、0：df.A=df.A.map({"male":1;"female":0})
- 超過兩個類別：one-hot編碼，data'=pd.get_dummies(df.A , prefix='前綴' )；pd.concat([data,data'],axis=1)
- 字符串型-姓名：每一個姓名中都包含了稱謂，利用split函數將稱謂提取出來；.strip用於移除空格；將稱謂進行歸類，定義對應字典，利用map函數替換；進行one_hot編碼
- 字符串型-客艙號：a[n]可以取到字符串數據第“n”個字符；提取之后進行one_hot編碼
時間序列數據，一段時間定期收集的數據-可轉成年月日

- 歡迎關注我的公眾號，了解一個學設計卻做了運營最后成了數據分析師並努力成為大數據工程師的女程序員的成長之路。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習算法一般步驟機器學習框架MXnet安裝步驟機器學習的基本術語 Spark 機器學習機器學習--介紹從機器學習談起機器學習該怎么入門？機器學習之聚類機器學習——LightGBM 機器學習之集成學習