原文:python大戰機器學習——數據預處理

數據預處理的常用流程: 去除唯一屬性 處理缺失值 屬性編碼 數據標准化 正則化 特征選擇 主成分分析 去除唯一屬性 如id屬性,是唯一屬性,直接去除就好 處理缺失值 直接使用含有缺失值的特征 如決策樹算法就可以直接使用含有缺失值的特征 刪除含有缺失值的特征 缺失值補全 均值插補 若樣本屬性的距離是可度量的,則該屬性的缺失值就以該屬性有效值的平均值來插補缺失的值。如果樣本的屬性的距離是不可度量的, ...

2017-09-28 22:37 0 1509 推薦指數:

查看詳情

python大戰機器學習——數據降維

注:因為公式敲起來太麻煩,因此本文中的公式沒有呈現出來,想要知道具體的計算公式,請參考原書中內容       降維就是指采用某種映射方法,將原高維空間中的數據點映射到低維度的空間中 1、主成分分析(PCA)   將n維樣本X通過投影矩陣W,轉換為K維矩陣Z   輸入:樣本集D,低維空間d ...

Sat Sep 16 06:29:00 CST 2017 1 12216
python大戰機器學習——聚類和EM算法

  注:本文中涉及到的公式一律省略(公式不好敲出來),若想了解公式的具體實現,請參考原著。 1、基本概念   (1)聚類的思想:     將數據集划分為若干個不想交的子集(稱為一個簇cluster),每個簇潛在地對應於某一個概念。但是每個簇所具有現實意義由使用者自己決定,聚類算法僅僅會進行 ...

Sun Sep 17 01:39:00 CST 2017 0 3333
python大戰機器學習——半監督學習

  半監督學習:綜合利用有類標的數據和沒有類標的數據,來生成合適的分類函數。它是一類可以自動地利用未標記的數據來提升學習性能的算法 1、生成式半監督學習   優點:方法簡單,容易實現。通常在有標記數據極少時,生成式半監督學習方法比其他方法性能更好   缺點:假設的生成式模型必須與真實數據 ...

Sun Sep 24 04:57:00 CST 2017 0 3072
python大戰機器學習——模型評估、選擇與驗證

1、損失函數和風險函數 (1)損失函數:常見的有 0-1損失函數 絕對損失函數 平方損失函數 對數損失函數 (2)風險函數:損失函數的期望 經驗風險:模型在數據集T上的平均損失   根據大數定律,當N趨向於∞時,經驗風險趨向於風險函數 2、模型評估方法 (1)訓練誤差 ...

Sat Oct 21 06:33:00 CST 2017 0 2174
機器學習數據預處理

在sklearn之數據分析中總結了數據分析常用方法,接下來對數據預處理進行總結 當我們拿到數據集后一般需要進行以下步驟: (1)明確有數據集有多少特征,哪些是連續的,哪些是類別的 (2)檢查有沒有缺失值,對缺失的特征選擇恰當的方式進行彌補,使數據完整 (3)對連續的數值型特征進行 ...

Fri Jun 21 00:23:00 CST 2019 0 3542
機器學習數據預處理

歸一化處理 from sklearn.preprocessing import StandardScaler X_scaler = StandardScaler() y_scaler = StandardScaler() X_train = X_scaler.fit_transform ...

Mon Nov 14 01:11:00 CST 2016 0 3569
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM