sklearn.impute
.SimpleImputer 中fit和transform方法的簡介
SimpleImputer 簡介
通過SimpleImputer ,可以將現實數據中缺失的值通過同一列的均值、中值、或者眾數補充起來,這里用均值舉例。
fit方法
通過fit方法可以計算矩陣缺失的相關值的大小,以便填充其他缺失數據矩陣時進行使用。
import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
對於數組
\[ \begin{matrix} 1 & 2 \\ null & 3 \\ 7 & 6 \\ \end{matrix} \]
經過imp.fit
之后,第一列的均值為(1+7)/2=4
,第二列的均值為(2+3+6)/3=3.6667
。
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))
transform 方法
之后給定一個X矩陣,通過transform
方法進行轉換。
\[\begin{matrix} null & 2 \\ 6 & null \\ 7 & 6 \\ \end{matrix} \]
填充第一個null
為之前算的均值4
,第二null
為第二列均值3.6667
fit_transform 方法
一般我們實際使用時,對於給定的數據,直接使用fit_transform
方法進行計算以及填充。