缺失值處理與拉格朗日插值法
對於含有缺失值的數據集,如果通過刪除小部分記錄達到既定的目標,那么刪除含有缺失值的記錄的方法是最有效的。然而,這種方法也有很多問題,刪除缺失值的同時也會損失一定的信息,對於那些數據集較小的來說這是影響很大的,同。所以可以對這些缺失值進行填充。
最簡單插補方法及時 均值/中位數/眾數插補法,對於需要插補的數據我們可以直接用該數值所對應的那一類屬性的均值或者中位數或者眾數進行插補。
也可以用最近鄰插補法,可以在數據集中尋找與該樣本除掉缺失屬性最相近的樣本,用相似的樣本的屬性值代替,求相似度可以采用聚類方法。
其次還有回歸方法和插值法,回歸方法及時建立回歸模型,用已有的數據訓練模型然后再預測。
插值法就有朗日插值法和牛頓插值法,這里就介紹一下拉格朗日插值法
根據數學知可知,對於平面上已知的n個點(無梁殿在一條直線上)可以找到一個n-1次多項式
y=a0+a1x+a2x+....+an−1xn−1,使次多項式曲線過這n個點。
1)求已知的過n個點的n-1次多項式:
y=a0+a1x+a2x+....+an−1xn−1
將這n個點的坐標
(x1,y1),(x2,y2),(xn,yn)
代入多項式函數,得
y1=a0+a1x1+a2x1+....+an−1x1n−1
y2=a0+a1x2+a2x2+....+an−1x2n−1
…
yn=a0+a1xn+a2xn+....+an−1xnn−1
就可以解出拉格朗日插值多項式
L(x)=i=1∑nyij=0,j=i∏xi−xjx−xj
將缺失的函數值對應的x代入插值多項式得到缺失值的近似值L(x).