log1p和expm1


在數據預處理時首先可以對偏度比較大的數據用log1p函數進行轉化,使其更加服從高斯分布,此步處理可能會使我們后續的分類結果得到一個更好的結果;
平滑處理很容易被忽略掉,導致模型的結果總是達不到一定的標准,同樣使用逼格更高的log1p能避免復值得問題——復值指一個自變量對應多個因變量;

log1p的使用就像是將一個數據壓縮到了一個區間,與數據的標准化類似。它的逆運算是expm1函數。

 

    log1p := log(x+1)      即ln(x+1)

    expm1 := exp(x)-1

 

log1p函數有它存在的意義,即保證了x數據的有效性,當x很小時(如 兩個數值相減后得到x = 10^{-16}),由於太小超過數值有效性,用log(x+1)計算得到結果為0,

換作log1p則計算得到一個很小卻不為0的結果,這便是它的意義(好像是用泰勒公式來展開運算的,不確定)。

同樣的道理對於expm1,當x特別小,exp(x)-1就會急劇下降出現如上問題,甚至出現錯誤值。

 

\text{RMSLE}=\sqrt{\frac{1}{n}\sum_{i=1}^n(\log(x_i+1)-\log(y_i+1))^2}

另外RMSLE(均方根對數誤差)會更多的懲罰欠擬合,所以在使用該誤差定義時我們也可以用到上面的函數:

  1. np.loglp計算加一后的對數,其逆運算是np.expm1;
  2. 采用此誤差函數時,可以先對原始數據做np.log1p,再使用RMSE。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM