通常數據離散程度(或偏態分布)比較大,下意識就會想到取個對數,這樣可以把值域給壓縮了。
這么處理下,數據差異不那么明顯了,因為取對數不改變單調性,只是做了一個縮放,所以不會改變數據的性質。
有時候做ANOVA方差分析的時候又要滿足三大特性,隨機獨立,正態,方差齊,
一看數據不正態了,方差不齊了,趕緊取個對數先,這樣真的好嗎?
例如有論文寫到某些情況下,比如數據不近似服從對數正態分布,使用廣義估計方程(GEE)方法來處理數據,而不是取對數
http://www.doc88.com/p-7794204427017.html
所以有些時候不是取個對數就解決問題的,當然對數大法確實很有用,
比如,FASTQ文件中,RNA序列的質量衡量也采用了log變換,把類似於0.01的P值裝成一個字母單值
又比如,在信息檢索中,IDF(Inverse document frequency)逆文本頻率指數,意思是key word關鍵詞越少出現權重越大,經常出現說明他不重要,權重低,所謂物以稀為貴嘛
IDF值=log(D/Dw)其中D是全部文件數,這里的文件可以是網頁,也可以是文章,也可以是壓縮后的圖像信息,原理是一樣的。
D總數是個定值,Dw越小,IDF越大,比如說求相關性計算就是簡單的加法了, TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。
此外,取對數可以把乘法計算轉換稱加法計算,舉個例子,在logistic回歸里,很關鍵的一步就是先將概率密度函數乘起來,再取對數,最后求參數
從log函數的圖像可以看到,自變量x的值越小,函數值y的變化越快,也就是說,對數值小的部分差異的敏感程度比數值大的部分的差異敏感程度更高。這也是符合生活常識的,
例如對於價格,買個家電,如果價格相差幾百元能夠很大程度影響你決策,但是你買汽車時相差幾百元你會忽略不計了。
最后,對數可以減弱異方差性,注意是減弱,不是消除。。