記要
今天在計算分類模型自行區間時,用到了R中正太分布的qnorm函數,這里做簡單記要,作為備忘。
R中自帶了很多概率分布的函數,如正太分布,二次分布,卡放分布,t分布等,這些分布的函數都有一個共性,每個分布擁有4個帶有d,p,q,r前綴的函數。比如正太分布,有dnorm,pnorm,qnorm和rnorm。這幾個前綴的意義如下:
- d Density的縮寫,表示密度函數。舉個例子,標准正太分布x=0對應的值可以用dnorm(0)計算
- p Probability的縮寫,表示概率函數。舉個例子,標准正太分布從負無窮大到0的概率,可以用pnorm(0)計算
- q Quantile的縮寫,表示分位函數。舉個例子,如果知道標准正太分布從負無窮大到x的概率是0.9678,想要知道這個x的值,可以通過qnorm(0.9678)計算。
- r Random的縮寫,表示隨機函數。用於隨機生成符合正太分布的數值,舉個例子,如果想隨機生成10個符合標准正太分布的函數,可以用rnorm(10)來獲得。
在R命令行中輸出“?pnorm”,可以了解更多詳細情況。
心得體會
最近在學習數據挖掘中的一些分類模型,由於才入門不久,以前總認為概率在數據挖掘在沒多大用處,直到昨天才知道原來挖掘模型的精度評估和比較可以
建立在統計學分析框架上。比如評估一個分類模型,計算其准確度的自行區間就是通過二項分布近似到正太分布計算。再比如,評估兩個模型是否有差異,這個通過假設檢驗和卡放分布驗證。
參考:《數據挖掘導論》 Pang-Ning Tan 4.6節