R概率分布函數使用小結


記要
今天在計算分類模型自行區間時,用到了R中正太分布的qnorm函數,這里做簡單記要,作為備忘。
R中自帶了很多概率分布的函數,如正太分布,二次分布,卡放分布,t分布等,這些分布的函數都有一個共性,每個分布擁有4個帶有d,p,q,r前綴的函數。比如正太分布,有dnorm,pnorm,qnorm和rnorm。這幾個前綴的意義如下:
  • d  Density的縮寫,表示密度函數。舉個例子,標准正太分布x=0對應的值可以用dnorm(0)計算
  • p  Probability的縮寫,表示概率函數。舉個例子,標准正太分布從負無窮大到0的概率,可以用pnorm(0)計算
  • q  Quantile的縮寫,表示分位函數。舉個例子,如果知道標准正太分布從負無窮大到x的概率是0.9678,想要知道這個x的值,可以通過qnorm(0.9678)計算。
  • r Random的縮寫,表示隨機函數。用於隨機生成符合正太分布的數值,舉個例子,如果想隨機生成10個符合標准正太分布的函數,可以用rnorm(10)來獲得。
在R命令行中輸出“?pnorm”,可以了解更多詳細情況。
 
心得體會
最近在學習數據挖掘中的一些分類模型,由於才入門不久,以前總認為概率在數據挖掘在沒多大用處,直到昨天才知道原來挖掘模型的精度評估和比較可以 建立在統計學分析框架上。比如評估一個分類模型,計算其准確度的自行區間就是通過二項分布近似到正太分布計算。再比如,評估兩個模型是否有差異,這個通過假設檢驗和卡放分布驗證。
 
參考:《數據挖掘導論》 Pang-Ning Tan 4.6節


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM