判斷數據是否服從某一分布(一)


一、使用圖形對數據初步進行描述

    使用(直方圖,經驗分布圖,與QQ圖)描述數據的分布結構,預判分布。

    1.常用直方圖,適用於連續性數據

         hist(x),lines(density(x))

    2.經驗分布圖,一般的總體分布。

        ecdf(x) #生成x的向量
        plot(x, ..., ylab="Fn(x)", verticals = FALSE)#將生成的向量用plot畫圖 

 

二、使用添加理想曲線或者QQ圖判斷是否服從某一分布。

     1.添加理想曲線。

        如:

            w <- (min(x)-2):(max(x)+2)#繪制理想曲線范圍,覆蓋住原自變量范圍
            lines(w, dnorm(w, mean(x), sd(x)), col = "red") #添加正態分布dentisy理想曲線

     2.QQ圖
        qqnorm(y, ylim, main = "Normal Q-Q Plot",
             xlab = "Theoretical Quantiles",
             ylab = "Sample Quantiles", plot.it = TRUE,
             datax = FALSE, ...)
        qqline(y, datax = FALSE, ...)
        qqplot(x, y, plot.it = TRUE, xlab = deparse(substitute(x)),
        ylab = deparse(substitute(y)), ...) #其中x是第一列樣品,y是第二列樣品或者只有此列樣品。

 

三、實例

    例一

    數據:

        已知15位學生的體重(單位千克)

        75.0 64.0 47.4 66.9 62.2 62.2 58.7 66.6 64.0 57.0 69.0 56.9 50.0 72.0 63.5

    分析:

        1.數據為連續型隨機變量,因此函數為連續型函數,使用直方圖。

        w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
        hist(w, freq = FALSE)
        lines(density(w), col = "blue")

              

        2.density圖可看出類似正態分布,因此可以添加正態分布曲線進行觀察,或者畫QQ圖判斷是否服從正態分布。

            2.1.可添加正態分布理想曲線進行觀察。
            x <- (min(w)-2):(max(w)+2)
            lines(x, dnorm(x, mean(w), sd(w)), col = "red")

           

        可觀察到與正態分布曲線有一定區別,直方圖偏右。

        2.2.QQ圖判斷是否服從正態分布

            qqnorm(w)

            qqline(w)

           

        由QQ圖可知樣品的數據基本來自於正態分布。

例二

    數據:

    某公司接到一次電話的時間間隔,30個數據(單位:分鍾):

     0.8 11.7  2.8 11.9  6.1  1
     34.8  3.8 5.2 15.0 10.3 12.3
     8.2 0.6 1.7 14.5  8.3 28.9
     3.1 7.3 10.2  8.9  0.1 15.5
     5.7 0.7  8.3  0.9 40.7  2.9
    分析:

    1.數據為連續型隨機變量,因此函數為連續型函數,使用直方圖。

        x<-c( 0.8,11.7,2.8,11.9 ,6.1 ,1,
         34.8 ,3.8,5.2,15.0,10.3,12.3,
         8.2 ,0.6 ,1.7 ,14.5 , 8.3, 28.9,
         3.1, 7.3 ,10.2 , 8.9 , 0.1 ,15.5,
          5.7 ,0.7 , 8.3 , 0.9 ,40.7 , 2.9)

        hist(x,freq=F)

        lines(density(x),col="blue")

       

        猜測為指數分布,再調節density曲線的adjust=2,兩倍默認帶寬,使曲線更加平滑。

        hist(x,freq=F)

        lines(density(x,adjust=2),col="blue")

       

    2.density圖可看出類似指數分布,因此可以添加指數分布曲線進行觀察,或者畫QQ圖判斷是否服從正態分布。

        2.1.可添加指數分布理想曲線進行觀察。

        指數分布的λ的參數估計值為1/x拔。於是

        λ <- 1/(mean(x))

        t<- min(x):(max(x)+2)

        lines(t,dexp(t,λ),col="red")

       

        可知數據大致服從指數分布,但是不太理想。

        2.2.QQ圖判斷是否服從指數分布        

    p <- ppoints(100) # 生成100個等距結點   

    q <- quantile(x,p=p) #生成樣本分布的分位數   

    plot(qexp(p),q, main="Exponential Q-Q Plot", xlab="Theoretical Quantiles",ylab="Sample Quantiles")    

    qqline(q, distribution=qexp,col="red", lty=2)

       

可以看出,前面大部分數據偏離直線不遠,后面少部分數據偏離較遠,數據大致服從指數分布。

       

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM