統計學——數據分布的特征和測度


每個指標都在某個方向提供一定信息,沒有那些指標可以提供數據的全部信息,指標之間是互補的。

1,集中趨勢:Central tendencey

    #a,數據向其中心值靠攏的傾向和程度;————當數據比較離散的時候無法用集中趨勢來代表一般水平。

    #b,測度集中趨勢就是尋找數據一般水平代表或者中心值;

    #c,不同類型的數據用不同的集中趨勢測度值;

    #d,低層次數據的集中趨勢測度適用於高層次的測量數據,但,高層次數據的集中趨勢值並不適用於低層次的測量數據;

    #e,靈活選用測度值里反應數據的集中趨勢,依據數據類型確定;

  1)位置平均數:

          眾數:——定類數據最低級的數據,數據的變量值,變量值之間無法比較大小,如性別,顏色

            #a,集中趨勢的測度值之一,出現次數最多的變量值,不受極端值的影響,可能沒有眾數或有多個眾數;

            #b,主要用於定類數據,也可用於定序數據和數值型數據;——其中定序和定類數據的變量值比較穩定和具體;

            #c,數值型分組數據的眾數:數值型變量值為一個區間或一個范圍,使得變量值無法滿足具體的條件

               $a,眾數的值與相鄰兩組頻數的分布有關;

               $b,相鄰兩組的頻數相等時,眾數組的組中值即為眾數;

               $c,相鄰兩組的頻數不等時,眾數采取近似公式計算:

                                              M0=L+[(f-f1)/(f-f_1)+(f-f+1)]*i----------------該公式假定眾數組的頻數在眾數組內均勻分布

                                                                   L為頻次最多的下限,分子為其頻數-相鄰頻數較小的頻數值,i 為組距

          中位數:——定序數據(用中位數和分位數表征)屬於較為高級的數據,變量值之前可以比較大小,但無法比較大小的多少。如,受教育程度:小學,初中,高中,大學

            #a,集中趨勢測度之一,排序后處於中間位置上的值,不受極端值的影響

            #b,主要用於定序數據,也可用數值型數據,但不能用於定類數據-----定類數據無法比較大小

            #c,各變量值與中位數的離差絕對值之和最小

                nEi=1|Xi-Me|=Min

              $a,:未分組數據:Me=N+1/2(奇數),Me=N/2 N為偶數

              $b,組距分組數據:中位數數值:=Ef/2     f 為組距分組數據頻數

              $c,數值型分組數據:

                 ^a,根據公式確定中位數所在的組

                 ^b,Me=L+[(Ef/2-Sm-1)/fm]*i  

                    L為中位數組的下限,Ef全體頻數,Sm-1上一個分組的累積頻數,fm中位數組頻數,i為組距

          四分位數:集中趨勢的測度之一,排序后處於25%和75%位置上的值,不受極端值的影響,主要用於定序數據,也可用於數值型數據,不能用於定類數據;

            #a,未分組數據:下四分位QL位置N+1/4,上四分位Qu位置3(N+1)/4

                  計算:偶數,在位置基礎上,Ql=位置整數的值+小數(排序上一個值-此值)-----Qu一樣

            #b,組距分組數據:下四分位位置Ef/4,上四分位位置3Ef/4

                  $:數值型分組數據:

                    ^下四分位:Ql=Ll+[(Ef/4-Sl)/fL]*il 

                    ^上四分位:Qu=Lu+[(3Ef/4-Su)/fu]*iu

  2)數值平均數:——定距和定比數據,屬於最高級別的數據,比如溫度,身高 屬於連續型,不但可以比較大小,還可以比較大小的多少。

          算術平均數:集中趨勢,最常用的測度值,一組數據的均衡點所在,易受極端值影響,用於數值型數據,不能用於定類和定序數據;

 

            #計算方式:

              不分組數據:  (X1+X2+......+XN)/N,

              分組數據:X1,X2,......XK   為中間值  如[110-115]   則 112.5

              相應頻數:F1,F2,.....FK

              加權平均值計算公式:X1F1+........XNFN/F1+......+FN

            #性質:

                各變量值與均值的離差之和=0,各變量值與均值的離差平方和最小

          調和平均數:均值的另一種表現形式,易受極端值的影響,用於定比數據,不能用於定類數據和定性數據;

                計算公式:總成交額/總成交量,算的為總量

          幾何平均數:N個變量乘積的N次方根,適用於特殊的數據,主要用於計算平均發展速度,可看作時均值的一種變形;

                計算公式:GM=根號(X1*....*XN)  POWER開根號

2,離散程度:

 離中趨勢:反應各變量值原理其中心值的程度,所以成為離中趨勢,

 從另一個側面說明了集中趨勢測度值的代表程度

   不同類型的數據有不同的離散程度測度值 

  1)異眾比率:——定類數據

       非眾數組的頻數占總頻數的比率,用於衡量眾數的代表性;

  2)四分位差:——定序數據

      上四分位數與下四分位數之差,也稱為內距或四分間距;

      反應了中間50%數據的離散程度,不受極端值的影響,用於衡量中位數的代表性

  3)方差和標准差:最常用測度值,反應了數據分布,反應了各變量值與均值的平均差異根據總體數據計算的較總體方差或標准差,根據樣本計算的成為樣本方差或標准差;

      總體:調查研究對象的全部;樣本:抽樣/部分

      整體方差計算公式:@2=(變量-均值)2/N   方差為標准差的開根號 =VAR()

      樣本方差:用自由度N-1去除,@2=(變量-均值)2/N-1

      方差,各變量值對均值的方差小於對任意值的方差;

  自由度:degree of freedom

  一組數據中可以自由取值的個數,當樣本數據的數為n時,若樣本均值確定后,只有n-1個數據可以自由取值,其中必有一個數據則不能自由取值

  在抽樣估計中,當用樣本方差去估計總體方差時,它是無偏估計量

      定距和定比:

  4)離散系數:——定序和定比

    變異系數:各種變異指標與其相應的均值之比,消除了數據水平高低和計量單位的影響,測度了數據的相對離散程度。

    標准差系數:標准差逾期相應均值的比=標准差/均值

      相對離散程度:

  5)極差:最大值最小值之差,最簡單測度值,易受極端值影響,未考慮數據的分布

  6)平均差:各變量值與其均值離差絕對值的平均數,能全面反應一組數據的離散程度,但,數學性質較差

3,分布的形狀:

  1)偏態:左偏,眾數偏右,右偏,眾數偏左;眾數相對於標准正態分布的位置;

    數據分布偏斜程度的冊書,=0為對稱分布,>0右偏,<0左偏, E(Xi-均值的立方   * 頻數)/標准差3次方*頻數和

  2)峰度:扁平及尖峰

    數據扁平程度的測度,峰度系數=3扁平度適中,<3扁平,>3尖峰

 

#權重:

#左偏,右偏:指的是均值相對於眾數的位置,在左邊就左偏,在右邊就是右偏分布;如果時對稱分布眾數=中位數=算術平均數  正態分布


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM