Evernote Export
一組數據的分布特征可以從那幾個方面進行測度?
- 數據的分布特征可以從三個方面進行測度和描述,一是分布的集中趨勢,反映各數據向其中心值靠攏或聚集的程度;二是分布的離散程度,反映各數據遠離其中心值的趨勢;三是分布的形狀,反映數據分布的偏態和峰態。
怎樣理解平均數在統計學中的地位?
- 平均數在統計學中具有重要的地位,它是進行統計分析和統計推斷的基礎。從統計思想上看,平均數是一組數據的重心所在,是數據誤差相互抵消后的必然結果。
- 比如,對同一事物進行多次測量,所得結果可能不一致,這是測量誤差所致,也可能是其他因素的偶然影響,利用平均數作為其代表值,則可以使誤差相互抵消,反映出事物必然性的數量特征。
簡述四分位數的計算方法
- 設下四分位數為QL,上四分位數為QU,根據四分位數的定義
QL=4n
QU=43n
如果位置是整數,四分位數就是該位置對應的值,如果是在0.5的位置上,則取該位置兩側值的平均數,如果在0.25或0.75的位置上,則四分位數等於該位置的下側值加上按比例分攤位置兩側數值的差值。
對於比率數據的平均為什么采用幾何平均?
- 幾何平均數是適用於特殊數據的一種平均數。它主要用於計算平均比率。當所掌握的變量值本身是比率的形式時,采用幾何平均法計算平均比率更為合理。在實際應用中,幾何平均數主要用於計算現象的平均增長率。
簡述眾數、中位數和平均數的特點和應用場合。
- 眾數是一組數據分布的峰值,不受極端值的影響。其缺點是具有不唯一性,一組數據可能有兩個或多個眾數,也可能沒有眾數。眾數只有在數據量較多時才有意義,當數據量較少時,不宜使用眾數。眾數主要適合作為分類數據的集中趨勢測度值。
- 中位數是一組數據中間位置上的代表值,不受數據極端值的影響,當一組數據的分布偏斜程度較大時,使用中位數也許是一個好的選擇。中位數主要適合作為順序數據的集中趨勢測度值。
- 平均數是針對數值型數據計算的,而且利用了全部數據信息,它是實際中應用最廣泛的集中趨勢測度值。當數據呈對稱分布或接近對稱分布時,3個代表值相等或接近相等,這時則應選擇平均數作為集中趨勢的代表值。但是平均數的主要缺點是易受到數據極端值的影響,對於偏分布的數據,平均數的代表性差。因此,當數據為偏態分布,特別是偏斜程度較大時,可以考慮選擇中位數或眾數,這時它們的代表性比平均數好。
簡述異眾比率、四分位差、方差或標准差的應用場合。
- 異眾比率主要用於衡量眾數對一組數據的代表程度。異眾比率越大,說明非眾數組的頻數占總頻數的比重越大,眾數的代表性越差;異眾比率越小,說明非眾數組的頻數占總頻數的比重越小,眾數的代表性越好。異眾比率主要適合測度分類數據的離散程度,當然,對於順序數據以及數值型數據也可以計算異眾比率。
- 四分位差反映了中間50%數據的離散程度,其數值越小,說明中間的數據越集中,其數值越大,說明中間的數據越分散。四分位差不受極值的影響。此外,由於中位數處於數據的中間位置,因此,四分位差的大小在一定程度上也說明了中位數對一組數據的代表程度。四分位差的大小在一定程度也說明了中位數對一組數據的代表程度。四分位差主要用於測度順序數據的離散程度。對於數值型數據也可以計算四分位差,但是它不適合分類數據。
- 方差是各變量值與其平均數離差平方的平均數。方差(或標准差)能較好的反應出數據的離散程度,是實際中應用最廣的離散程度測度值。
標准分數有哪些用途?
- 標准分數給出了一組數據中各數值的相對位置。
為什么要計算離散系數?
- 離散系數也稱為變異系數,它是一組數據的標准差與其相應的平均數之比。離散系數是測度數據離散程度的相對統計量,主要是用於比較不同樣本數據的離散程度。離散系數越大,說明數據的離散程度也大,離散系數越小,說明數據的離散程度也越小。
測度數據分布形狀的統計量有哪些?
- 偏態系數
- 峰態系數
- 1.四分位差是上四分位數減下四分位數的結果
- 2.各變量值與其平均數離差平方的平均數稱為方差
- 3.對於右偏分布,平均數、中位數、眾數之間的關系是:平均數>中位數>眾數
- 4.在比較兩組數據的離散程度時,不能直接比較它們的標准差,因為兩組的數據計量單位不同