統計基本常用指標整理


基礎

總和、平均數、中位數、最大值、最小值、眾數
極差(range)、標准差(standard deviation,縮寫s或SD)、方差(variance 標准差的平方)

相關系數

pearson相關系數
是研究變量之間線性相關程度的量
scipy.stats.stats.pearsonr(x,y)[0]

spearman相關系數
from scipy import stats
stats.spearmanr([1,2,3,4,5], [5,6,7,8,7])

各種檢驗

t檢驗

主要用於樣本含量較小(例如n<30),總體標准差σ未知的正態分布。

ks檢驗

檢驗數據是否符合某種分布

卡方檢驗

卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度
卡方檢驗:
stats.chisquare(觀測值序列, 理論值序列)
卡方值越大,越不符合;卡方值越小,偏差越小,越趨於符合
例:

from scipy import stats
observation_value = [10,13,8,9,10,11]
real_value = [10,10,10,10,10,10]
stats.chisquare(observation_value, f_exp = real_value)

**結果**:(statistic=1.5000000000000002, pvalue=0.9130698145443954)

一般p值要求大於0.95

顯著性檢驗

方差分析(ANOVA)又稱“變異數分析”或“F檢驗”

用於兩個及兩個以上樣本均數差別的顯著性檢驗

同分布檢驗
正態性檢驗

各種分布

二項分布

服從二項分布的隨機變量X表示在n個獨立的是/非試驗中成功的次數,其中每次試驗的成功概率為p。

scipy.stats.binom
numpy.random.RandomState.binomial

np.random.binomial(n, p, size=20)

size為總次數


n p為公式中的n p

泊松分布

舉例:平均每天發生2起,10天發生的次數
rate=2
n = np.arange(0,10)
stats.poisson.pmf(n,rate)
返回的是發生0,1,2...10次的概率

正態分布

生成一個均值為0.5,標准差為5的正態分布,隨機選200個點

norm_dist = stats.norm(loc=0.5, scale=5)
data = norm_dist.rvs(size=200)

t檢驗
注意,這里生成的第二組數據樣本大小、方差和第一組均不相等,在運用t檢驗時需要使用 Welch's t-test,即指定ttest_ind中的equal_var=False。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM