基礎
總和、平均數、中位數、最大值、最小值、眾數
極差(range)、標准差(standard deviation,縮寫s或SD)、方差(variance 標准差的平方)
相關系數
pearson相關系數
是研究變量之間線性相關程度的量
scipy.stats.stats.pearsonr(x,y)[0]
spearman相關系數
from scipy import stats
stats.spearmanr([1,2,3,4,5], [5,6,7,8,7])
各種檢驗
t檢驗
主要用於樣本含量較小(例如n<30),總體標准差σ未知的正態分布。
ks檢驗
檢驗數據是否符合某種分布
卡方檢驗
卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度
卡方檢驗:
stats.chisquare(觀測值序列, 理論值序列)
卡方值越大,越不符合;卡方值越小,偏差越小,越趨於符合
例:
from scipy import stats
observation_value = [10,13,8,9,10,11]
real_value = [10,10,10,10,10,10]
stats.chisquare(observation_value, f_exp = real_value)
**結果**:(statistic=1.5000000000000002, pvalue=0.9130698145443954)
一般p值要求大於0.95
顯著性檢驗
方差分析(ANOVA)又稱“變異數分析”或“F檢驗”
用於兩個及兩個以上樣本均數差別的顯著性檢驗
同分布檢驗
正態性檢驗
各種分布
二項分布
服從二項分布的隨機變量X表示在n個獨立的是/非試驗中成功的次數,其中每次試驗的成功概率為p。
scipy.stats.binom
numpy.random.RandomState.binomial
np.random.binomial(n, p, size=20)
size為總次數
n p為公式中的n p
泊松分布
舉例:平均每天發生2起,10天發生的次數
rate=2
n = np.arange(0,10)
stats.poisson.pmf(n,rate)
返回的是發生0,1,2...10次的概率
正態分布
生成一個均值為0.5,標准差為5的正態分布,隨機選200個點
norm_dist = stats.norm(loc=0.5, scale=5)
data = norm_dist.rvs(size=200)
t檢驗
注意,這里生成的第二組數據樣本大小、方差和第一組均不相等,在運用t檢驗時需要使用 Welch's t-test,即指定ttest_ind中的equal_var=False。