數據分析之正態分布檢驗及python實現

一、總結

一句話總結：

就是非常簡單的用正態分布的公式畫個圖即可，簡單方便：y_sig = np.exp(-(x - u) ** 2 / (2 * sig ** 2)) / (math.sqrt(2 * math.pi) * sig)

二、數據分析之正態分布檢驗及python實現

轉自或參考：數據分析之正態分布檢驗及python實現
https://blog.csdn.net/u010199356/article/details/87873596

正態分布（Normal distribution），也稱“常態分布”，又名高斯分布（Gaussian distribution），最早由A.棣莫弗在求二項分布的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。是一個在數學、物理及工程等領域都非常重要的概率分布，在統計學的許多方面有着重大的影響力。
　　正態曲線呈鍾型，兩頭低，中間高，左右對稱因其曲線呈鍾形，因此人們又經常稱之為鍾形曲線。
　　若隨機變量X服從一個數學期望為μ、方差為σ^{2的正態分布，記為N(μ，σ}2)。其概率密度函數為正態分布的期望值μ決定了其位置，其標准差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標准正態分布。

正太性檢驗

利用觀測數據判斷總體是否服從正態分布的檢驗稱為正態性檢驗，它是統計判決中重要的一種特殊的擬合優度假設檢驗。

直方圖初判 / QQ圖判斷 / K-S檢驗

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline

直方圖初判

s = pd.DataFrame(np.random.randn(1000)+10,columns = ['value'])
print(s.head())
# 創建隨機數據

fig = plt.figure(figsize = (10,6))
ax1 = fig.add_subplot(2,1,1)  # 創建子圖1
ax1.scatter(s.index, s.values)
plt.grid()
# 繪制數據分布圖

ax2 = fig.add_subplot(2,1,2)  # 創建子圖2
s.hist(bins=30,alpha = 0.5,ax = ax2)
s.plot(kind = 'kde', secondary_y=True,ax = ax2)
plt.grid()
# 繪制直方圖
# 呈現較明顯的正太性

在這里插入圖片描述
這里的直方圖呈現出非常明顯的正態分布特性。

QQ圖判斷

# QQ圖通過把測試樣本數據的分位數與已知分布相比較，從而來檢驗數據的分布情況

# QQ圖是一種散點圖，對應於正態分布的QQ圖，就是由標准正態分布的分位數為橫坐標，樣本值為縱坐標的散點圖
# 參考直線：四分之一分位點和四分之三分位點這兩點確定，看散點是否落在這條線的附近

# 繪制思路
# ① 在做好數據清洗后，對數據進行排序（次序統計量：x(1)<x(2)<....<x(n)）
# ② 排序后，計算出每個數據對應的百分位p{i}，即第i個數據x(i)為p(i)分位數，其中p(i)=(i-0.5)/n （pi有多重算法，這里以最常用方法為主）
# ③ 繪制直方圖 + qq圖，直方圖作為參考

s = pd.DataFrame(np.random.randn(1000)+10,columns = ['value'])
print(s.head())
# 創建隨機數據

mean = s['value'].mean()
std = s['value'].std()
print('均值為：%.2f，標准差為：%.2f' % (mean,std))
print('------')
#  計算均值，標准差

s.sort_values(by = 'value', inplace = True)  # 重新排序
print(s.head())
s_r = s.reset_index(drop = False)  # 重新排序后，更新index
print("----------\n", s_r.head())
s_r['p'] = (s_r.index - 0.5) / len(s_r)  
s_r['q'] = (s_r['value'] - mean) / std
print(s_r.head())
print('------')
# 計算百分位數 p(i)
# 計算q值

# st = s['value'].describe()
# x1 ,y1 = 0.25, st['25%']
# x2 ,y2 = 0.75, st['75%']
# print('四分之一位數為：%.2f，四分之三位數為：%.2f' % (y1,y2))
# print('------')
# # 計算四分之一位數、四分之三位數

# fig = plt.figure(figsize = (10,9))
# ax1 = fig.add_subplot(3,1,1)  # 創建子圖1
# ax1.scatter(s.index, s.values)
# plt.grid()
# # 繪制數據分布圖

# ax2 = fig.add_subplot(3,1,2)  # 創建子圖2
# s.hist(bins=30,alpha = 0.5,ax = ax2)
# s.plot(kind = 'kde', secondary_y=True,ax = ax2)
# plt.grid()
# # 繪制直方圖

# ax3 = fig.add_subplot(3,1,3)  # 創建子圖3
# ax3.plot(s_r['p'],s_r['value'],'k.',alpha = 0.1)
# ax3.plot([x1,x2],[y1,y2],'-r')
# plt.grid()
# # 繪制QQ圖，直線為四分之一位數、四分之三位數的連線，基本符合正態分布

在這里插入圖片描述

KS檢驗，理論推導

使用K-S檢驗一個數列是否服從正態分布、兩個數列是否服從相同的分布
https://www.cnblogs.com/chaosimple/p/4090456.html

在這里插入圖片描述
使用K-S檢驗一個數列是否服從正態分布、兩個數列是否服從相同的分布
data = [87,77,92,68,80,78,84,77,81,80,80,77,92,86,
76,80,81,75,77,72,81,72,84,86,80,68,77,87,
76,77,78,92,75,80,78]
# 樣本數據，35位健康男性在未進食之前的血糖濃度

df = pd.DataFrame(data, columns =['value'])
u = df['value'].mean()
std = df['value'].std()
print("樣本均值為：%.2f，樣本標准差為：%.2f" % (u,std))
print('------')
# 查看數據基本統計量

s = df['value'].value_counts().sort_index()
df_s = pd.DataFrame({'血糖濃度':s.index,'次數':s.values})
# 創建頻率數據

df_s['累計次數'] = df_s['次數'].cumsum()
df_s['累計頻率'] = df_s['累計次數'] / len(data)

# len(data)

df_s['標准化取值'] = (df_s['血糖濃度'] - u) / std
df_s['理論分布'] =[0.0244,0.0968,0.2148,0.2643,0.3228,0.3859,0.5160,0.5832,0.7611,0.8531,0.8888,0.9803]  # 通過查閱正太分布表
df_s['D'] = np.abs(df_s['累計頻率'] - df_s['理論分布'])
dmax = df_s['D'].max()
print("實際觀測D值為：%.4f" % dmax)
# D值序列計算結果表格

df_s['累計頻率'].plot(style = '--k.')
df_s['理論分布'].plot(style = '--r.')
plt.legend(loc = 'upper left')
plt.grid()
# 密度圖表示

df_s

在這里插入圖片描述
下面是正態分布表和顯著性對照表

因為樣本數為35，大於30且小於50，所以p值在這個區間

另外的，由於D值為0.1597. 大於0.158，小於0.197，且樣本數量接近於30.所以我們可以認為P值的取值區間在0.20 - 0.40

滿足p > 0.5的情況，所以服從正態分布。

直接用算法做KS檢驗

from scipy import stats
# scipy包是一個高級的科學計算庫，它和Numpy聯系很密切，Scipy一般都是操控Numpy數組來進行科學計算

data = [87,77,92,68,80,78,84,77,81,80,80,77,92,86,
       76,80,81,75,77,72,81,72,84,86,80,68,77,87,
       76,77,78,92,75,80,78]
# 樣本數據，35位健康男性在未進食之前的血糖濃度

df = pd.DataFrame(data, columns =['value'])
u = df['value'].mean()  # 計算均值
std = df['value'].std()  # 計算標准差
stats.kstest(df['value'], 'norm', (u, std))
# .kstest方法：KS檢驗，參數分別是：待檢驗的數據，檢驗方法（這里設置成norm正態分布），均值與標准差
# 結果返回兩個值：statistic → D值，pvalue → P值
# p值大於0.05，為正態分布

在這里插入圖片描述
此時，pvalue > 0.05，不拒絕原假設。因此上面的數據服從正態分布。且一般情況下， stats.kstest(df[‘value’], ‘norm’, (u, std))一條語句就得到p值的結果。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python_數據分析_正態分布 python數據分析之數據分布談談統計學正態分布閾值原理在數據分析工作中的運用 Tests for normality正態分布檢驗（python代碼實現）一、獨立樣本T檢驗--python數據分析--兩種玉米產量是否有差距？ python數據分析之線性回歸，各種檢驗和解決方法！使用python 批量配對t檢驗醫學基礎研究數據分析 Harris角點檢測及數據分析-python實現 python 招聘數據分析數據分析——作圖（Python）