#回归分析和基于模拟的分析 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from numpy import random from pandas import Series,DataFrame from scipy import stats tips=pd.read_csv('tips.csv') tips['tips_pct']=tips['tip']/tips['total_bill'] # #可视化分析变量之间的关系,变量类别多,挨个分析麻烦,可以用seaborn # sns.set() # sns.pairplot(tips,hue='day') # plt.show() # #用day来区分颜色 # sns.pairplot(tips,hue='smoker') # plt.show() # #也可以用是否吸烟来区分颜色 ''' 1.通过回归分析,确定变量的关系,即模型 2.理解线性回归的原理,输出的含义 3.掌握如何评价和选择回归模型 4.掌握基于重抽样(模拟)的分析方法:置换检验和自助法 ''' #做线性回归 np.random.seed(12345678) x=np.random.random(10) y=np.random.random(10) slope,intercept,r,p,std_err=stats.linregress(x,y) print(stats.linregress(x,y)) #LinregressResult(slope=0.3448642607472153, intercept=0.2685782352454486, rvalue=0.2835529378070845, pvalue=0.4272394264684026, stderr=0.41235189090280017) #slope斜率,intercept截距 fig,ax=plt.subplots(1,1,figsize=(8,6)) ax.plot(x,y,'o') ax.plot(x,intercept+x*slope) plt.show()