概述
df.info():主要介绍数据集各列的数据类型,是否为空值,内存占用情况;
df.describe(): 主要介绍数据集各列的数据统计情况(最大值、最小值、标准偏差、分位数等等)。
df.info()
#导入数据 data1=pd.read_csv(r'E:\data_analysis\AB测试的假设检验实现\支付宝营销策略AB测试\effect_tb.csv',header=None,names=['dt','user_id','label','dmp_id']) data1.head()
#null_counts=True 表示统计非空值数据的数量,1.2.0版本开始该参数改为show_counts data1.info(null_counts = True)
df.describe()
参数详解:
percentiles:输出数据统计情况中的百分位数,默认为[0.25,0.5,0.75],即上四分位数、中位数、下四分位数;
include: 'all'为数据集中的所有列;None(默认)为数据集中所有的数据列(不包括字符串);一个列表,指定相应列。
exclude: 排除哪些列,不显示其统计状况。;
datetime_is_numeric:布尔值,默认为False。是否将datetime格式的时间数据转化为数字(这里我还没用到,用到的时候再补吧)
data1.describe()