概述
df.info():主要介紹數據集各列的數據類型,是否為空值,內存占用情況;
df.describe(): 主要介紹數據集各列的數據統計情況(最大值、最小值、標准偏差、分位數等等)。
df.info()
#導入數據 data1=pd.read_csv(r'E:\data_analysis\AB測試的假設檢驗實現\支付寶營銷策略AB測試\effect_tb.csv',header=None,names=['dt','user_id','label','dmp_id']) data1.head()
#null_counts=True 表示統計非空值數據的數量,1.2.0版本開始該參數改為show_counts data1.info(null_counts = True)
df.describe()
參數詳解:
percentiles:輸出數據統計情況中的百分位數,默認為[0.25,0.5,0.75],即上四分位數、中位數、下四分位數;
include: 'all'為數據集中的所有列;None(默認)為數據集中所有的數據列(不包括字符串);一個列表,指定相應列。
exclude: 排除哪些列,不顯示其統計狀況。;
datetime_is_numeric:布爾值,默認為False。是否將datetime格式的時間數據轉化為數字(這里我還沒用到,用到的時候再補吧)
data1.describe()