快速數據分析工具:pandas-profiling,超好用!


小編最近發現一個好用的工具, pandas-profiling,對於做數據分析的朋友們來說,這可是個好工具,它可以以網頁的形式展現給你數據總體概況

 在pandas中 df.describe() 是比較基礎的探索性數據分析函數,而pandas_profiling則是在DataFrame的基礎上擴展,用於快速數據分析。

對於DataFrame中的每一列,和類別有關的指標都會以交互式的網頁展現出來

  • Essentials: type, unique values, missing values
  • (概要:類型,唯一值,缺失值)
  • Quantile statistics like minimum value, Q1, median, Q3, maximum, range, interquartile range
  • (分位數統計:像最小值,Q1,中位數,Q3, ,最大值,值域,四分位距)
  • Descriptive statistics like mean, mode, standard deviation, sum, median absolute deviation, coefficient of variation, kurtosis, skewness
  • (描述性統計:像均值,眾數,標准差,和,絕對中位差,變異系數,峰值,偏度系數)
  • Most frequent values
  • (最頻繁出現的值)
  • Histogram
  • (直方圖/柱狀圖)
  • Correlations highlighting of highly correlated variables, Spearman, Pearson and Kendall matrices
  • (相關性,突出強相關的變量,Spearman, Pearson 和Kendall模型)
  • Missing values matrix, count, heatmap and dendrogram of missing values
  • (缺失值矩陣,計數,熱圖和缺失值的樹狀圖)

 

首先,下載 pandas-profiling

pip install pandas-profiling
conda install -c anaconda pandas-profiling

也可以從github中下載

pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

接着,導入及應用

分析器(profiling)接收的數據類型為DataFrame

import pandas as pd
import pandas_profiling
data = pd.read_excel("")
profile = pandas_profiling.ProfileReport(data,title = "",pool_size = 3,minify_html = True)
profile.to_file(output_file="") 輸出為html文件
profile.to_html() 輸出為html源碼

分析器的設置有:titile,線程池的個數(cpu),html是否要最小化,還有其他設置,可以參考:官方文檔

生成報告文件之后,打開報告文件,你就可以看到關於這四個部分的內容

  綜述:包括數據量,數據類型,很貼心的還有warning,提醒你變量中零值占比和變量相關性

  變量:將每個變量的去重后計數,缺失個數,缺失占比,均值,最大最小值,零值占比,右邊還有個柱狀圖顯示數據分布,點擊右下角的展示細節,會有更加詳細的分位數統計和描述性統計,極值前5展示,柱狀圖,

     有意思的是,強相關的變量,會只展示其中一個變量。你會看到那一欄會灰色,它告訴你,這個變量和XX變量強相關

  

  相關性:是以一個熱圖來展示,發現這里不太兼容中文

       

       缺失值:是以兩個柱狀圖來展現

       

  樣本:展現出前后10行的的樣本

  

 

  小編覺得pandas-profiling還挺好用的,源碼還是python寫的,簡單易懂,想修改點功能還能自己改源碼。快去試試吧,看過點個贊或推薦哦。

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM