數據特征分析(學習筆記)


    數據特征分析包括以下幾個方面的內容:

    1、分布分析

      a、定量數據分布分析:繪制頻率直方分布圖

      b、定性數據分布分析:根據變量的分類類型分組,繪制餅圖和條形圖來描述分布

    2、對比分析

      a、絕對數對比

      b、相對數對比(如結構相對數、比例相對數)

    3、統計量分析

      a、集中趨勢度量:均值、中位數、眾數

      b、離中趨勢度量:極差、標准差、變異系數(標准差/均值)、四分位數間距

 

    

 

    4、周期性分析:帕累托法則(即為二八法則)

    5、相關性分析(連續變量之間線性相關的程度)

      a、繪制散點圖、繪制散點圖矩陣

      b、計算相關系數(皮爾森相關系數、斯皮爾曼秩相關系數、判定系數)

 

    

 

    可以從上面的代碼中,計算出任意兩款菜式的相關系數。可以看出,pandas的corr()函數用來計算皮爾森是非常方便的。D.corr(method='pearson')可以計算方法,默認是皮爾森,還支持Kendall、spearman相關系數。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM