數據特征分析包括以下幾個方面的內容:
1、分布分析
a、定量數據分布分析:繪制頻率直方分布圖
b、定性數據分布分析:根據變量的分類類型分組,繪制餅圖和條形圖來描述分布
2、對比分析
a、絕對數對比
b、相對數對比(如結構相對數、比例相對數)
3、統計量分析
a、集中趨勢度量:均值、中位數、眾數
b、離中趨勢度量:極差、標准差、變異系數(標准差/均值)、四分位數間距
、
4、周期性分析:帕累托法則(即為二八法則)
5、相關性分析(連續變量之間線性相關的程度)
a、繪制散點圖、繪制散點圖矩陣
b、計算相關系數(皮爾森相關系數、斯皮爾曼秩相關系數、判定系數)
可以從上面的代碼中,計算出任意兩款菜式的相關系數。可以看出,pandas的corr()函數用來計算皮爾森是非常方便的。D.corr(method='pearson')可以計算方法,默認是皮爾森,還支持Kendall、spearman相關系數。