目錄:
一、數據預處理:
數據審核
篩選
排序
二、品質數據的整理與展示:
分類數據的整理與展示
順序數據的分類與展示
三、數值型數據的整理與展示:
數據分組
數據展示
一、數據預處理:
數據的預處理的涵蓋范圍很廣泛,涉及到數據相關行業的工作內容都離不開預處理,不管是做機器學習還是需要做業務相關分析,數據預處理的效果好壞也代表了機器學習結果或業務分析的准確性。
1、數據審核
檢查數據中的錯誤與異常是審核的主要內容。通過反復檢查數據是否遺漏空缺,是否存在錯誤、異常,是否適用於項目場景,是否具有時效性等來核對數據源。
(數據異常並不一定代表該數據值為非法,異常值可能為錯誤值時應當篩出,異常值為正確值時應當保留)
2、數據篩選
根據需求找出符合條件的數據,如下python實現:
1 #篩選行 2 data.loc[:,['A']] #取'A'列所有行 3 4 data.iloc[:,[0]] #取第0列所有行 5 6 df[1:4]#使用切片操作選擇特定的行 7 8 9 #篩選列 10 df[['a','c']]#傳入列名選擇特定的列 11 12 13 14 #篩選值 15 data.loc[['a','b'],['A','B']] #提取index為'a','b',列名為'A','B'中的數據 16 data.iloc[[0,1],[0,1]] #提取第0、1行,第0、1列中的數據 17 18 #條件篩選 19 data[data.A==100]#找出df中A列值為100的所有數據 20 21 num = [100, 200, 300] 22 df[df.A.isin(num)] #篩選出A列值在num列表的數據條 23 24 data.loc[data['A']==0] #提取data數據(篩選條件: A列中數字為0所在的行數據) 25 26 data.loc[(data['A']==0)&(data['B']==2)] #提取data數據(多個篩選條件) 27 28 data[(data['A'].isin([0]))&(data['B'].isin([2]))] #isin函數
3、數據排序
python中有sort函數用於數據排序
二、品質數據的整理與展示:
1、分類數據的整理與展示
分類數據本身是對事物的一種分類。類似頻數分布:是落在某一特定類別或組中的數據個數,把各類別及落在其中的相應頻數全部列出並用表格展示稱為頻數分布。方法如數據透視(pandas中有相應函數方法)、直方圖(matplotlib中有相應方法hist)等。
對於定性的數據,除了可以使用頻數分布進行描述,也可以使用比例、百分比、比率等統計量進行描述。
數據展示可如下集中圖形:
條形圖:
帕累托圖:rcParams方法
餅圖:pie方法
環形圖:使用python可實現代碼略
2、順序數據的分類與展示
上述分類數據展示有些情況下也可以用於順序數據,除此之外還可以利用累計頻數、累計頻率來展示。
三、數值型數據的整理與展示:
1、數據分組:
根據需求將數據按照相應標准分成不同的組別。
步驟:1、確定組數;2、確定組距;3、根據分組編制頻數分布表(采取組距分組需遵循“不重不漏”原則,上組限不在內結局不重問題)
組中值:組距分組掩蓋了各組數據分布情況,組中值用來反應各組數據的一般水平。即(上限值+下限值)/2。
2、數據展示:(繪制圖形均可使用python庫,代碼略)
分組數據:直方圖
未分組數據:莖葉圖、箱線圖
時間序列數據:線圖
多變量數據:散點圖、氣泡圖、雷達圖
這一篇簡單介紹數據展示的方法,具體代碼實現抽時間寫一篇matplotlib的
純屬個人筆記。