大數據處理入門基礎之python


【數據整理】
數據整理是在分析,可視化和在使用機器學習建立預測模型之前,進行數據收集,數據評估和數據整理的過程
【數據收集】
方法:1、從網上直接下載數據源;2、用編程方法下載數據源;3、使用手頭的文件
【數據評估】
評估我們的數據,已確定哪些是干凈的數據,以及一旦丟失哪些數據,我們還需要收集哪些數據。確保我們的數據形式,能讓后續分析更輕松一點,更注重這方便一些。

數據評估主要是評估數據的質量和完整度。
數據質量問題:1、數據丟失;2、數據無效;3、數據不准確;4、數據不一致,單位不同
數據整潔度標准:1、每個變量構成一列;2、每個觀察結果構成一行;3、每種類型的觀察單位構成一個表格。

評估的方法:目測評估(小樣本)、編程評估
使用.head顯示DataFrame前5行
使用.tail顯示DataFrame最后5行
顯示.info顯示DataFrame基本摘要
使用.value_counts顯示年份一欄的輸入數
df.Year.value_counts(),value_counts是用於series,不能用於dataframe.
【數據清洗】
編程數據清理過程分為3步:定義,代碼,練習
定義:指以書面形式定義數據清洗計划,其中我們需將評估轉變為定義的清洗任務。這個計划也可作為一個知道清單,所以其他人(或我們自己將來)也可以回顧和重現自己的工作。
編碼:指將這些定義轉換為代碼並執行該代碼。
練習:指練習我們的數據集,通常使用代碼,以確保有效完成我們的清洗工作。

在清洗之前先准備副本
df_clean = df.copy()
1
重命名列標題
df_clean = df_clean.rename(columns = {'oldname1':'newname1',
'oldname2':'newname2'})
1
2
內容不一致問題
df_clean = pandas.series.replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method='pad',axis=None)
* 用"value"或第二個參數替換“to_replace”中給出的值-即第一個參數
* inplace的默認值為假,我們要將它轉換成True.inplace真值是指我們只能在這里寫這行代碼,並執行這行代碼,它所產生的變化將反應在df_clean中,如果這里沒有inplace真值,我們就必須將次函數的結果重新賦給Startdate列


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM