大數據處理入門基礎之python

本文轉載自查看原文 2019-04-30 21:36 1365

【數據整理】
數據整理是在分析，可視化和在使用機器學習建立預測模型之前，進行數據收集，數據評估和數據整理的過程
【數據收集】
方法：1、從網上直接下載數據源；2、用編程方法下載數據源；3、使用手頭的文件
【數據評估】
評估我們的數據，已確定哪些是干凈的數據，以及一旦丟失哪些數據，我們還需要收集哪些數據。確保我們的數據形式，能讓后續分析更輕松一點，更注重這方便一些。

數據評估主要是評估數據的質量和完整度。
數據質量問題：1、數據丟失；2、數據無效；3、數據不准確；4、數據不一致，單位不同
數據整潔度標准：1、每個變量構成一列；2、每個觀察結果構成一行；3、每種類型的觀察單位構成一個表格。

評估的方法：目測評估（小樣本）、編程評估
使用.head顯示DataFrame前5行
使用.tail顯示DataFrame最后5行
顯示.info顯示DataFrame基本摘要
使用.value_counts顯示年份一欄的輸入數
df.Year.value_counts()，value_counts是用於series，不能用於dataframe.
【數據清洗】
編程數據清理過程分為3步：定義，代碼，練習
定義：指以書面形式定義數據清洗計划，其中我們需將評估轉變為定義的清洗任務。這個計划也可作為一個知道清單，所以其他人（或我們自己將來）也可以回顧和重現自己的工作。
編碼：指將這些定義轉換為代碼並執行該代碼。
練習：指練習我們的數據集，通常使用代碼，以確保有效完成我們的清洗工作。

在清洗之前先准備副本
df_clean = df.copy()
1
重命名列標題
df_clean = df_clean.rename(columns = {'oldname1':'newname1',
'oldname2':'newname2'})
1
2
內容不一致問題
df_clean = pandas.series.replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method='pad',axis=None)
* 用"value"或第二個參數替換“to_replace”中給出的值-即第一個參數
* inplace的默認值為假，我們要將它轉換成True.inplace真值是指我們只能在這里寫這行代碼，並執行這行代碼，它所產生的變化將反應在df_clean中，如果這里沒有inplace真值，我們就必須將次函數的結果重新賦給Startdate列

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark（一）—— 大數據處理入門 Python大數據處理案例 0基礎搭建Hadoop大數據處理-初識 0基礎搭建Hadoop大數據處理-編程 Python大數據分析之數據處理 Python大數據處理模塊Pandas python大數據處理模塊pandas javascript 大數據處理方法 2大數據處理架構Hadoop 大數據處理流程