[數據清洗]-Pandas 清洗“臟”數據（一）

本文轉載自查看原文 2018-01-03 08:17 13555 pandas/ 數據清洗

概要

准備工作
檢查數據
處理缺失數據
添加默認值
刪除不完整的行
刪除不完整的列
規范化數據類型
必要的轉換
重命名列名
保存結果
更多資源

Pandas 是 Python 中很流行的類庫，使用它可以進行數據科學計算和數據分。他可以聯合其他數據科學計算工具一塊兒使用，比如，SciPy，NumPy 和 Matplotlib，建模工程師可以通過創建端到端的分析工作流來解決業務問題。

雖然我們可以 Python 和數據分析做很多強大的事情，但是我們的分析結果的好壞依賴於數據的好壞。很多數據集存在數據缺失，或數據格式不統一（畸形數據），或錯誤數據的情況。不管是不完善的報表，還是技術處理數據的失當都會不可避免的引起“臟”數據。

慶幸的是，Pandas 提供功能強大的類庫，不管數據處於什么狀態，他可以幫助我們通過清洗數據，排序數據，最后得到清晰明了的數據。對於案例的數據，准備使用 movie_metadata.csv(鏈接：https://pan.baidu.com/s/1i5zUvOD 密碼：a4t9)。這個數據集包含了很多信息，演員、導演、預算、總輸入，以及 IMDB 評分和上映時間。實際上，可以使用上百萬或者更大的數據庫，但是，案例數據集對於開始入門還是很好的。

不幸的是，有一些列的值是缺失的，有些列的默認值是0，有的是 NaN（Not a Number）。

下面我們通過使用 Pandas 提供的功能來清洗“臟”數據。

准備工作

首先，第一次使用 Pandas 之前，我們需要安裝 Pandas。安裝命令如下：

pip install pandas

接下來，導入 Pandas 到我們的代碼中，代碼如下：

#可以使用其他的別名， 但是，pd 是官方推薦的別名，也是大家習慣的別名
import pandas as pd

最后，加載數據集，代碼如下：

data = pd.read_csv('../data/tmdb_5000_credits.csv')

注意，確保已經下載數據集，如果你的代碼和數據集的存放結構與我的一樣，直接運行就可以

否則，要根據實際的情況，修改 read_csv() 的文件路徑

檢查數據

檢查一下我們剛剛讀入數據的基本結構，Pandas 提供了 head() 方法打印輸出前五行數據。目的是讓我們對讀入的數據有一個大致的了解。

data.head()

我們可以通過上面介紹的 Pandas 的方法查看數據，也可以通過傳統的 Excel 程序查看數據，這個時候，我們可以開始記錄數據上的問題，然后，我們再想辦法解決問題。

Pandas 提供了一些選擇的方法，這些選擇的方法可以把數據切片，也可以把數據切塊。下面我們簡單介紹一下：

查看一列的一些基本統計信息：data.columnname.describe()
選擇一列：data['columnname']
選擇一列的前幾行數據：data['columnsname'][:n]
選擇多列：data[['column1','column2']]
Where 條件過濾：data[data['columnname'] > condition]

處理缺失數據

缺失數據是最常見的問題之一。產生這個問題可能的原因

從來沒有填正確過
數據不可用
計算錯誤

無論什么原因，只要有空白值得存在，就會引起后續的數據分析的錯誤。下面介紹幾個處理缺失數據的方法：

為缺失數據賦值默認值
去掉/刪除缺失數據行
去掉/刪除缺失率高的列

添加默認值

我們應該去掉那些不友好的 NaN 值。但是，我們應該用什么值替換呢？在這里，我們就應該稍微掌握一下數據。對於我們的例子，我們檢查一下“country”列。這一列非常簡單，然而有一些電影沒有提供地區，所以有些數據的值是 NaN。在我們的案例中，我們推斷地區並不是很重要，所以，我們可是使用“”空字符串或其他默認值。

data.country= data.country.fillna('')

上面，我們就將“country”整個列使用“”空字符串替換了，或者，我們也可以輕易地使用“None Given”這樣的默認值進行替換。如果想了解更多 fillna() 的詳細信息參考 pandas.DataFrame.fillna。

使用數字類型的數據，比如，電影的時長，計算像電影平均時長可以幫我們甚至是數據集。這並不是最優解，但這個持續時間是根據其他數據估算出來的。這樣的方式下，就不會因為像 0 或者 NaN這樣的值在我們分析的時候而拋錯。

data.duration = data.duration.fillna(data.duration.mean())

刪除不完整的行

假設我們想刪除任何有缺失值得行。這種操作太據侵略性，但是我們可以根據我們的需要進行擴展。

刪除任何包含 NA 值的行是很容的：

data.dropna()

當然，我們也可以刪除一整行的值都為 NA：

data.dropna(how='all')

我們也可以增加一些限制，在一行中有多少非空值的數據是可以保留下來的（在下面的例子中，行數據中至少要有 5 個非空值）

data.drop(thresh=5)

比如說，我們不想要不知道電影上映時間的數據：

data.dropna(subset=['title_year'])

上面的 subset 參數允許我們選擇想要檢查的列。如果是多個列，可以使用列名的 list 作為參數。

刪除不完整的列

我們可以上面的操作應用到列上。我們僅僅需要在代碼上使用 axis=1 參數。這個意思就是操作列而不是行。（我們已經在行的例子中使用了 axis=0，因為如果我們不傳參數 axis，默認是axis=0。）

刪除一正列為 NA 的列：

data.drop(axis=1, how='all')

刪除任何包含空值的列：

data.drop(axis=1. how='any')

這里也可以使用像上面一樣的 threshold 和 subset，更多的詳情和案例，請參考pandas.DataFrame.dropna。

規范化數據類型

有的時候，尤其當我們讀取 csv 中一串數字的時候，有的時候數值類型的數字被讀成字符串的數字，或將字符串的數字讀成數據值類型的數字。Pandas 還是提供了規范化我們數據類型的方式：

data = pd.read_csv('../data/moive_metadata.csv', dtype={'duration': int})

這就是告訴 Pandas ‘duration’列的類型是數值類型。同樣的，如果想把上映年讀成字符串而不是數值類型，我們使用和上面類似的方法：

data = pd.read_csv('./data/moive_metadata.csv', dtype={'title_year':str})

注意，需要記住的是，再次從磁盤上讀取 csv ，確保規范化了我們的數據類型，或者在讀取之前已經保存了中間結果。

必要的變換

人工錄入的數據可能都需要進行一些必要的變換。

錯別字
英文單詞時大小寫的不統一
輸入了額外的空格

將我們數據中所有的 movie_title 改成大寫：

data['movie_title'].str.upper()

同樣的，干掉末尾空格：

data['movie_title'].str.strip()

這里並沒有介紹關於英文的拼寫錯誤的問題，可以參考模糊匹配。

重命名列名

最終的數據可能是有計算機生成的，那么，列名有可能也是計算機按照一定計算規律生成的。這些列名對計算機沒有什么，但是對於人來說可能就不夠友好，這時候，我們就需要重命名成對人友好的列名，代碼如下：

data,rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})

像上面這樣，我們就完成了兩個列的重命名。需要注意的是，這個方法並沒有提供 inpalce 參數，我們需要將結果賦值給自己才可以：

data = data.rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})

保存結果

我們完成數據清洗之后，一般會把結果再以 csv 的格式保存下來，以便后續其他程序的處理。同樣，Pandas 提供了非常易用的方法：

data.to_csv(‘cleanfile.csv’ encoding=’utf-8’)