預備知識-python核心用法常用數據分析庫

本文轉載自查看原文 2021-10-28 22:20 274 python/ 數據分析/ 數據清洗

1、預備知識-python核心用法常用數據分析庫（上）

1、預備知識-python核心用法常用數據分析庫（上）

概述

Python 是當今世界最熱門的編程語言，而它最大的應用領域之一就是數據分析。在python眾多數據分析工具中，pandas是python中非常常用的數據分析庫，在數據分析，機器學習，深度學習等領域經常被使用。使用 Pandas 我們可以 Excel/CSV/TXT/MySQL 等數據讀取，然后進行各種清洗、過濾、透視、聚合分析，也可以直接繪制折線圖、餅圖等數據分析圖表，在功能上它能夠實現自動化的對大文件處理，能夠實現 Excel 的幾乎所有功能並且更加強大。

本實驗將通過實戰的方式，介紹pandas數據分析庫的基本使用，讓大家在短時間內快速掌握python的數據分析庫pandas的使用，為后續項目編碼做知識儲備

實驗環境

Python 3.7
PyCharm

任務一：環境安裝與配置

【實驗目標】

本實驗主要目標為在Windows操作系統中，完成本次實驗的環境配置任務，本實驗需要的軟件為PyCharm+Python 3.7

【實驗步驟】

1、安裝Python 3.7

2、安裝Pycharm

3、安裝jupyter、pandas、numpy、notebook

打開CMD，並輸入以下命令，安裝jupyter、notebook、pandas和numpy

pip install jupyter notebook pandas numpy

安裝完成后會有類似如下文字提示：

以上步驟完成后，實驗環境配置工作即已完成，關閉CMD窗口

任務二：Pandas數據分析實戰

【任務目標】

本任務主要目標為使用pandas進行數據分析實戰，在實戰過程中帶大家了解pandas模塊的一下功能：

准備工作
檢查數據
處理缺失數據
添加默認值
刪除不完整的行
刪除不完整的列
規范化數據類型
重命名列名
保存結果

【任務步驟】

1、打開CMD，執行如下命令，開啟jupyter

jupyter notebook

成功執行以上命令后，系統將自動打開默認瀏覽器，如下圖所示：

成功打開瀏覽器后，按如下流程創建 notebook 文件

對新建notebook進行重命名操作

2、notebook 文件新建完成后，接下來在新建的 notebook 中編寫代碼

導入 Pandas 到我們的代碼中，代碼如下

import pandas as pd

小提示：輸入完成代碼后，按下【Shift + Enter】組合鍵即可運行該單元格中的代碼，后面輸入完每個單元格的代碼后都需要進行類似操作，代碼才會運行

加載數據集，代碼如下:

data = pd.read_csv('./data/movie_metadata.csv')

3、檢查數據

查看數據集前5行

data.head()

運行結果如下圖所示：

我們可以通過上面介紹的 Pandas 的方法查看數據，也可以通過傳統的 Excel 程序查看數據

Pandas 提供了一些選擇的方法，這些選擇的方法可以把數據切片，也可以把數據切塊。下面我們簡單介紹一下：

查看一列的一些基本統計信息：data.columnname.describe()
選擇一列：data['columnname']
選擇一列的前幾行數據：data['columnsname'][:n]
選擇多列：data[['column1','column2']]
Where 條件過濾：data[data['columnname'],condition]

4、處理缺失數據

缺失數據是最常見的問題之一。產生這個問題有以下原因：

從來沒有填正確過
數據不可用
計算錯誤

無論什么原因，只要有空白值得存在，就會引起后續的數據分析的錯誤。下面介紹幾個處理缺失數據的方法：

為缺失數據賦值默認值
去掉/刪除缺失數據行
去掉/刪除缺失率高的列

4.1、添加默認值

使用空字符串來填充country字段的空值

data.country= data.country.fillna('')

使用均值來填充電影時長字段的空值

data.duration = data.duration.fillna(data.duration.mean())

4.2、刪除不完整的行

data.dropna()

運行結果如下（由於輸出內容給較多，結果中省略了中間部分數據，只顯示開頭和結尾部分）：

由上圖可以看出，由於第4行數據存在缺失值，因此被刪除

提示：dropna操作並不會在原始數據上做修改，它修改的是相當於原始數據的一個備份，因此原始數據還是沒有變

刪除一整行的值都為 NA：

data.dropna(how='all')

運行結果如下：

從上圖可知，由於限定條件為：刪除一整行都為NA的數據，因此不滿足此條件的數據行還是會被保留

我們也可以增加一些限制，在一行中有多少非空值的數據是可以保留下來的（在下面的代碼中，行數據中至少要有 5 個非空值）

data.dropna(thresh=5)

運行結果如下：

也可指定需要刪除缺失值的列

我們以 title_year 這一列為例，首先查看 title_year 這一列中存在的缺失值：

data['title_year'].isnull().value_counts()

結果如下：

由上圖可知，title_year 這一列中存在108個缺失值

接下來查看 title_year 刪除完缺失值后的情況

new_data = data.dropna(subset=['title_year'])
new_data['title_year'].isnull().value_counts()

上面的 subset 參數允許我們選擇想要檢查的列。如果是多個列，可以使用列名的 list 作為參數。

運行結果如下：

4.3、刪除不完整的列

我們可以上面的操作應用到列上。我們僅僅需要在代碼上使用 axis=1 參數。這個意思就是操作列而不是行。（我們已經在行的例子中使用了 axis=0，因為如果我們不傳參數 axis，默認是axis=0）

刪除一整列為 NA 的列：

data.dropna(axis=1, how='all')

運行結果如下：

刪除任何包含空值的列：

data.dropna(axis=1,how='any')

這里也可以使用像上面一樣的 threshold 和 subset

5、規范化數據類型

加載數據集時指定字段數據類型

data = pd.read_csv('./data/movie_metadata.csv', dtype={'title_year':str})

這就是告訴 Pandas ‘duration’列的類型是數值類型。查看加載后各數據列的類型

data.info()

運行結果如下：

object 即代表數據類型為字符串類型

6、必要的變換

人工錄入的數據可能都需要進行一些必要的變換，例如：

錯別字
英文單詞時大小寫的不統一
輸入了額外的空格

首先查看 movie_title 列數據

data.movie_title

結果如下：

我們數據中所有的 movie_title 改成大寫：

data['movie_title'].str.upper()

結果如下：

同樣的，我們可以去掉末尾余的空格：

data['movie_title'].str.strip()

運行結果如下：

7、重命名列名

我們需要進行重新賦值才可以：

data = data.rename(columns={'title_year':'release_date',                            'movie_facebook_likes':'facebook_likes'})

查看重命名后的數據列名稱

data.info()

輸出結果如下：

8、保存結果

完成數據清洗之后，一般會把結果再以 csv 的格式保存下來，以便后續其他程序的處理。同樣，Pandas 提供了非常易用的方法：

data.to_csv('./data/cleanfile.csv',encoding='utf-8')

查看 /home/student/data 目錄內容如下，新增保存的 cleanfile.csv 文件

1587976871858-image-20200414161908697

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 預備知識-python核心用法常用數據分析庫（下）五個 Python 常用數據分析庫 Python數據分析入門（十五）：Matplotlib庫的基本用法 Python數據分析常用的庫總結 python數據分析中常用的庫 python數據分析五個最常用庫 python科學計算和數據分析常用庫數據分析python常用的類庫 python數據分析panda庫 Python數據分析入門（十四）：數據分析中常用圖