小白學 Python 數據分析（7）：Pandas （六）數據導入

本文轉載自查看原文 2020-02-24 10:04 703 Python 數據分析/ Python

人生苦短，我用 Python

前文傳送門：

小白學 Python 數據分析（1）：數據分析基礎

小白學 Python 數據分析（2）：Pandas （一）概述

小白學 Python 數據分析（3）：Pandas （二）數據結構 Series

小白學 Python 數據分析（4）：Pandas （三）數據結構 DataFrame

小白學 Python 數據分析（5）：Pandas （四）基礎操作（1）查看數據

小白學 Python 數據分析（6）：Pandas （五）基礎操作（2）數據選擇

引言

前面幾篇我們介紹了 Pandas 的一些基礎操作，有同學在后台給小編留言，純粹的介紹 API 太無聊了，那么，小編這篇就來點有用的東西，希望大家能在以后的工作生活中都用得上。

本篇主要介紹如何將數據導入 Pandas 進行一些簡單的操作。

操作的數據源嘛，就選擇小編對自己博客站數據的抓取，這里小編將自己的博客數據導出成了兩種格式， Excel 和 CSV ，各位同學在平常的工作生活中能接觸的應該也是這兩種格式。

Excel 數據導入

導入 Excel 數據主要使用到的方法是 Pandas 中的 read_excel() 。

在進行導入操作的時候，要注意文件路徑，這里的文件路徑可以使用相對路徑也可以使用絕對路徑，但是不管哪種路徑最基本的是要寫對。

小編先使用相對路徑做個演示：

import pandas as pd

df = pd.read_excel("result_data.xlsx")
print(df)

# 輸出內容
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]

因為小編這里的 Excel 就放在代碼的同級目錄，所以直接寫文件名即可，接下來演示絕對路徑。

由於小編的操作系統是 Windows 的操作系統，文件路徑默認是使用 \ ，如 D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx ，我們在直接使用 Windows 的文件路徑的時候需要在前面增加一個 r （轉義符）避免路徑中的 \ 被轉義，如下：

import pandas as pd
df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx")
print(df)

# 輸出內容
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]

當然，如果不想使用這個轉義符 r 也行，這樣需要修改下文件的路徑，將所有的 \ 變成 / ，這個規則適用於其他所有的文件路徑操作，示例如下：

import pandas as pd
df = pd.read_excel("D:/Development/Projects/python-learning/python-data-analysis/pandas-demo/result_data.xlsx")
print(df)

# 輸出內容
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]

出於使用簡單考慮，小編推薦直接在路徑前面加 r ，剩下的文件路徑直接使用 CV 大法就好。

指定導入 Sheet

我們在使用 Excel 導入的時候，除了可以指定文件路徑，還可以選擇導入的 Sheet ，如果不知道 Sheet 是什么的同學，建議出門左轉。

在設置 Sheet 的時候，我們使用參數 sheet_name 來完成，示例如下：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name='result_data')
print(df)

# 輸出結果
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]

如果我們要使用一個完全不存在的 Sheet 名稱會發生什么事情呢？例如我們將上面的 sheet_name 修改為 aaa ，來看下：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name='aaa')
print(df)

# 輸出結果
Traceback (most recent call last):
  File "C:\Users\inwsy\AppData\Local\Programs\Python\Python37\lib\site-packages\xlrd\book.py", line 474, in sheet_by_name
    sheetx = self._sheet_names.index(sheet_name)
ValueError: 'aaa' is not in list

During handling of the above exception, another exception occurred:

可以看到這里拋出了 ValueError 的異常，並且提示 aaa 不在列表中。

在指定 Sheet 名稱的時候除了可以使用 Sheet 的具體名稱，還可以使用 Sheet 的順序，需要注意這個順序開頭是從 0 開始的。

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0)
print(df)

# 輸出結果
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]

如果這里指定的順序是一個不存在的順序，一樣會拋出異常 IndexError ，這里小編就不做演示了。

指定導入行索引

我們在導入文件的時候，行索引默認是會使用從 0 開始的默認索引，如果對行索引有需求的話，可以使用 index_col 參數來設置行索引。

比如我們現在設置 create_date 這個參數作為行索引，注意參數起始從 0 開始：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, index_col=5)
print(df)

# 輸出結果
                    plantform  read_num  fans_num  rank_num  like_num
create_date                                                          
2019-11-23 23:00:10    cnblog       215         0       118         0
2019-11-23 23:00:03    juejin       177         0        -2         1
2019-11-23 23:00:02      csdn      1652        69         0        24
2019-11-22 23:00:15    cnblog       650         3       191         0
2019-11-22 23:00:02    juejin       272         3       -23         1
...                       ...       ...       ...       ...       ...
2020-02-20 23:00:02    juejin       212         0        -1         2
2020-02-20 23:00:01      csdn      1602         1         0         1
2020-02-21 23:00:05    cnblog        19         0        41         0
2020-02-21 23:00:02    juejin       125         1        -4         0
2020-02-21 23:00:02      csdn      1475         8         0         3

[408 rows x 5 columns]

指定導入列索引

同行索引一樣，默認也是采用源數據的第一行作為列索引，同樣，我們可以通過 header 進行列索引的設置， header 的默認參數為 0 ，也就是第一行，自定義可以使用其他行，將行號作為參數傳入即可，我們演示一下使用第二行作為索引：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, header=1)
print(df)

# 輸出結果
     cnblog   215    0  118  0.1 2019-11-23 23:00:10
0    juejin   177    0   -2    1 2019-11-23 23:00:03
1      csdn  1652   69    0   24 2019-11-23 23:00:02
2    cnblog   650    3  191    0 2019-11-22 23:00:15
3    juejin   272    3  -23    1 2019-11-22 23:00:02
4      csdn  2202  129    0   37 2019-11-22 23:00:01
..      ...   ...  ...  ...  ...                 ...
402  juejin   212    0   -1    2 2020-02-20 23:00:02
403    csdn  1602    1    0    1 2020-02-20 23:00:01
404  cnblog    19    0   41    0 2020-02-21 23:00:05
405  juejin   125    1   -4    0 2020-02-21 23:00:02
406    csdn  1475    8    0    3 2020-02-21 23:00:02

[407 rows x 6 columns]

指定導入行數

有時候，如果我們只需要了解一下這個文件中有些什么數據，那么我們就不需要導入所有的數據，可以使用 nrows 來指定導入的行數，這里我們選擇導入 Excel 的前 100 行：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, nrows=100)
print(df)

# 輸出結果
   plantform  read_num  fans_num  rank_num  like_num         create_date
0     cnblog       215         0       118         0 2019-11-23 23:00:10
1     juejin       177         0        -2         1 2019-11-23 23:00:03
2       csdn      1652        69         0        24 2019-11-23 23:00:02
3     cnblog       650         3       191         0 2019-11-22 23:00:15
4     juejin       272         3       -23         1 2019-11-22 23:00:02
..       ...       ...       ...       ...       ...                 ...
95      csdn      1492        88         0        13 2019-10-23 23:51:37
96    cnblog      1338         2       219         0 2019-10-22 23:33:33
97    juejin       204         1        -6         6 2019-10-22 23:18:19
98      csdn      1064        61      7094        18 2019-10-22 23:18:08
99    cnblog      -493         1        69         0 2019-10-21 22:38:32

[100 rows x 6 columns]

從結果的數據統計，可以看到我們成功的導入了前 100 行的數據，雖然行索引只有 99 ，是因為么我們 Excel 的頭也占了一行。

指定導入列

有時候，我們的 Excel 中的列太多了，而我們處理的數據又不需要那么多列的時候，我們可以使用 usecols 來指定我們需要導入的列：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, usecols=[0, 1, 2])
print(df)

# 輸出結果
    plantform  read_num  fans_num
0      cnblog       215         0
1      juejin       177         0
2        csdn      1652        69
3      cnblog       650         3
4      juejin       272         3
..        ...       ...       ...
403    juejin       212         0
404      csdn      1602         1
405    cnblog        19         0
406    juejin       125         1
407      csdn      1475         8

[408 rows x 3 columns]

注意這里的 usecols 的參數是一個數組，表示我們將要導入的列。

CSV 數據導入

前面我們介紹了如何導入 Excel 的數據，我們接着介紹如何導入 CSV 的數據，首先還是使用 read_csv 導入 CSV 的文件：

import pandas as pd

df = pd.read_csv(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.csv")
print(df)

# 輸出結果
    plantform  read_num  fans_num  rank_num  like_num          create_date
0      cnblog       215         0       118         0  23/11/2019 23:00:10
1      juejin       177         0        -2         1  23/11/2019 23:00:03
2        csdn      1652        69         0        24  23/11/2019 23:00:02
3      cnblog       650         3       191         0  22/11/2019 23:00:15
4      juejin       272         3       -23         1  22/11/2019 23:00:02
..        ...       ...       ...       ...       ...                  ...
403    juejin       212         0        -1         2   20/2/2020 23:00:02
404      csdn      1602         1         0         1   20/2/2020 23:00:01
405    cnblog        19         0        41         0   21/2/2020 23:00:05
406    juejin       125         1        -4         0   21/2/2020 23:00:02
407      csdn      1475         8         0         3   21/2/2020 23:00:02

[408 rows x 6 columns]

可以看到，和上面的 Excel 導入的數據保持一致，只是后面的時間日期類型格式化有點區別。

其余的操作和上面介紹的 Excel 是一樣的，這里就不一一列舉了，有一個需要注意的點是，編碼格式的指定，這時我們需要設置 encoding 參數，如果不做設置，那么默認的指定格式是 utf-8 的，因為常用的格式除了 utf-8 還會有 gbk 、 gb2312 等等。

import pandas as pd

# 指定編碼格式
df = pd.read_csv(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.csv", encoding='utf-8')
print(df)

# 輸出結果
    plantform  read_num  fans_num  rank_num  like_num          create_date
0      cnblog       215         0       118         0  23/11/2019 23:00:10
1      juejin       177         0        -2         1  23/11/2019 23:00:03
2        csdn      1652        69         0        24  23/11/2019 23:00:02
3      cnblog       650         3       191         0  22/11/2019 23:00:15
4      juejin       272         3       -23         1  22/11/2019 23:00:02
..        ...       ...       ...       ...       ...                  ...
403    juejin       212         0        -1         2   20/2/2020 23:00:02
404      csdn      1602         1         0         1   20/2/2020 23:00:01
405    cnblog        19         0        41         0   21/2/2020 23:00:05
406    juejin       125         1        -4         0   21/2/2020 23:00:02
407      csdn      1475         8         0         3   21/2/2020 23:00:02

[408 rows x 6 columns]

因為小編這里的編碼格式是 utf-8 ，所以這里對編碼格式的設置是 encoding='utf-8' 。

導入數據庫數據

數據庫有很多種，在連接數據庫的時候需要使用不同的驅動，因為小編這里使用的 MySQL 數據庫，所以使用的驅動為 pymsql ，在使用的事情需要先創建數據庫連接。

import pymysql

con = pymysql.connect(host='',
                         port=,
                         user='',
                         password='',
                         db='',
                         charset='')

這里的參數需要各位自行填寫，用來配置 MySQL 連接的參數。

配置好數據庫連接以后，我們使用的是 read_sql 這個方法直接執行 sql 語句獲取數據，完整的代碼如下：

import pandas as pd
import pymysql

con = pymysql.connect(host='',
                         port=,
                         user='',
                         password='',
                         db='',
                         charset='')

sql = 'select * from result_data'

df = pd.read_sql(sql, con)
print(df)

# 輸出結果
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02
408    cnblog        56         0        33         0 2020-02-22 23:00:06
409    juejin        83         0        -1         0 2020-02-22 23:00:02
410      csdn      2094        10         0         4 2020-02-22 23:00:02

[411 rows x 6 columns]

這里的結果比前面的 Excel 多幾行是因為時間關系，Excel 導出的時間稍微早了一點。

簡單使用

當我們獲取到數據以后，在來幾個我們前面介紹過的簡單操作。

使用 head 預覽前幾行數據：

print(df.head(5))

# 輸出結果
  plantform  read_num  fans_num  rank_num  like_num         create_date
0    cnblog       215         0       118         0 2019-11-23 23:00:10
1    juejin       177         0        -2         1 2019-11-23 23:00:03
2      csdn      1652        69         0        24 2019-11-23 23:00:02
3    cnblog       650         3       191         0 2019-11-22 23:00:15
4    juejin       272         3       -23         1 2019-11-22 23:00:02

獲取數據表的大小，這里使用的是 shape ：

print(df.shape)

# 輸出結果
(411, 6)

獲取數值分布，使用 describe()：

print(df.describe())

# 輸出結果
           read_num    fans_num      rank_num    like_num
count    411.000000  411.000000    411.000000  411.000000
mean     521.199513    9.111922    234.632603    4.347932
std     2899.915738   19.021352   1437.427594    7.829470
min   -54600.000000   -1.000000    -25.000000    0.000000
25%       83.500000    0.000000     -1.000000    0.000000
50%      288.000000    2.000000      0.000000    1.000000
75%      788.000000    7.000000     38.000000    5.000000
max     7083.000000  129.000000  21720.000000   57.000000

本次的分享先到這里了，因為最近都沒寫原創，本篇內容稍微長了點，希望各位同學還是能耐着性子自己寫寫代碼，文章中相關涉及到的文件都上傳代碼倉庫了，有需要的同學可以自行取用。

示例代碼

老規矩，所有的示例代碼都會上傳至代碼管理倉庫 Github 和 Gitee 上，方便大家取用。

示例代碼-Github

示例代碼-Gitee

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 小白學 Python 數據分析（12）：Pandas （十一）數據透視表（pivot_table）小白學 Python 數據分析（5）：Pandas （四）基礎操作（1）查看數據小白學 Python 數據分析（20）：pyecharts 概述小白學 Python 數據分析（1）：數據分析基礎 Python數據分析庫之pandas，你該這么學！No.1 【Python 數據分析】pandas數據導入小白學數據分析----->流失分析設計小白學數據分析----->到底要怎么做流失分析 python數據分析工具 | pandas Python數據分析之pandas學習