1.pandas打開和讀取文件


最近在公司在弄數據分析相關的項目,數據分析就免不了要先對數據進行處理,也就自然避不開關於excel文檔的初始化操作了。

一段時間之后,發現pandas更加符合我的項目要求,所以,將一些常規操作記錄下來,便於以后查閱。

那在開始下面的操作之前,下載pandas模塊是很有必要的

文件打開

首先在剛開始的時候需要導入模塊pandas

import pandas as pd

pandas的打開文件一共有三種方法,分別對應三種文件,即:

數據類型 說明 Pandas讀取方式
csv,tsv,txt 用逗號分割,tab分割的純文本文件 pd.read_csv
excel 微軟xls或者xlsx文件 pd.read_excel
mysql 關系型數據庫表 pd.read_sql

我現在的工作需求中,現階段最常用的是.xlsx的文件讀取

.xlsx文件打開

df = pd.read_excel('1.xlsx') # 文件名或文件路徑
print(df)
         id                                         enterprise
0     18950                                      中國農業大學資源與環境學院
1     18949                                       山東恆豐農業科技有限公司
2     18948                      石家庄市民豐種子有限公司、北京中農臻中農業科技發展有限公司
3     18947                                        九原區種子有限責任公司
4     18946                               中國農業大學和武漢隆福康農業發展有限公司
...     ...                                                ...
6215  12735                       浙江省農業科學院與核技術利用研究所、湖州科奧種業有限公司
6216  12734                               浙江省農科院作核所、杭州市種子技術推廣站
6217  12733                                浙江省農業科學院作核所、湖州市種子公司
6218  12732                                  浙江省農科院作核所、杭州市種子公司
6219  12731  浙江省農業科學院作物與核技術利用研究所、寧波市農業科學研究院生物技術研究所、浙江之豇種業有限...

[6220 rows x 2 columns]

這樣就讀取了.xlsx類型的文件

文件讀取

.shape

有些時候我只是想看看這個表的尺寸大約是多大的,就可以用這個方法

df.shape
(6220, 2)

該方法會返回這個表的(行數,列數)

.columns

有些時候我想看看這個表的標題,就是第一行的信息

df.columns
Index(['id', 'enterprise'], dtype='object')

該方法會返回一個列表形式的數據

當然,有些時候也不需要那么多的數據讀取,可能有些時候只想讀取前幾行

該方法會默認的讀取數據的前5行數據

    def head(self: FrameOrSeries, n: int = 5) -> FrameOrSeries:
df.head()
      id                     enterprise
0  18950                  中國農業大學資源與環境學院
1  18949                   山東恆豐農業科技有限公司
2  18948  石家庄市民豐種子有限公司、北京中農臻中農業科技發展有限公司
3  18947                    九原區種子有限責任公司
4  18946           中國農業大學和武漢隆福康農業發展有限公司

當然也可以修改讀取的行數

df.head(10)

.index

讀取數據的時候,也許發現了,在最左側有一列數據,他本不是在數據當中的數據,這一列就是數據的索引,就像數據庫當中的id一樣

那可以通過這個方法來查看索引列

df.index
RangeIndex(start=0, stop=6220, step=1)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM