最近在公司在弄數據分析相關的項目,數據分析就免不了要先對數據進行處理,也就自然避不開關於excel文檔的初始化操作了。
一段時間之后,發現pandas更加符合我的項目要求,所以,將一些常規操作記錄下來,便於以后查閱。
那在開始下面的操作之前,下載pandas模塊是很有必要的
文件打開
首先在剛開始的時候需要導入模塊pandas
import pandas as pd
pandas的打開文件一共有三種方法,分別對應三種文件,即:
數據類型 | 說明 | Pandas讀取方式 |
---|---|---|
csv,tsv,txt | 用逗號分割,tab分割的純文本文件 | pd.read_csv |
excel | 微軟xls或者xlsx文件 | pd.read_excel |
mysql | 關系型數據庫表 | pd.read_sql |
我現在的工作需求中,現階段最常用的是.xlsx的文件讀取
.xlsx文件打開
df = pd.read_excel('1.xlsx') # 文件名或文件路徑
print(df)
id enterprise
0 18950 中國農業大學資源與環境學院
1 18949 山東恆豐農業科技有限公司
2 18948 石家庄市民豐種子有限公司、北京中農臻中農業科技發展有限公司
3 18947 九原區種子有限責任公司
4 18946 中國農業大學和武漢隆福康農業發展有限公司
... ... ...
6215 12735 浙江省農業科學院與核技術利用研究所、湖州科奧種業有限公司
6216 12734 浙江省農科院作核所、杭州市種子技術推廣站
6217 12733 浙江省農業科學院作核所、湖州市種子公司
6218 12732 浙江省農科院作核所、杭州市種子公司
6219 12731 浙江省農業科學院作物與核技術利用研究所、寧波市農業科學研究院生物技術研究所、浙江之豇種業有限...
[6220 rows x 2 columns]
這樣就讀取了.xlsx類型的文件
文件讀取
.shape
有些時候我只是想看看這個表的尺寸大約是多大的,就可以用這個方法
df.shape
(6220, 2)
該方法會返回這個表的(行數,列數)
.columns
有些時候我想看看這個表的標題,就是第一行的信息
df.columns
Index(['id', 'enterprise'], dtype='object')
該方法會返回一個列表形式的數據
.head()
當然,有些時候也不需要那么多的數據讀取,可能有些時候只想讀取前幾行
該方法會默認的讀取數據的前5行數據
def head(self: FrameOrSeries, n: int = 5) -> FrameOrSeries:
df.head()
id enterprise
0 18950 中國農業大學資源與環境學院
1 18949 山東恆豐農業科技有限公司
2 18948 石家庄市民豐種子有限公司、北京中農臻中農業科技發展有限公司
3 18947 九原區種子有限責任公司
4 18946 中國農業大學和武漢隆福康農業發展有限公司
當然也可以修改讀取的行數
df.head(10)
.index
讀取數據的時候,也許發現了,在最左側有一列數據,他本不是在數據當中的數據,這一列就是數據的索引,就像數據庫當中的id一樣
那可以通過這個方法來查看索引列
df.index
RangeIndex(start=0, stop=6220, step=1)