1 pandas簡介
1.Pandas是什么?
Pandas是一個強大的分析結構化數據的工具集;
它的使用基礎是Numpy(提供高性能的矩陣運算);
用於數據挖掘和數據分析,同時也提供數據清洗功能。
2.DataFrame
DataFrame是Pandas中的一個表格型的數據結構,包含有一組有序的列,每列可以是不同的值類型(數值、字符串、布爾型等),DataFrame即有行索引也有列索引,可以被看做是由Series組成的字典。
pandas 相當於 python 中 excel:它使用表(也就是 dataframe),能在數據上做各種變換,但還有其他很多功能。
class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
參數 | 意義 | 數據結構 |
---|---|---|
data | 需要被轉換的數據 | ndarray (structured or homogeneous), Iterable, dict, or DataFrame |
index | 設置行索引 | Index or array-like |
columns | 設置列名 | Index or array-like |
dtype | 設置數據類型 | dtype, default None |
copy | 備份數據 | boolean, default False |
3.Series
它是一種類似於一維數組的對象,是由一組數據(各種NumPy數據類型)以及一組與之相關的數據標簽(即索引)組成。僅由一組數據也可產生簡單的Series對象。
4.pandas 網址
2 導入
符號 | 含義 |
---|---|
df | 二維的表格型數據結構DataFrame |
s | 一維數組Series (一個一維的標簽矩陣) |
還需要執行以下導入才能開始:
import pandas as pd
import numpy as np
3 使用
# 使用Pandas
>>> import pandas as pd
>>> df = pd.DataFrame()
>>> print(df)
# 輸出結果
Empty DataFrame
Columns: []
Index: []
4 讀取、寫入
import pandas as pd
df = pd.read_excel("D:/項目/資料/People.xlsx") # 把文件讀到內存中形成DataFrame
print(df.shape) # 讀取文件行數和列數
print(df.columns) # 讀取列名
print(df.head(3)) # 打印前3行
print(df.tail(3)) # 打印后3行
df = pd.DataFrame({"ID":[1,2,3],"Name":["jack","小明","小紅"]})
df = df.set_index("ID") # 把ID那一列當索引,並產生新的DataFrame
df.to_excel("D:/項目/我愛你.xlsx") # 寫入文件
print("Done!")