Pandas簡介
背景:pandas是一個Python包,提供快速,靈活和富有表現力的數據結構,旨在使“關系”或“標記”數據的使用既簡單又直觀。它旨在成為在Python中進行實際,真實世界數據分析的基礎高級構建塊。此外,它還有更廣泛的目標,即成為任何語言中最強大,最靈活的開源數據分析/操作工具。它已朝着這個目標邁進
-
pandas組成 = 數據面板+數據分析工具
-
pandas把數據分為3類
-
一位矩陣:Series 強大在可以存儲任意類型數據 二維矩陣: DataFrame 三維矩陣; Panel
-
pandas數據結構
-
Series:一維數組。類型Numpy的一維數組,強大在可以存儲任意類型數據
-
Time-Series:以時間維索引的Series
-
DataFrame: 二位的表格數據結構,===升級版矩陣
-
它含有一組有序的列,每列可以是不同的值類型(數值,字符串,)
-
pandas的數據類型
-
導入pandas
import pandas as pd
-
讀取csv文件,數據類型就是DataFrame二維矩陣
a = pd.read_csv(path)
type(a) -
屬性和方法
-
類型 type(a)
-
維度 a.ndim
-
形狀 a.shape
-
大小 a.size
-
數據類型 a.dtypes
-
幫助 help(pd)
-
索引操作
-
前n行:head(n)
-
后n行:tail(n)
-
第n行: df.loc[n]
-
第3-7行: df.loc[2:8]
-
取任意行: df.loc[[2,3,5]]
-
取某列: df['列名'] df.列名
-
取任意列:df[['列1',‘列2’,。。。]]
案例 取出所有g為結尾的列
a = df.columns.tolist()
bb = []
for x in a:
if x.endswith('(g)') or x.endswith('(mg)'):
bb.append(x)
df[bb]
簡單統計
數據統計
-
摘要描述/簡介:df.describe()
-
一維。value_counts()統計以為矩陣中數組出現的次數: 比如統計成績
-
最大: df['列名'].max()
-
最小 :min
-
平均值:mean
-
標准差 std
案例分析2成績分析
# 案例-成績分析
chengji = pd.read_excel('score.xlsx')
chengji['成績'].describe()
chengji['成績'].value_counts()
a = chengji['成績']
a[a<80]