Python數據分析Pandas庫方法簡介


Pandas 入門

Pandas簡介

背景pandas是一個Python包,提供快速,靈活和富有表現力的數據結構,旨在使“關系”或“標記”數據的使用既簡單又直觀。它旨在成為在Python中進行實際,真實世界數據分析的基礎高級構建塊。此外,它還有更廣泛的目標,即成為任何語言中最強大,最靈活的開源數據分析/操作工具。它已朝着這個目標邁進

  • pandas組成 = 數據面板+數據分析工具

  • pandas把數據分為3類

    • 一位矩陣:Series 強大在可以存儲任意類型數據 二維矩陣: DataFrame 三維矩陣; Panel

pandas數據結構

  • Series:一維數組。類型Numpy的一維數組,強大在可以存儲任意類型數據

  • Time-Series:以時間維索引的Series

  • DataFrame: 二位的表格數據結構,===升級版矩陣

    • 它含有一組有序的列,每列可以是不同的值類型(數值,字符串,)

 

pandas的數據類型

  • 導入pandas

    import pandas as pd
  • 讀取csv文件,數據類型就是DataFrame二維矩陣

    a = pd.read_csv(path)
    type(a)
  • 屬性和方法

    • 類型 type(a)

    • 維度 a.ndim

    • 形狀 a.shape

    • 大小 a.size

    • 數據類型 a.dtypes

    • 幫助 help(pd)

索引操作

  • 前n行:head(n)

  • 后n行:tail(n)

  • 第n行: df.loc[n]

  • 第3-7行: df.loc[2:8]

  • 取任意行: df.loc[[2,3,5]]

  • 取某列: df['列名'] df.列名

  • 取任意列:df[['列1',‘列2’,。。。]]

 

案例 取出所有g為結尾的列

a = df.columns.tolist()
bb = []
for x in a:
   if x.endswith('(g)') or x.endswith('(mg)'):
       bb.append(x)
       
df[bb]

簡單統計

數據統計

  • 摘要描述/簡介:df.describe()

  • 一維。value_counts()統計以為矩陣中數組出現的次數: 比如統計成績

  • 最大: df['列名'].max()

  • 最小 :min

  • 平均值:mean

  • 標准差 std

 

案例分析2成績分析

# 案例-成績分析
chengji = pd.read_excel('score.xlsx')
chengji['成績'].describe()
chengji['成績'].value_counts()
a = chengji['成績']
a[a<80]

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM