利用Python進行數據分析(8) pandas基礎: Series和DataFrame的基本操作



一、reindex() 方法:重新索引

針對 Series
 
重新索引指的是根據index參數重新進行排序。
如果傳入的索引值在數據里不存在,則不會報錯,而是添加缺失值的新行。
不想用缺失值,可以用 fill_value 參數指定填充值。
例如:
 
fill_value 會讓所有的缺失值都填充為同一個值,如果不想這樣而是用相鄰的元素(左或者右)的值填充,則可以用 method 參數,可選的參數值為 ffill 和 bfill,分別為用前值填充和用后值填充:

針對 DataFrame
 
重新索引操作:

二、drop() 方法:丟棄數據
 
針對 Series
 
 
針對 DataFrame
 
不僅可以刪除行,還可以刪除列:

三、索引、選取和過濾
 
針對 Series
 
 
需要注意一點的是,利用索引的切片運算與普通的 Python 切片運算不同,其末端是包含的,既包含最后一個的項。比較:
 
賦值操作:
 
針對 DataFrame
 
 
DataFrame 中的 ix 操作:

四、算術運算和數據對齊
 
針對 Series
 
將2個對象相加時,具有重疊索引的索引值會相加處理;不重疊的索引則取並集,值為 NA:
 
針對 DataFrame
 
對齊操作會同時發生在行和列上,把2個對象相加會得到一個新的對象,其索引為原來2個對象的索引的並集:
 
和Series 對象一樣,不重疊的索引會取並集,值為 NA;如果不想這樣,試試使用 add() 方法進行數據填充:
 
五、函數應用和映射
 
將一個 lambda 表達式應用到每列數據里:
 
除了lambda 表達式還可以定義一個函數:
 
六、排序
 
針對 Series
 
針對 DataFrame
 
七、排名
 


八、帶有重復值的軸索引
 
索引不強制唯一,例如一個重復索引的 Series:
 
安裝步驟已經在首篇隨筆里寫過了,這里不在贅述。 利用Python進行數據分析(1) 簡單介紹
接下來一篇隨筆內容是:利用Python進行數據分析(9) pandas基礎: 匯總統計和計算,有興趣的朋友歡迎關注本博客,也歡迎大家添加評論進行討論。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM