pandas作為python進行數據分析的常用第三方庫,它是基於numpy創建的,使得運用numpy的程序也能更好地使用pandas。
1 pandas數據結構
1.1 Series
注:由於pandas與numpy關系密切,所以在代碼中經常將二者一同導入使用。
上圖中,先利用numpy創建一個一維數組,再利用pandas的內置方法將其轉換為pandas的序列類型Series。可以看到,pandas會自動將原有數據轉換成一列,並添加行的索引。
1.2 DataFrame
pandas的第二種也是最具代表性的數據結構就是DataFrame。
顯然,DataFrame就是矩陣類型的數據,只不過pandas中會給矩陣添加行列索引,以便使用與查找元素。
2 創建DataFrame
由於Series可以視為DataFrame的一種簡單情況,所以后面將主要介紹DataFrame,關於Series的情況可以類比過去。
從前一小節可以看到,pandas的數據可以通過運用內置方法轉換numpy創建的數據得到,但也可以直接在pandas庫內創建DataFrame。
創建DataFrame時,可以手動給數據添加行列名,否則pandas會自動添加形如“0,1,2,3”的行列名。
由於pandas基於numpy制作,所以numpy中的一些常用方法可以直接移植過來。
pandas中也有shape方法查看矩陣大小。
3 查找DataFrame的元素
因為pandas中的矩陣允許自定義行列名,所以定位其中的元素分為如下幾種方式:使用行列名稱,使用行列位置,名稱位置混合。
3.1 行列名稱定位
3.2 行列位置定位
3.3 名稱位置混合定位
一般常用的還是前兩種定位手段,混合定位了解即可。
小結:作為pandas系列的開篇,本文就介紹到此,沿用numpy系列的模式,后面的博文將介紹pandas中關於DataFrame的常用方法。