Python 數據處理擴展包: numpy 和 pandas 模塊介紹


一、numpy模塊

  NumPy(Numeric Python)模塊是Python的一種開源的數值計算擴展。這種工具可用來存儲和處理大型矩陣,比Python自身的嵌套列表(nested list structure)結構要高效的多(該結構也可以用來表示矩陣(matrix))。據說NumPy將Python相當於變成一種免費的更強大的MatLab系統。

  NumPy模塊提供了許多高級的數值編程工具,如:矩陣數據類型、矢量處理,以及精密的運算庫等。

  1)、一個強大的N維數組對象Array;

  2)、比較成熟的(廣播)函數庫;

  3)、用於整合C/C++和Fortran代碼的工具包;

  4)、實用的線性代數、傅里葉變換和隨機數生成函數。

 

二、pandas模塊

  Pandas(Python Data Analysis Library )是基於NumPy 的一種工具,該工具是為了解決數據分析任務而創建的。Pandas 納入了大量庫和一些標准的數據模型,提供了高效地操作大型數據集所需的工具。pandas提供了大量能使我們快速便捷地處理數據的函數和方法。

  Pandas中的數據結構有如下幾種:

  1、Series:一維數組,與Numpy中的一維array類似。二者與Python基本的數據結構List也很相近,其區別是:List中的元素可以是不同的數據類型,而Array和Series中則只允許存儲相同的數據類型,這樣可以更有效的使用內存,提高運算效率。
 
  2、Time- Series:以時間為索引的Series。
 
  3、DataFrame:二維的表格型數據結構。很多功能與R中的data.frame類似。可以將DataFrame理解為Series的容器。
 
  4、Panel :三維的數組,可以理解為DataFrame的容器。
 
三、Linux下 pandas 的安裝
在linux下,安裝pandas的方式是:
sudo apt-get install python-pandas
 
需要注意的是, 使用 sudo pip install pandas 會報錯,可能是依賴的問題。
但使用apt-get install的方式卻可以成功安裝。
 

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM