一、numpy模塊
NumPy(Numeric Python)模塊是Python的一種開源的數值計算擴展。這種工具可用來存儲和處理大型矩陣,比Python自身的嵌套列表(nested list structure)結構要高效的多(該結構也可以用來表示矩陣(matrix))。據說NumPy將Python相當於變成一種免費的更強大的MatLab系統。
NumPy模塊提供了許多高級的數值編程工具,如:矩陣數據類型、矢量處理,以及精密的運算庫等。
1)、一個強大的N維數組對象Array;
2)、比較成熟的(廣播)函數庫;
3)、用於整合C/C++和Fortran代碼的工具包;
4)、實用的線性代數、傅里葉變換和隨機數生成函數。
二、pandas模塊
Pandas(Python Data Analysis Library )是基於NumPy 的一種工具,該工具是為了解決數據分析任務而創建的。Pandas 納入了大量庫和一些標准的數據模型,提供了高效地操作大型數據集所需的工具。pandas提供了大量能使我們快速便捷地處理數據的函數和方法。
Pandas中的數據結構有如下幾種:
1、Series:一維數組,與Numpy中的一維array類似。二者與Python基本的數據結構List也很相近,其區別是:List中的元素可以是不同的數據類型,而Array和Series中則只允許存儲相同的數據類型,這樣可以更有效的使用內存,提高運算效率。
2、Time- Series:以時間為索引的Series。
3、DataFrame:二維的表格型數據結構。很多功能與R中的data.frame類似。可以將DataFrame理解為Series的容器。
4、Panel :三維的數組,可以理解為DataFrame的容器。
三、Linux下 pandas 的安裝
在linux下,安裝pandas的方式是:
sudo apt-get install python-pandas
需要注意的是, 使用 sudo pip install pandas 會報錯,可能是依賴的問題。
但使用apt-get install的方式卻可以成功安裝。
