大數據與科學計算
庫名稱 |
簡介 |
---|---|
pycuda/opencl |
GPU高性能並發計算 |
Pandas | python實現的類似R語言的數據統計、分析平台。基於NumPy和Matplotlib開發的,主要用於數據分析和數據可視化,它的數據結構DataFrame和R語言里的data.frame很像,特別是對於時間序列數據有自己的一套分析機制,非常不錯。 |
Open Mining | 商業智能(BI),Pandas的Web界面。 |
blaze | NumPy和Pandas大數據界面。 |
SciPy | 開源的Python算法庫和數學工具包,SciPy包含的模塊有最優化、線性代數、積分、插值、特殊函數、快速傅里葉變換、信號處理和圖像處理、常微分方程求解和其他科學與工程中常用的計算。其功能與軟件MATLAB、Scilab和GNU Octave類似。 Numpy和Scipy常常結合着使用,Python大多數機器學習庫都依賴於這兩個模塊。 |
ScientificPython |
一組經過挑選的Python程序模塊,用於科學計算,包括幾何學(矢量、張量、變換、矢量和張量場),四元數,自動求導數,(線性)插值,多項式,基礎統計學,非線性最小二乘擬合,單位計算,Fortran兼容的文本格式,通過VRML的3D顯示,以及兩個Tk小工具,分別用於繪制線圖和3D網格模型。此外還具有到netCDF,MPI和BSPlib庫的接口。 |
NumPy | 科學計算庫,提供了矩陣,線性代數,傅立葉變換等等的解決方案, 最常用的是它的N維數組對象. NumPy提供了兩種基本的對象:ndarray(N-dimensional array object)和 ufunc(universal function object)。ndarray是存儲單一數據類型的多維數組,而ufunc則是能夠對數組進行處理的函數。 |
Cvxopt | 最優化計算包,可進行線性規划、二次規划、半正定規划等的計算。 |
Numba | 科學計算速度優化編譯器。 |
pymvpa2 | 是為大數據集提供統計學習分析的Python工具包,它提供了一個靈活可擴展的框架。它提供的功能有分類、回歸、特征選擇、數據導入導出、可視化等 |
NetworkX | 復雜網絡的優化軟件包。 |
zipline | 交易算法的函數庫。 |
PyDy | Python動態建模函數庫。 |
SymPy | 符號數學的Python庫。 |
statsmodels | Python的統計建模和計量經濟學。 |
astropy | 天文學界的Python庫。 |
orange | 橙色,數據挖掘,數據可視化,通過可視化編程或Python腳本學習機分析。 |
RDKit | 化學信息學和機器學習的軟件。 |
Open Babel | 巴貝爾,開放的化學工具箱。 |
cclib | 化學軟件包的計算函數庫。 |
Biopython | 免費的生物計算工具包。 |
bccb | 生物分析相關的代碼集。 |
bcbio-nextgen | 提供完全自動化、高通量、測序分析的工具包。 |
visvis | 可視化計算模塊庫,可進行一維到四維數據的可視化。 |
MapReduce | 是Google提出的一個軟件[架構],用於大規模數據集(大於1TB)的並行運算。概念“Map(映射)”和“Reduce(歸納)”,及他們的主要思想,都是從函數式編程語言借來的MapReduce函數庫。Framworks and libraries for MapReduce., |
PySpark | [Spark]的Python API。 |
dpark | Spark的Python克隆,Python中的MapReduce框架。 |
luigi | 為批量工作,建立復雜的管道。 |
mrjob | 運行在[Hadoop],或亞馬遜網絡服務的,MapReduce工作。 |