前言
- Numpy
Numpy是科學計算的基礎包,對數組級的運算支持較好 - pandas
pandas提供了使我們能夠快速便捷地處理結構化數據的大量數據結構和函數。pandas兼具Numpy高性能的數組計算功能以及電子表格和關系型數據(如SQL)靈活的數據處理能力,處理上千萬的大數據易於反掌。對於金融行業的用戶,pandas提供了大量適用於金融數據的高性能時間序列功能和工具。DataFrame是pandas的一個對象,它是一個面向列的二維表結構,且含有行標和列標。
DataFrame是pandas的一個對象,它是一個面向列的二維表結構,且含有行標和列標。
- matplotlib
matplotlib是最流行的用於繪制數據圖表的python庫。 - Scipy
Scipy是一組專門解決科學計算中各種標准問題域的包的集合。 - statsmodels
提供了各種模型 - scikit-learn
machine learning模塊
數據導入和導出
1.本地讀取
import pandas as pd data = pd.read_csv(filepath)
2.網絡讀取
import pandas as pd data_url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv" #填寫url讀取 df = pd.read_csv(data_url)
3.讀取excel文件
data = pd.read_excel(filepath)
4.導出到csv文件
`
data.to_csv(filepath, encoding = 'utf-8', index = False)
index=False表示導出時去掉行名稱,如果數據中含有中文,一般encoding指定為‘utf-8’
`