1.數據收集
- scrapy:網頁采集、爬蟲。
- scrapy-redis:分布式爬蟲。
- selenium:web測試、仿真瀏覽器。
2.數據處理
- beautifulsoup:網頁解釋庫,提供lxml的支持。
- lxml:xml解釋庫。
- xlrd:excel文件讀取。
- xlwt:excel文件寫入。
- slutls:excel文件簡單格式修改。
- pywin32:excel文件的讀取寫入及復雜格式定制。
- Python-docx:Word文件的讀取寫入。
3.數據分析
- numpy:基於矩陣的數學計算庫。
- pandas:基於表格的統計分析庫。
- scipy:科學計算庫,支持高階抽象和復雜模型。
- statsmodels:統計建模和計量經濟學工具包。
- scikit-learn:機器學習工具庫。
- gensim:自然語言處理工具庫。
- jeba:中文分詞工具庫。
4.數據存儲
- MySQL-python:mysql的讀寫接口庫。
- mysqlclient:mysql的讀寫接口庫。
- SQLAlchemy:數據庫的ORM封裝。
- pymysql:sqlserver讀寫接口庫。
- redis:redis的讀寫接口。
- PyMongo:MongoDB的讀寫接口。
5.數據呈現
- matplotlib:流行的數據可視化庫。
- seaborn:美觀的數據可視化庫,基於matplotlib。
6.工具輔助
- jupyter:基於web的pythonIDE,常用於數據分析。
- chardet:字符檢查工具。
- ConfigParser:配置文件讀寫支持。
- requests:HTTP庫,用於網絡訪問。