python爬蟲實現（使用線程池）

本文轉載自查看原文 2013-02-28 12:39 4083 Python

代碼在這里，注釋夠詳細，應該很容看懂吧。（注，程序里面有坑。。。直接用，不看代碼小心中招，嘿嘿。。。）

關於該爬蟲

程序運行示例：
　　　Spider.py -u url -d depth
　　　
　　　Url,depth 為必需參數，其他為可選參數，日志文件默認當前目錄，名字：spider.log，日志等級默認為3。數據庫為：data.sql，也是當前目錄。

關鍵字是匹配源碼中標簽<meta>的content屬性的值

　　　自檢模塊只是檢查網絡連接，和數據庫連接。

winXP sp3 和 ubuntu12.10測試爬取www.baidu.com兩級深度均能正常運行
　　　
目前自知的缺點：
　　　對於命令參數，沒有仔細檢查分析，如：spider -u s -d 2程序一樣會運行，雖然這樣不對。

主要參考：
　　　Python爬蟲
　　　http://bbs.chinaunix.net/thread-3689276-1-1.html
　　　對Python線程池進行詳細說明
　　　http://developer.51cto.com/art/201002/185290.htm
　　　BeautifulSoup學習筆記
　　　http://pqcc.iteye.com/blog/627481
　　　python之sqlite3使用詳解
http://anony3721.blog.163.com/blog/static/5119742010716104442536/
　　　Python模塊學習
　　　http://www.cnblogs.com/captain_jack/archive/2011/01/11/1933366.html
　　　

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python實現線程池 python線程池實現 python線程池實現 python線程池的使用 Python 線程池原理及實現 Python 多線程、線程池、協程爬蟲 python使用queue和線程池 Java線程池的底層實現與使用 springboot使用@async實現異步線程池多線程網頁爬蟲 python 實現