Python3(3.5.4)搭建爬蟲系統步驟描述:
1.下載python安裝包,路徑:https://www.python.org/downloads/windows/ 選擇3.5.4版本64位的安裝文件,如果不能下載可直接聯系我,地址見底。
2.下載安裝完成后直接cmd輸入python,可正常查看版本,以本人為例:
注:安裝過程中請注意一定要請勾選pip安裝並加入到環境變量中,否則后續無法正常安裝第三方類庫。
3.安裝爬蟲框架必須依賴的第三方類庫Twisted,在使用pip安裝時會出現下載文件失敗而無法安裝問題,所以我直接下載源文件,然后cmd進入下載文件
目錄下是用pip install 下載文件全名 安裝即可,下載地址如下: https://www.lfd.uci.edu/~gohlke/pythonlibs/ 搜索Twisted 然后找到跟本地Python版本匹配的whl文件
,比如我本地安裝Python3.5.3 64位,name下載的文件就應該選擇:
4.安裝selenimu 自動化web包,cmd進入任意目錄,執行 pip install selenium
5.安裝pymysql 連接mysql包,cmd進入任意目錄,執行pip install pymysql
6.安裝pillow圖片處理包, pip install piplow
7.安裝pypiwin32 操作底層dll包,pip install pypiwin32
8.安裝requests 發送web請求包 pip install requests
9.安裝scrapy 爬蟲框架包 pip install scrapy
10.安裝解析網頁內容包 pip install bs4。
11.截止以上十步爬蟲所主要依賴第三方類庫安裝完成,下一步驗證爬蟲框架。
11.進入cmd,輸入scrapy 查看scrapy是否安裝成功。
12在cmd中進入任意目錄,輸入scrapy startproject testproject 創建一個機遇scrapy的爬蟲工程,目錄結構如下>
13.創建完工程后,可通過scrapy genspider mydomain mydomain.com 命令創建一個名字為mydomain 網站為mydomain.com的爬蟲。
14創建完爬蟲后,在工程目錄下執行scrapy list 查看剛才創建的爬蟲是否成功,如下:
15.不修改爬蟲內容,測試爬蟲是否正常運行,執行如下命令:
scrapy crawl 爬蟲名稱(比如我的工程執行 scrapy crawl test_pc)如下:
至此,一個簡單的爬蟲系統從頭到最后運行的過程全部搭建完成。
另:本人微信ma0603kang 郵箱:ma0603kang@163.com,如果有什么問題可以聯系我。