pyspider是國人寫的一款開源爬蟲框架,個人覺得這個框架用起來很方便,至於如何方便可以繼續看下去。
作者博客:http://blog.binux.me/
安裝pyspider
安裝pyspider:pip install pyspider
由於pyspider目前只支持32位系統,因為安裝pyspider前需要先安裝一個依賴庫:pycurl,而pycurl只支持32位系統
如果你是32位系統,就這樣安裝:
pip install pycurl
pip install pyspider
cmd后輸入:pip install pyspider
Windows下可能會出現這樣的錯誤提示:
這是PyCurl安裝錯誤,此時需要安裝PyCurl庫。從http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl找到對應的Python版本,然后下載相應的wheel文件即可。比如Windows 64位、Python 3.7,則需要下載pycurl-7.43.1-cp37-cp37m-win_amd64.whl,隨后用pip安裝即可,命令如下:
pip install d:\pycurl-7.43.1-cp37-cp37m-win_amd64.whl
運行:pyspider all 然后又報錯:
從(https://blog.csdn.net/qq_26261381/article/details/86514138 ) 哪里得到解決辦法。
是因為async從python3.7開始不能用作參數名了,將所有腳本里面的async換一個名字即可,腳本不多,一共兩個腳本
1 ffk_py/lib/python3.7/site-packages/pyspider/run.py
2 ffk_py/lib/python3.7/site-packages/pyspider/fetcher/tornado_fetcher.py
修改完成后,運行如下:
Deprecated option 'domaincontroller': use 'domain_controller' instead的問題。(https://segmentfault.com/q/1010000015429020?utm_source=tag-newest 上面的解釋) wsgidav發布的3.x版本目前仍然是測試版,相對於2.x(例如2.4.1)更改了一些用法,上面報錯的兩個部分就是的。pyspider的3.0及以上版本在安裝時,會默認安裝wsgidav的3.x版(具體的版本可能會有偏差)。其實上面錯誤信息已經提示該如何改了,不過那樣改比較麻煩。可以換個方法,換回wsgidav的2.x版本就不會報錯了。先把3.x版卸載,再裝2.x版(pip安裝wsgidav會默認安裝2.x版 我的是2.4.1版)。下面是具體的卸載安裝的命令 windows下進入cmd,(linux下打開終端),輸入: pip uninstall wsgidav pip install wsgidav 如果報錯失敗,按照下面的再試一次,(一般linux不會出錯,windows下可能輸入下面的命令) python -m pip uninstall wsgidav python -m pip install wsgidav 如果安裝的wsgidav版本還是3.x版本,可以在卸載這個版本之后, 在安裝命令后面加上具體版本 例如 python -m pip install wsgidav==2.4.1
wsgidav 后,運行如下:
