由於最近正在放暑假,所以就自己開始學習python中有關爬蟲的技術,因為發現其中需要安裝許多庫與軟件所以就在這里記錄一下以避免大家在安裝時遇到一些不必要的坑。
一. 相關軟件的安裝:
1. homebrew:
homebrew 是mac os系統下的包管理器由於功能齊全所以在這里比較推薦大家安裝,安裝及使用教程在我的另一篇博客中,在此附上鏈接 homebrew的安裝。
2. anaconda:anaconda是python下的包管理器,支持創建虛擬環境等功能,個人認為比自帶的pip好用,安裝anaconda可以前往其官網,鏈接如下:
https://www.continuum.io/downloads,選擇python3版本的安裝包下載即可。
二. 請求庫的安裝
requests:由於requests是第三方庫,所以需要手動安裝,安裝過程如下。
1 .相關鏈接
Github:https://github.com/requests/requests
PyPi:https://pypi.python.org/pypi/requests
官方文檔:http://www.python-requests.org
中文文檔:http://docs.python-requests.org/zh_CN/latest
2. 安裝庫,我們使用conda指令進行安裝,在終端中輸入如下指令即可成功安裝requests庫
conda install requests
Selenium:是一個自動化的測試工具,利用它可以驅動瀏覽器執行特定的動作,如過頁面的數據通過JavaScript動態加載則需要使用到它,其安裝過程如下。
1. 相關鏈接
官方網站:http://www.selenium.org
Github:https://github.com/seleniumHQ/selenium/tree/master/py
PyPi:https://pypi.python.org/pypi/selenium
官方文檔:http://selenium-python.readthdocs.io
中文文檔:http://selenium-python-zh.readthedocs.io
2. 安裝庫,我們同樣使用 conda指令進行安裝,在終端中輸入如下指令即可安裝selenium庫
conda install selenium
ChromeDriver:應為selenium需要瀏覽器配合使用,那么如果默認使用的是chrome瀏覽器,則需要安裝chromeDrvier驅動(版本需要與你使用的chrome的版本兼容),其安裝過程如下。
1. 相關鏈接
官方網站:http://sites.google.com/a/chromium.org/chromedriver
下載地址: http://chromedriver.storage.googleapis.com/index.html
2. 安裝chromedriver,由於我們安裝了homebrew包管理器,我們就可以直接使用brew指令進行安裝,在終端中輸入下列代碼即可進行安裝chromedriver了
brew cask install chromedriver
3. 安裝好后,我們可以在程序中進行測試,代碼如下
from selenium import webdriver browser = webdriver.Chrome()
若能正確彈出空白的chrome瀏覽器,則證明配置沒有問題啦!
三. 解析庫安裝
lxml:是python的一個解析庫,用於解析html和xml並且對xpath表達式提供了支持,是一個很基礎的解析庫,安裝方式如下。
1. 相關鏈接
官方網站:http://lxml.de
Github:https://github.com/lxml/lxml
PyPI:https://pypi.python.org/pypi/lxml
2.我們使用conda指令進行安裝,只需在終端中輸入以下代碼安裝即可
conda install lxml
BeautifulSoup:你沒看錯,它叫美麗湯,它可以解析html和xml並支持多種方式操作網頁中的標簽和屬性,非常強大的解析庫並且官方文檔也很友好,安裝方式如下。
1. 相關鏈接
官方文檔:https://www.cremmy.com/software/BeautifulSoup/bs4/doc
中文文檔:https://www.cremmy.com/software/BeautifulSoup/bs4/doc.zh
2. 我們依舊使用conda指令進行安裝,在終端中輸入如下代碼安裝即可
conda install beautifulsoup4
3. 安裝好后,我們可以在程序中測試它的解析功能,代碼如下
from urllib.request import urlopen from bs4 import BeautifulSoup if __name__ == "__main__": html = urlopen("http://www.cnblogs.com") #urlopen 獲取html頁面 bs_obj = BeautifulSoup(html) #BeauitfulSoup解析后返回 print(bs_obj.get_text) #返回除標簽外的純文本
PyQuery:也是解析工具,提供與jquery(幾年前非常火熱的JavaScript框架)類似的語法解析html同樣也支持css選擇器,安裝方式如下。
1. 相關鏈接
Github:https://github.com/gawel/pyquery
PyPI:https://pypi.python.org/pypi/pyquery
官方文檔:http://pyquery.readthedocs.io
2. 我們仍然使用conda指令安裝,但同時也可以使用pip3指令安裝,在終端輸入如下代碼中的一個安裝即可
#使用 conda安裝 conda install pyquery #使用 pip3安裝 pip3 install pyquery
tesserocr:可以用來識別驗證碼或者圖片的OCR(光學字符識別)解析庫,它是對python API的封裝,所以安裝它需要先安裝tesseract,它們的安裝方式如下
1. 相關鏈接
tesserocr Github:https://github.com/sirfz/tesserocr
tesserocr PyPI:https://pypi.python.org/pypi/tesserocr
tesseract 下載地址:http://digi.bib.uni-mannheim.de/tesserocr
tesseract Github:https://github.com/tesseract-ocr/tesseract
tesseract 語言包:https://github.com/tesseract-oct/tessdata
tesseract 文檔:https://github.com/tesseract-ocr/tesseract/wiki/Documentation
2. 我們現需要使用brew指令安裝ImageMagick和tesseract庫,然后再使用conda指令安裝tesserocr庫,在終端中按次序輸入以下代碼即可
# 安裝ImageMagick brew install imagemagick # 安裝 tesseract brew install tesseract --all-languages # 安裝 tesserocr conda install tesserocr
3. 安裝好后,我們可以在程序中測試它是否能正確運行,代碼如下
import tesserocr from PTL import Image image = Image.open('example.jpeg') print(tesserocr.image_to_text(image)) #將圖片中的文字轉換為字符串
好了至此,與python爬蟲相關的基礎庫已經安裝完成了,本文中並未涉及scrapy庫的安裝。因為個人認為還是先不要使用框架自己編寫爬蟲更能提升自己的編碼能力,謝謝大家的閱讀!