1.BeautifulSoup簡介
BeautifulSoup庫通過解析文檔可以獲取網頁文檔中所需的數據,方便用戶從HTML或XHTML文檔中提取數據,作為python的一個輔助工作,也是爬蟲實踐中的好幫手。
2.BeautifulSoup安裝
剛開始的時下載了BeautifulSoup3.2.1,安裝的時候就報錯了
上網搜了下原來是 print "msg you want to print"
是python2的語法,python3的話應該安裝BeautifulSoup的更高版本
所有就重新下載壓縮包BeautifulSoup4.3.2
具體步驟如下:
安裝方法有兩種,一種是使用pip命令安裝,一種是下載壓縮包安裝
(1)使用pip的命令安裝
如果不知道pip的安裝路徑或者找錯了pip的安裝路徑,出現了:‘unknow or unsurrpotted command 'install'’的錯誤,可以使用命令:‘where pip’找到pip的具體目錄
進入python的pip安裝的路徑下打開命令符‘Shift+鼠標右鍵’,輸入命令:
pip install beautifulsoup4
(1)下載壓縮包安裝:到官網;https://pypi.python.org/pypi/beautifulsoup4/4.3.2下載壓縮包,然后解壓
(2)將解壓的文件夾放在python的文件夾下:
(3)進入beautifulsoup4-4.3.2文件夾下,打開命令符,輸入
setup.py build
(4)再次輸入以下命令:
setup.py install
(5)驗證beautifulsoup4-4.3.2是否安裝成功
python import bs4
如果沒有報錯則是安裝成功,而我很不幸報錯了,報了以下的錯誤:'cannot import name 'HTMLParseError'',不慌,有失敗才能更加印象深刻,學到更多
其實報錯的原因還是我安裝的beautifulsoup版本過低,需要升級,所以現在需要升級下beautifulsoup4-4.3.2,可以使用pip命令升級
(6)使用pip命令升級
打開Python下pip的安裝路徑,打開命令符,輸入命令
pip install --upgrade beautifulsoup4
升級成功后,關閉命令符
(7)重新驗證下
python import bs4
這下就萬無一失了,成功安裝了。