之所以選用Python,是因為對於網絡爬蟲來說,Python是最好上手的一種語言。本文講述的安裝配置都是基於Windows的環境。
另外我想說的是,文中用到的下載鏈接盡量官方網站上的下載鏈接,這是我比較喜歡的下載方式,一方面下載可靠,一方面鏈接穩定。如果官網要翻牆才能進去的話,為了方便讀者操作,就使用百度的下載鏈接了。
一、Python3安裝
首先,下載Python3,這里使用Python3.5.1版本,點擊下載:64位版本,32位版本。
雙擊打開,進行安裝。特別注意:要勾選上"Add to Path"選項,否則后面會很麻煩。
打開cmd窗口,測試一下是否真的裝好了。
如果剛才安裝的時候沒有勾選"Add to Path",這個時候可能會報錯,這里就不講解添加環境變量的方法了,建議直接卸載重裝。
二、Python3的IDE
現在,Python3的運行環境已經裝好了,我們還需要一個IDE。這里建議有兩種選擇,第一種是Notepad++,第二種是PyCharm。
1. Notepad++
安裝完成后,下面說明怎么在Notepad++中安裝運行python的插件。
點擊"Show Plugin Manager"。
找到PyNPP,點擊Install。
安裝成功以后,就可以運行Python代碼了。
2. PyCharm
這是一個專門給Python編程用的IDE,用起來比Notepad++多的功能基本上就是工程管理和自動補全。一般來說下載Community版本就夠用了。安裝完成以后就可以使用了。
三、Python3爬蟲包安裝
這里使用requests和beautifulsoup作為主要的爬蟲工具。安裝方式很簡單。打開cmd,輸入這兩行代碼:
pip install beautifulsoup4
pip install requests
Python3默認會自動安裝pip,直接使用即可。
可以用下面一段簡單的代碼來測試一下這兩個包:
# coding : utf-8 import requests from bs4 import BeautifulSoup r = requests.get("http://news.163.com/") soup = BeautifulSoup(r.content,'html.parser',from_encoding="gb18030") for i in soup.find_all('a'): try: print(i["href"]) except Exception as e: pass
幾行代碼就實現了把網易新聞首頁的所有鏈接都提取出來了。是不是很方便?
要了解更多關於這兩個包的知識可以去看官方文檔,寫的非常清楚。
至此,我們已經配置好了需要的所有爬蟲工具,后面會詳細介紹怎么在項目中使用。
拓展閱讀:其實Python可以使用的爬蟲包還有很多,這里使用的是requests,其實對於一些有網頁動態代碼抓取需求的還可以使用selenium。可以參考我的另一篇博客python3初識selenium。