2.1 Python3.5安裝以及爬蟲需要的環境配置


  之所以選用Python,是因為對於網絡爬蟲來說,Python是最好上手的一種語言。本文講述的安裝配置都是基於Windows的環境。

  另外我想說的是,文中用到的下載鏈接盡量官方網站上的下載鏈接,這是我比較喜歡的下載方式,一方面下載可靠,一方面鏈接穩定。如果官網要翻牆才能進去的話,為了方便讀者操作,就使用百度的下載鏈接了。

一、Python3安裝

  首先,下載Python3,這里使用Python3.5.1版本,點擊下載:64位版本32位版本

  

  雙擊打開,進行安裝。特別注意:要勾選上"Add to Path"選項,否則后面會很麻煩。

  打開cmd窗口,測試一下是否真的裝好了。

  

  如果剛才安裝的時候沒有勾選"Add to Path",這個時候可能會報錯,這里就不講解添加環境變量的方法了,建議直接卸載重裝。

 

二、Python3的IDE

  現在,Python3的運行環境已經裝好了,我們還需要一個IDE。這里建議有兩種選擇,第一種是Notepad++,第二種是PyCharm。

  1. Notepad++

  Notepad++下載地址

  安裝完成后,下面說明怎么在Notepad++中安裝運行python的插件。

  

  點擊"Show Plugin Manager"。

  

  找到PyNPP,點擊Install。

  

  安裝成功以后,就可以運行Python代碼了。

  2. PyCharm

  PyCharm下載地址

  這是一個專門給Python編程用的IDE,用起來比Notepad++多的功能基本上就是工程管理和自動補全。一般來說下載Community版本就夠用了。安裝完成以后就可以使用了。

 

三、Python3爬蟲包安裝

  這里使用requests和beautifulsoup作為主要的爬蟲工具。安裝方式很簡單。打開cmd,輸入這兩行代碼:

pip install beautifulsoup4
pip install requests

  Python3默認會自動安裝pip,直接使用即可。

  可以用下面一段簡單的代碼來測試一下這兩個包:

# coding : utf-8
import requests
from bs4 import BeautifulSoup

r = requests.get("http://news.163.com/")
soup = BeautifulSoup(r.content,'html.parser',from_encoding="gb18030")
for i in soup.find_all('a'):
    try:
        print(i["href"])
    except Exception as e:
        pass

  幾行代碼就實現了把網易新聞首頁的所有鏈接都提取出來了。是不是很方便?

  要了解更多關於這兩個包的知識可以去看官方文檔,寫的非常清楚。

  requests文檔

  beautifulsoup文檔

 

  至此,我們已經配置好了需要的所有爬蟲工具,后面會詳細介紹怎么在項目中使用。

  拓展閱讀:其實Python可以使用的爬蟲包還有很多,這里使用的是requests,其實對於一些有網頁動態代碼抓取需求的還可以使用selenium。可以參考我的另一篇博客python3初識selenium

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM