2.1 Python3.5安裝以及爬蟲需要的環境配置

本文轉載自查看原文 2017-05-03 09:47 4622 Web開發

之所以選用Python，是因為對於網絡爬蟲來說，Python是最好上手的一種語言。本文講述的安裝配置都是基於Windows的環境。

另外我想說的是，文中用到的下載鏈接盡量官方網站上的下載鏈接，這是我比較喜歡的下載方式，一方面下載可靠，一方面鏈接穩定。如果官網要翻牆才能進去的話，為了方便讀者操作，就使用百度的下載鏈接了。

一、Python3安裝

首先，下載Python3，這里使用Python3.5.1版本，點擊下載：64位版本，32位版本。

雙擊打開，進行安裝。特別注意：要勾選上"Add to Path"選項，否則后面會很麻煩。

打開cmd窗口，測試一下是否真的裝好了。

如果剛才安裝的時候沒有勾選"Add to Path"，這個時候可能會報錯，這里就不講解添加環境變量的方法了，建議直接卸載重裝。

二、Python3的IDE

現在，Python3的運行環境已經裝好了，我們還需要一個IDE。這里建議有兩種選擇，第一種是Notepad++，第二種是PyCharm。

1. Notepad++

　　Notepad++下載地址

　　安裝完成后，下面說明怎么在Notepad++中安裝運行python的插件。

　　點擊"Show Plugin Manager"。

　　找到PyNPP，點擊Install。

　　安裝成功以后，就可以運行Python代碼了。

2. PyCharm

　　PyCharm下載地址

　　這是一個專門給Python編程用的IDE，用起來比Notepad++多的功能基本上就是工程管理和自動補全。一般來說下載Community版本就夠用了。安裝完成以后就可以使用了。

三、Python3爬蟲包安裝

這里使用requests和beautifulsoup作為主要的爬蟲工具。安裝方式很簡單。打開cmd，輸入這兩行代碼：

pip install beautifulsoup4
pip install requests

Python3默認會自動安裝pip，直接使用即可。

可以用下面一段簡單的代碼來測試一下這兩個包：

# coding : utf-8
import requests
from bs4 import BeautifulSoup

r = requests.get("http://news.163.com/")
soup = BeautifulSoup(r.content,'html.parser',from_encoding="gb18030")
for i in soup.find_all('a'):
    try:
        print(i["href"])
    except Exception as e:
        pass

幾行代碼就實現了把網易新聞首頁的所有鏈接都提取出來了。是不是很方便？

要了解更多關於這兩個包的知識可以去看官方文檔，寫的非常清楚。

requests文檔

beautifulsoup文檔

　　至此，我們已經配置好了需要的所有爬蟲工具，后面會詳細介紹怎么在項目中使用。

　　拓展閱讀：其實Python可以使用的爬蟲包還有很多，這里使用的是requests，其實對於一些有網頁動態代碼抓取需求的還可以使用selenium。可以參考我的另一篇博客python3初識selenium。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 1.安裝python3.5及電腦環境變量的配置 python3.5環境配置 linux環境-python3.5安裝為編寫網絡爬蟲程序安裝Python3.5 [python] Ubuntu 環境下安裝 python3.5 + pip Python3.5環境下安裝wxPtyhon 配置Pylint for Python3.5 ubuntu 16.04 安裝基於python3.5的虛擬環境virtualenv 安裝pygame for Python3.5 Linux 安裝 Python3.5