Python爬蟲實踐入門，超詳細

1、前言

學習Python二個多月啦，周末時開始興趣學習爬蟲，雖然有點概念，但是也折騰了大半天，下面就開始簡要記錄一下吧。

2、需要的准備

Python：需要基本的python語法基礎
requests：專業用於請求處理，requests庫學習文檔中文版
lxml：其實可以用pythonth自帶的正則表達式庫re，但是為了更加簡單入門，用 lxml 中的 etree 進行網頁數據定位爬取。
這里特別注意：不管你是為了Python就業還是興趣愛好，記住：項目開發經驗永遠是核心，如果你沒有2020最新python入門到高級實戰視頻教程，可以去小編的Python交流.裙：七衣衣九七七巴而五（數字的諧音）轉換下可以找到了，里面很多新python教程項目，還可以跟老司機交流討教！

通過pip安裝 requests 和 lxml 庫，在終端輸入：

pip install requests
pip install lxml
復制代碼

注：如果是安裝到Python3就用pip3 install

下載過程成功的輸出：

Collecting lxml
  Cache entry deserialization failed, entry ignored
  Downloading https://files.pythonhosted.org/packages/00/fd/5e65f293e366a63198dade275b886e5d24752367c2e67e3993023b0d58ef/lxml-4.2.3-cp36-cp36m-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whl (8.7MB)
    100% |████████████████████████████████| 8.7MB 821kB/s 
Installing collected packages: lxml
Successfully installed lxml-4.2.3
復制代碼

注：如果安裝過程遇到任何問題，請谷歌吧，如果網上找不到答案，也不要問我！找不到答案我直播吃翔！！！

3、實踐過程

為了這過程有點興趣，我找了一個美圖的網站，爬蟲了一波圖片~

實踐爬蟲的網站鏈接：https://www點aitaotu點com（注意，這不是打廣告！）

下載頁面html內容：

    page = 'https://www點aitaotu點com/guonei/36350.html' data = requests.get(page).text dom = etree.HTML(data) 復制代碼

解析(定位)元素:

    title_path = '//*[@id="photos"]/h1/text()' totalpage_path = '//*[@id="picnum"]/span[2]/text()' image_path = '//*[@id="big-pic"]/p/a/img' 復制代碼

這里的xpath怎么獲取，就是網頁里面，打開開發者檢查元素工具，在safari和chrome都有這個功能：

注意：不管你是為了Python就業還是興趣愛好，記住：項目開發經驗永遠是核心，如果你沒有2020最新python入門到高級實戰視頻教程，可以去小編的Python交流.裙：七衣衣九七七巴而五（數字的諧音）轉換下可以找到了，里面很多新python教程項目，還可以跟老司機交流討教！

本文的文字及圖片來源於網絡加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理。

Python爬蟲實踐入門，超詳細

1、前言

2、需要的准備

3、實踐過程

免責聲明！