1、前言
學習Python二個多月啦,周末時開始興趣學習爬蟲,雖然有點概念,但是也折騰了大半天,下面就開始簡要記錄一下吧。
2、需要的准備
- Python:需要基本的python語法基礎
- requests:專業用於請求處理,requests庫學習文檔中文版
- lxml:其實可以用pythonth自帶的正則表達式庫re,但是為了更加簡單入門,用 lxml 中的 etree 進行網頁數據定位爬取。
這里特別注意:不管你是為了Python就業還是興趣愛好,記住:項目開發經驗永遠是核心,如果你沒有2020最新python入門到高級實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,里面很多新python教程項目,還可以跟老司機交流討教!
通過pip安裝 requests 和 lxml 庫,在終端輸入:
pip install requests
pip install lxml
復制代碼
注:如果是安裝到Python3就用pip3 install
下載過程成功的輸出:
Collecting lxml
Cache entry deserialization failed, entry ignored
Downloading https://files.pythonhosted.org/packages/00/fd/5e65f293e366a63198dade275b886e5d24752367c2e67e3993023b0d58ef/lxml-4.2.3-cp36-cp36m-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whl (8.7MB)
100% |████████████████████████████████| 8.7MB 821kB/s
Installing collected packages: lxml
Successfully installed lxml-4.2.3
復制代碼
- 注: 如果安裝過程遇到任何問題,請谷歌吧,如果網上找不到答案,也不要問我!找不到答案我直播吃翔!!!
3、實踐過程
為了這過程有點興趣,我找了一個美圖的網站,爬蟲了一波圖片~
實踐爬蟲的網站鏈接:https://www點aitaotu點com(注意,這不是打廣告!)
- 下載頁面html內容:
page = 'https://www點aitaotu點com/guonei/36350.html' data = requests.get(page).text dom = etree.HTML(data) 復制代碼
- 解析(定位)元素:
title_path = '//*[@id="photos"]/h1/text()' totalpage_path = '//*[@id="picnum"]/span[2]/text()' image_path = '//*[@id="big-pic"]/p/a/img' 復制代碼
這里的xpath怎么獲取,就是網頁里面,打開開發者檢查元素工具,在safari和chrome都有這個功能:
注意:不管你是為了Python就業還是興趣愛好,記住:項目開發經驗永遠是核心,如果你沒有2020最新python入門到高級實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,里面很多新python教程項目,還可以跟老司機交流討教!
本文的文字及圖片來源於網絡加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理。