爬蟲的三種數據解析方式和驗證碼的處理

本文轉載自查看原文 2019-01-28 21:01 1722 數據采集

1,正則解析:就是通過正則匹配定位到要獲取數據的標簽,獲取響應的數據

直接上代碼(以爬取糗事百科為例)

import requests
import re import os if __name__ == '__main__': # 訪問請求的url url = "https://www.qiushibaike.com/pic/page/%s/" # 定制請求頭 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" } # 指定其實和結束頁碼 page_start = input("請輸入起始頁碼:") page_end = input("請輸入結束頁碼:") # 創建文件夾 if not os.path.exists("images"): os.mkdir("images") # 循環解析且下載指定頁碼中的圖片數據 for page in range(int(page_start), int(page_end)+1): print("第%s頁圖片正在下載" % page) new_url = format(url % page) response = requests.get(url=new_url, headers=headers) # 解析response中的圖片鏈接 e = '<div class="thumb">.*?<img src="(.*?)".*?>.*?</div>' pa = re.compile(e, re.S) image_urls = pa.findall(response.text) # 循環下載該頁碼下的多有url圖片數據 for image_url in image_urls: image_url = "https:" + image_url image_name = image_url.split("/")[-1] image_path = "images/" + image_name image_data = requests.get(url=image_url, headers=headers).content # 存儲到本地 with open(image_path, "wb") as fp: fp.write(image_data)

2,xpath的表達式:是一種用來定位標簽的層級關系的一中表達式

xpath表達式的要點:

# 屬性定位:
    # 找到class屬性值為xuexue的div標簽
    //div[@class='xuexue']  # //表示多層目錄下
# 層級&索引定位:
    
    # 找到class屬性值為xue的div的直系子標簽ul下的第二個子標簽li下的直系a標簽
    //div[@class="xue"]/ul/li[2]/a  # xpath表達式支持索引,但索引是從1開始的
# 邏輯運算:
    # 找到href屬性值為空且class屬性值為du的a標簽
    //a[@href="" and @class="du"]  # xpath 表達式支持偶家運算
#模糊胡匹配:
    //div[contains(@class, "ng")]
    //div[starts-with(@class, "ta")] #取文本: #表示獲取某個標簽下的文本內容 #//表示獲取某個標簽下文本內容和所有子標簽下的文本內容 //div[@class="xuexue"]/p[1]/text() //div[@class="xuexue"]//text() # 取屬性: // div[@class="xuexue"]//li[2]/a/@href

代碼中xpath表達式進行數據解析:
1. 下載:pip install lxml
2. 導包: from lxml import etree
3. 將html文檔或xml文檔轉換成一個etree對象,然后調用對象中的方法查找指定的節點
  1. 本地文件: tree = etree.parse(文件名) tree.xpath("xpath表達式")
  2. 網絡數據:tree = etree.HTML(網頁內容字符串) tree.xpath("xpath表達式")
安裝xpath插件在瀏覽器中對xpath表達式進行驗證:可以在插件中直接執行xpath表達式
- 將xpath插件拖動到谷歌瀏覽器拓展程序(更多工具中),真能裝成功!!!
- 啟動和關閉插件:ctrl + shift + x
下載簡單中的圖片數據

import requests
from lxml import etree import base64 from urllib import request # 指定要訪問的url url = "http://jandan.net/ooxx" # 指定響應頭 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" } page_text = requests.get(url=url, headers=headers).text tree = etree.HTML(page_text) imgCode_list = tree.xpath("//span[@class='img-hash']/text()") imgUrl_list = [] for url in imgCode_list: img_url = "http:" + base64.b64decode(url).decode() imgUrl_list.append(img_url) for url in imgUrl_list: filePath = url.split("/")[-1] request.urlretrieve(url=url, filename=filePath) print(filePath + "下載成功!") # 查看頁面源碼：發現所有圖片的src值都是一樣的。 #簡單觀察會發現每張圖片加載都是通過jandan_load_img(this)這個js函數實現的。 #在該函數后面還有一個class值為img-hash的標簽，里面存儲的是一組hash值，該值就是加密后的img地址 #加密就是通過js函數實現的，所以分析js函數，獲知加密方式，然后進行解密。 #通過抓包工具抓取起始url的數據包，在數據包中全局搜索js函數名（jandan_load_img），然后分析該函數實現加密的方式。 #在該js函數中發現有一個方法調用，該方法就是加密方式，對該方法進行搜索 #搜索到的方法中會發現base64和md5等字樣，md5是不可逆的所以優先考慮使用base64解密 #print(page_text) #在抓包工具的數據包響應對象對應的頁面中進行xpath的編寫，而不是在瀏覽器頁面中。 #獲取了加密的圖片url數據

3,BeautifulSoup解析

環境的安裝
1. 需要將pip原設置為國內源,阿里源,豆瓣源,網易源等
2. windows
  1. 打開文件資源管理器(文佳佳地址欄中)
  2. 地址欄上面輸入 %appdata%
  3. 在這里建一個文件夾 pip
  4. 在pip文件夾里新建一個文件叫做pip.ini,內容如下寫即可
    - [global]
    - timeout = 6000
    - index-url = https://mirrors.aliyun.com/pypi/simple/
    - trusted-host = mirrors.aliyun.com
3. linux中:
  1. cd ~
  2. mkdir ~/.pip
  3. vi ~/.pip/pip.conf
  4. 編輯內容,和windows一樣
4. 需要安裝:pip install bs4
- - bs4在使用時候需要一個第三方的庫, 把這個庫也安裝一下
  - pip install lxml
基礎使用
1. 導包: from bs4 import BeautifulSoup
2. 使用方式:可以將html文檔,轉化為BeautifulSoup對象,然后通過對象的方法或者屬性去查找指定節點的內容
  1. 轉化本地文件: soup = BeautifulSoup(open("本地文件"), "lxml")
  2. 轉化網絡文件: soup = BeautifulSoup("字符串類型或者字節類型", "lxml")
  3. 打印soup對象顯示內容為htnl文件中的內容
BeautifulSoup知識點:
1. 根據標簽名查找:
  - soup.a 只能查找第一符合要求的標簽
2. 獲取屬性:
  - soup.a.attrs 獲取所有屬性和屬性值,返回一個字典
  - soup.a.attrs["href"] 獲取href屬性
  - soup.a["href"] 也可以簡寫成這種形式
3. 獲取內容
  - soup.a.string
  - soup.a.text
  - soup.a.get_text()
  - 注意,如果標簽還有標簽,那么string獲取到的結果為None,而其他兩個,可以獲取文本內容
4. find:找到第一個符合要求的標簽
  - soup.find("a") 找到第一個符合要求的
  - soup.find("a", title="xuexue")
  - soup.find("a", alt="xuexue")
  - soup.find("a", class="xuexue")
  - soup.find("a", id="xuexue")
5. find_all:找到所有符合要求的標簽
  - soup.find_all("a")
  - soup.find_all(["a","b"]) # 找到所有的a標簽和b標簽
  - soup.find_all("a", limit=2) # 限制前兩個
6. 根據選擇器選擇指定的內容
  - select:soup.select("#feng")
  - 常見的選擇器:標准選擇器(a),類選擇器(.),id選擇器(#),層級選擇器
    - 層級選擇器:
      - div.xuexue #xiaoxue.haha .hehe 下面好多級
      - div>p>a>.xuexue 只能是下面一級
    - 注意:select選擇器返回的永遠是列表,需要通過下標提取指定的對象

相關的代碼如下:

import requests
from bs4 import BeautifulSoup # 指定響應頭 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" } # 定義解析內容的函數 def parse_content(url): # 獲取標題正文頁數據 page_text = requests.get(url=url, headers=headers).text # 實例化一個BeautifulSoup對象 soup = BeautifulSoup(page_text, "lxml") # 解析獲得標簽 element = soup.find("div", class_="chapter_content") content = element.text # 獲取標簽中的數據值 return content if __name__ == '__main__': url = "http://www.shicimingju.com/book/sanguoyanyi.html" # 發送請求后的響應體 response = requests.get(url=url, headers=headers) page_text = response.text print(page_text) # 創建soup對象 soup = BeautifulSoup(page_text, "lxml") # 解析數據 a_else = soup.select(".book-mulu>ul>li>a") print(a_else) cap = 1 for ele in a_else: print("開始下載di%s章節" % cap) cap += 1 title = ele.string content_url = "http://www.shicimingju.com" + ele["href"] content = parse_content(content_url) print(content) content = content.replace("\xa0", "") # 持久化存儲 with open("./mengsanguo.txt", "w") as fp: fp.write(title + ":" + content + "\n\n\n\n\n") print("結束下載第%s章節" % cap)

4,驗證碼的處理

相關門戶網站進行登錄的時候,如果用戶連續登錄的次數超過3次或者5次的時候,就會在登錄頁面中生成驗證碼,通過驗證碼達到分流和反爬的效果
雲打碼處理平台是一個很好的處理驗證碼的平台

雲打碼平台處理驗證碼實現流程:

對攜帶驗證碼的頁面數據進行爬取
可以將頁面數據中驗證碼進行解析,驗證碼圖片下載到本地
可以將驗證碼圖片提交給第三方平台進行識別,返回驗證碼圖片上的數據值
- 雲打碼平台:
  1. 在官網中注冊(普通用戶和開發者用戶)
  2. 登錄開發者用戶:
    1. 實例代碼的下載
    2. 創建一個軟件
  3. 使用實例代碼中的源碼文件中的代碼進行修改,讓其識別驗證碼圖片中的數據值
代碼展示:

# 該函數調用了打碼平台的相關的接口對指定的驗證碼圖片進行識別,返回圖片上的數據值
def getCode(codeImg):
    # 雲打碼普通用戶的用戶名
    username = "xueren"
    # 雲打碼平台普通用戶的密碼
    password = "xueren123"
    # 軟件ID,開發者分成必要參數,登錄開發者后台[我的軟件]獲得!
    # 軟件密鑰,開發者分成必要參數 ,登錄開發者后台[我的軟件]獲得!
    appkey = "4997f67b0128c77cda6db5259f5f76a9"
    # 驗證碼圖片文件
    filename = codeImg # 驗證碼類型, 列如:1004表示4位字母數字,不同類型收費不同,請准確 填寫,否則影響別率 查詢所有驗證碼類型:http://www.yundama.com/price.html codetype = 3000 # 超市時間,秒 timeout = 20 # 檢查 if (username == "username"): print("請設置好相關參數再測試") else: # 初始化 yundama = YDMHttp(username, password, appid, appkey) # 登錄雲打碼 uid = yundama.login() print("uid: %s" % uid) # 查詢余額 balance = yundama.balance() print("balance:"% balance) # 開始識別,圖片路徑, 驗證碼類型ID,超時時間(秒), 識別結果 cid, result = yundama.decode(filename, codetype, timeout) print("cod: %s, result: %s" % (cid, result)) return result

人人網驗證碼的爬取及處理:

def get_code_text(codeType, imgPath):
    # 用戶名:普通用戶
    username = "xueren"
    # 密碼
    password = "xueren123"
    # 軟件ID, 開發者分成必要參數.登錄開發者后台[我的軟件]獲得!
    appid = 6609
    # 軟件密鑰,開發者分成必要參數,登錄開發者后台[我的軟件]獲得!
    appkey = "4997f67b0128c77cda6db5259f5f76a9"
    # 圖片文件
    filename = imgPath # 驗證碼類型, # 列:1004表示4位字母數字,不同類型收費不同.請准確填寫,否則影響識別率. # 在此查詢所有類型 http://www.yundama.com/price.html codetype = codeType # 超時時間,秒 timeout = 10 # 檢查 if(username == "username"): print("請設置好相關參數在測試") else: yundama = YDMHttp(username, password, appid, appkey) # 登錄雲打碼 uid = yundama.login(); print("uid:%s" % uid) # 查詢余額 balance = yundama.balance(); print("balance %s" % balance) # 開始識別,圖片路徑,驗證碼類型ID, 超時時間(秒), 識別結果 cid, result = yundama.decode(filename, codeType, timeout); # print("cid: %s, result: %s" % (cid, result)) return result

import requests
from lxml import etree from urllib import request # 獲取一個session對象 session = requests.Session() # session對象和requests作用幾乎一樣,都可以進行請求的發送,並且請求發送的方式也是一樣的 # session進行請求的發送,如果會產生cookie的話 ,則cookie會自動被存儲到session中 # 獲取驗證碼圖片 # 找到請求的url url = "http://www.renren.com/" # 找到請求的請求頭UA headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" } # 向人人網發送請求,拿到驗證碼 page_text = requests.get(url=url, headers=headers).text # 將驗證碼圖片解析出來進行持久化存儲 tree = etree.HTML(page_text) # 拿到驗證碼的url code_img_src = tree.xpath('//*[@id="verifyPic_login"]/@src')[0] code = None if code_img_src: # 保存驗證碼圖片 request.urlretrieve(url=code_img_src, filename="./code.jpg") # 調用damayun破解驗證碼 code = get_code_text(2004, "./code.jpg") print(code) # 模擬登陸 login_url = "http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201903209693" data = { 'email': "18731229751", "icode": code, "origURL": "http://www.renren.com/home", "domain": "renren.com", "key_id":"1", "captcha_type": "web_login", "password": "2ffe7682a8e5f246b91115f02ed84bec462e9e81cb1d53c26159c422b2bf4b23", "rkey": "8903172b11d2f2476d3db75417116a1c", "f": "https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3D52HnJhxy_aSfPbj2R5LMlG4a6294qGfXen5puJr--HG%26wd%3D%26eqid%3D9e26635d000114c1000000035c35e61e", } # 進行登錄, 當登錄成功之后,可以獲取cookie # cookie會被保存到sessio中 response = session.post(url=login_url, headers=headers, data=data) # 對登錄成功后對應的當前用戶的個人詳情頁面進行請求發送 detail_url = "http://www.renren.com/969397800/profile" # 該次請求使用的是session對象,該請求已經攜帶了cookie page_text = session.get(url=detail_url, headers=headers).text # 保存到本地 with open("./renren.html", "w", encoding="utf-8") as fp: fp.write(page_text) print("ok")

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲-三種數據解析方式 <爬蟲>驗證碼登錄三種方式 Python爬蟲之三種數據解析方式 (五) Python網絡爬蟲之三種數據解析方式 Python爬蟲的三種數據解析方式三種數據解析方式爬蟲之四種數據解析方式 python網絡爬蟲數據中的三種數據解析方式 05.Python網絡爬蟲之三種數據解析方式爬蟲數據解析的三種方式