Python網絡爬蟲與信息提取（一）

本文轉載自查看原文 2017-08-28 19:39 4281 Python爬蟲

　　　　　　　　　　　　　　學習北京理工大學嵩天課程筆記

課程體系結構：

　　1、Requests框架：自動爬取HTML頁面與自動網絡請求提交
　　2、robots.txt:網絡爬蟲排除標准
　　3、BeautifulSoup框架：解析HTML頁面
　　4、Re框架：正則框架，提取頁面關鍵信息
　　5、Scrapy框架：網絡爬蟲原理介紹，專業爬蟲框架介紹

　　理念：The Website is the API ...

Python語言常用的IDE工具

　　文本工具類IDE：
　　　　IDLE、Notepad++、Sublime Text、Vim & Emacs、Atom、Komodo Edit

　　集成工具IDE：
　　　　PyCharm、Wing、PyDev & Eclipse、Visual Studio、Anaconda & Spyder、Canopy

　　·IDLE是Python自帶的默認的常用的入門級編寫工具，它包含交互式文件式兩種方式。適用於較短的程序。
　　·Sublime Text是專為程序員開發的第三方專用編程工具，可以提高編程體驗，具有多種編程風格。
　　·Wing是Wingware公司提供的收費IDE，調試功能豐富，具有版本控制，版本同步功能，適合於多人共同開發。適用於編寫大型程序。
　　·Visual Studio是微軟公司維護的，可以通過配置PTVS編寫Python，主要以Windows環境為主，調試功能豐富。
　　·Eclipse是一款開源的IDE開發工具，可以通過配置PyDev來編寫Python，但是配置過程復雜，需要有一定的開發經驗。
　　·PyCharm分為社區版和專業版，社區版免費，具有簡單、集成度高的特點，適用於編寫較復雜的工程。

　　適用於科學計算、數據分析的IDE：
　　·Canopy是由Enthought公司維護的收費工具，支持近500個第三方庫，適合科學計算領域應用開發。
　　·Anaconda是開源免費的，支持近800個第三方庫。

Requests庫入門

Requests的安裝：

　　Requests庫是目前公認的爬取網頁最好的Python第三方庫，具有簡單、簡捷的特點。

　　官方網站：http://www.python-requests.org

　　在"C:\Windows\System32"中找到"cmd.exe"，使用管理員身份運行，在命令行中輸入：“pip install requests”運行。

　　使用IDLE測試Requests庫：

>>> import requests
>>> r = requests.get("http://www.baidu.com")#抓取百度頁面
>>> r.status_code
200
>>> r.encoding = 'utf-8'
>>> r.text

Requests庫的7個主要方法

方法	說明
requests.request()	構造一個請求，支撐以下各方法的基礎方法
requests.get()	獲取HTML網頁的主要方法，對應於HTTP的GET
requests.head()	獲取HTML網頁頭信息的方法，對應於HTTP的HEAD
requests.post()	向HTML網頁提交POST請求的方法，對應於HTTP的POST
requests.put()	向HTML網頁提交PUT請求的方法，對應於HTTP的PUT
requests.patch()	向HTML網頁提交局部修改請求，對應於HTTP的PATCH
requests.delete()	向HTML頁面提交刪除請求，對應於HTTP的DELET

詳細信息參考 Requests庫 API文檔：http://www.python-requests.org/en/master/api/

　　get()方法
　　　　r = requests.get(url)

　　　　　　get()方法構造一個向服務器請求資源的Request對象，返回一個包含服務器資源的Response對象。

　　　　requests.get(url, params=None, **kwargs)

　　　　　　url：擬獲取頁面的url鏈接

　　　　　　params：url中的額外參數，字典或字節流格式，可選

　　　　　　**kwargs：12個控制訪問參數

Requests庫的2個重要對象
　　　· Request

　　　· Response:Response對象包含爬蟲返回的內容

Response對象的屬性

　　r.status_code ：HTTP請求的返回狀態，200表示連接成功，404表示失敗

　　r.text ：HTTP響應內容的字符串形式，即，url對應的頁面內容

　　r.encoding ：從HTTP header中猜測的相應內容編碼方式　

　　r.apparent_encoding ：從內容中分析出的相應內容編碼方式（備選編碼方式）

　　r.content ： HTTP響應內容的二進制形式

　　r.encoding ：如果header中不存在charset，則認為編碼為ISO-8859-1 。

　　r.apparent_encoding ：根據網頁內容分析出的編碼方式可以看作是r.encoding的備選。

Response的編碼：

　　r.encoding : 從HTTP header中猜測的響應內容的編碼方式；如果header中不存在charset，則認為編碼為ISO-8859-1，r.text根據r.encoding顯示網頁內容
　　r.apparent_encoding : 根據網頁內容分析出的編碼方式，可以看作r.encoding的備選

爬取網頁的通用代碼框架

Requests庫的異常

異常	說明
requests.ConnectionError	網絡連接錯誤異常，如DNS查詢失敗拒絕連接等
requests.HTTPError	HTTP錯誤異常
requests.URLRequired	URL缺失異常
requests.ToolManyRedirects	超過最大重定向次數，產生重定向異常
requests.ConnectTimeout	連接遠程服務器超時異常
requests.Timeout	請求URL超時，嘗試超時異常

Response的異常

　　r.raise_for_status() : 如果不是200，產生異常requests.HTTPError；

　　在方法內部判斷r.status_code是否等於200，不需要增加額外的if語句，該語句便於利用try-except進行異常處理


import requests

def getHTMLText(url):
　　try:
　　　　r = requests.get(url, timeout=30)
　　　　r.raise_for_status()    # 如果狀態不是200，引發HTTPError異常
　　　　r.encoding = r.apparent_encoding
　　　　return r.text
　　except:    
　　　　return "產生異常"

if __name__ == "__main__":
　　url = "http://www.baidu.com"
　　print(getHTMLText(url))

　　通用代碼框架，可以使用戶爬取網頁變得更有效，更穩定、可靠。

HTTP協議

　　HTTP,Hypertext Transfer Protocol，超文本傳輸協議。

　　HTTP是一個基於“請求與響應”模式的、無狀態的應用層協議。

　　HTTP協議采用URL作為定位網絡資源的標識。

URL格式：http://host[:port][path]

　　· host：合法的Internet主機域名或IP地址
　　· port：端口號，缺省端口號為80
　　· path：請求資源的路徑

HTTP URL的理解：

　　URL是通過HTTP協議存取資源的Internet路徑，一個URL對應一個數據資源。

HTTP協議對資源的操作

方法	說明
GET	請求獲取URL位置的資源
HEAD	請求獲取URL位置資源的響應消息報告，即獲得該資源的頭部信息
POST	請求向URL位置的資源后附加新的數據
PUT	請求向URL位置存儲一個資源，覆蓋原URL位置資源
PATCH	請求局部更新URL位置的資源，即改變該處資源的部分內容
DELETE	請求刪除URL位置存儲的資源

理解PATCH和PUT的區別

　　假設URL位置有一組數據UserInfo，包括UserID、UserName等20個字段。
　　需求：用戶修改了UserName，其他不變。
　　　　· 采用PATCH，僅向URL提交UserName的局部更新請求。
　　　　· 采用PUT，必須將所有20個字段一並提交到URL，未提交字段被刪除。

　　PATCH的主要好處：節省網絡帶寬

Requests庫主要方法解析

　　requests.request(method, url, **kwargs)
　　　　· method：請求方式，對應get/put/post等7種
　　　　　　例： r = requests.request('OPTIONS', url, **kwargs)
　　　　· url：擬獲取頁面的url鏈接
　　　　· **kwargs：控制訪問的參數，共13個，均為可選項
　　　　　　params：字典或字節序列，作為參數增加到url中；

kv = {'key1':'value1', 'key2':'value2'}
r = requests.request('GET', 'http://python123.io/ws',params=kv)
print(r.url)
'''
http://python123.io/ws?key1=value1&key2=value2
'''

　　　　　　data：字典、字節序列或文件對象，作為Request的內容；

　　　　　　json：JSON格式的數據，作為Request的內容；
　　　　　　headers：字典，HTTP定制頭；

hd = {'user-agent':'Chrome/10'}
r = requests.request('POST','http://www.yanlei.shop',headers=hd)

　　　　　　cookies：字典或CookieJar，Request中的cookie；

　　　　　　auth：元組，支持HTTP認證功能；
　　　　　　files：字典類型，傳輸文件；

fs = {'file':open('data.xls', 'rb')}
r = requests.request('POST','http://python123.io/ws',files=fs)

　　　　　　timeout：設定超時時間，秒為單位；
　　　　　　proxies：字典類型，設定訪問代理服務器，可以增加登錄認證
　　　　　　allow_redirects：True/False，默認為True，重定向開關；
　　　　　　stream：True/False，默認為True，獲取內容立即下載開關；
　　　　　　verify：True/False，默認為True，認證SSL證書開關；
　　　　　　cert：本地SSL證書路徑

#方法及參數
requests.get(url, params=None, **kwargs)
requests.head(url, **kwargs)
requests.post(url, data=None, json=None, **kwargs)
requests.put(url, data=None, **kwargs)
requests.patch(url, data=None, **kwargs)
requests.delete(url, **kwargs)

網絡爬蟲引發的問題
　　性能騷擾：
　　　　受限於編寫水平和目的，網絡爬蟲將會為web服務器帶來巨大的資源開銷
　　法律風險：
　　　　服務器上的數據有產權歸屬，網路爬蟲獲取數據后牟利將帶來法律風險。
　　隱私泄露：
　　　　網絡爬蟲可能具備突破簡單訪問控制的能力，獲得被保護數據從而泄露個人隱私。

網絡爬蟲的限制
　　·來源審查：判斷User-Agent進行限制
　　　　檢查來訪HTTP協議頭的User-Agent域，值響應瀏覽器或友好爬蟲的訪問。
　　· 發布公告：Roots協議
　　　　告知所有爬蟲網站的爬取策咯，要求爬蟲遵守。

Robots協議
　　Robots Exclusion Standard 網絡爬蟲排除標准

　　作用：網站告知網絡爬蟲哪些頁面可以抓取，哪些不行。
　　形式：在網站根目錄下的robots.txt文件。
　　案例：京東的Robots協議
　　　　http://www.jd.com/robots.txt

# 注釋：*代表所有，/代表根目錄
User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

Robots協議的使用

　　網絡爬蟲：自動或人工識別robots.txt，再進行內容爬取。

　　約束性：Robots協議是建議但非約束性，網絡爬蟲可以不遵守，但存在法律風險。

Requests庫網絡爬蟲實戰

1、京東商品

import requests
url = "https://item.jd.com/5145492.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失敗")

2、亞馬遜商品

# 直接爬取亞馬遜商品是會被拒絕訪問，所以需要添加'user-agent'字段
import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    kv = {'user-agent':'Mozilla/5.0'} # 使用代理訪問
    r = requests.get(url, headers = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(t.text[1000:2000])
except:
    print("爬取失敗")

3、百度/360搜索關鍵詞提交
　　搜索引擎關鍵詞提交接口
　　　　· 百度的關鍵詞接口：
　　　　　　http://www.baidu.com/s?wd=keyword
　　　　· 360的關鍵詞接口：
　　　　　　http://www.so.com/s?q=keyword

# 百度
import requests
keyword = "Python"
try:
    kv = {'wd':keyword}
    r = requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失敗")

# 360
import requests
keyword = "Python"
try:
    kv = {'q':keyword}
    r = requests.get("http://www.so.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失敗")

View Code

4、網絡圖片的爬取和存儲

　　網絡圖片鏈接的格式：
　　　　http://www.example.com/picture.jpg
　　國家地理：
　　　　http://www.nationalgeographic.com.cn/
　　選擇一張圖片鏈接：
　　　　http://image.nationalgeographic.com.cn/2017/0704/20170704030835566.jpg

 圖片爬取全代碼
import requests
import os
url = "http://image.nationalgeographic.com.cn/2017/0704/20170704030835566.jpg"
root = "D://pics//"
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失敗")

5、IP地址歸屬地的自動查詢

　　www.ip138.com IP查詢
　　http://ip138.com/ips138.asp?ip=ipaddress
　　http://m.ip138.com/ip.asp?ip=ipaddress

import requests
url = "http://m.ip138.com/ip.asp?ip="
ip = "220.204.80.112"
try:
    r = requests.get(url + ip)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1900:])
except:
    print("爬取失敗")

# 使用IDLE
>>> import requests
>>> url ="http://m.ip138.com/ip.asp?ip="
>>> ip = "220.204.80.112"
>>> r = requests.get(url + ip)
>>> r.status_code
200
>>> r.text

View Code

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python網絡爬蟲與信息提取 Python網絡爬蟲與信息提取（三）—— Re模塊 Python網絡爬蟲與信息提取（一）（入門篇） Python網絡爬蟲與信息提取[request庫的應用](單元一) 【學習筆記】PYTHON網絡爬蟲與信息提取(北理工嵩天) Python網絡爬蟲與信息提取-中國大學排名（2021年） python——beautifulsoup標簽搜索以及信息提取 PDF的信息提取的問題 1.文本摘要和信息提取 lmth1 一個用Python編寫的便捷網頁信息提取工具