Python爬蟲入門這一篇就夠了

本文轉載自查看原文 2020-01-01 15:42 358 爬蟲技術大全

何謂爬蟲

所謂爬蟲，就是按照一定的規則，自動的從網絡中抓取信息的程序或者腳本。萬維網就像一個巨大的蜘蛛網，我們的爬蟲就是上面的一個蜘蛛，不斷的去抓取我們需要的信息。

爬蟲三要素

抓取
分析
存儲

基礎的抓取操作

1、urllib
在Python2.x中我們可以通過urllib 或者urllib2 進行網頁抓取，但是再Python3.x 移除了urllib2。只能通過urllib進行操作

 
                 import 
                 urllib.request 
                
                 response  
                 = 
                 urllib.request.urlopen( 
                 'https://blog.csdn.net/weixin_43499626' 
                 ) 
                
                 print 
                 (response.read().decode( 
                 'utf-8' 
                 ))

帶參數的urllib

1 2	`url` `=` `'https://blog.csdn.net/weixin_43499626'` `url` `=` `url` `+` `'?'` `+` `key` `+` `'='` `+` `value1` `+` `'&'` `+` `key2` `+` `'='` `+` `value2`

2、requests

requests庫是一個非常實用的HTPP客戶端庫，是抓取操作最常用的一個庫。Requests庫滿足很多需求

 
                 import 
                 requests 
                
 
                 # get請求 
                
 
                 response  
                 = 
                 requests.get(url 
                 = 
                 'https://blog.csdn.net/weixin_43499626' 
                 )   
                
 
                 print 
                 (response.text)    
                 #打印解碼后的返回數據 
                
 
                 # 帶參數的requests get請求 
                
 
                 response  
                 = 
                 requests.get(url 
                 = 
                 'https://blog.csdn.net/weixin_43499626' 
                 , params 
                 = 
                 { 
                 'key1' 
                 : 
                 'value1' 
                 ,  
                 'key2' 
                 : 
                 'value2' 
                 }) 
                

需要登錄的情況下

1、表單提交登錄
向服務器發送一個post請求並攜帶相關參數，將服務器返回的cookie保存在本地,cookie是服務器在客戶端上的“監視器”，記錄了登錄信息等。客戶端通過識別請求攜帶的cookie，確定是否登錄

 
                 params  
                 = 
                 { 
                 'username' 
                 :  
                 'root' 
                 ,  
                 'passwd' 
                 :  
                 'root' 
                 } 
                
 
                 response  
                 = 
                 requests.post( 
                 "http:xxx.com/login" 
                 , data 
                 = 
                 params) 
                
 
                 for 
                 key,value  
                 in 
                 response.cookies.items(): 
                
 
                      
                 print 
                 ( 
                 'key = ' 
                 , key  
                 + 
                 ' ||| value :' 
                 + 
                 value) 
                

2、cookie登錄
我們可以將登錄的cookie存儲在文件中，

 
                 import 
                 urllib.request 
                
                 import 
                 http.cookiejar 
                
                 """ 
                
                 保存登錄的cookie 
                
                 """ 
                
                 """ 
                
                 MozillaCookieJar ： cookiejar的子類 
                
                 從FileCookieJar派生而來，創建與Mozilla瀏覽器 cookies.txt兼容的FileCookieJar實例。 
                
                 """ 
                
                 cookie  
                 = 
                 http.cookiejar.MozillaCookieJar( 
                 'cookie.txt' 
                 ) 
                
                 # 構建一個cookie的處理器 
                
                 handler  
                 = 
                 urllib.request.HTTPCookieProcessor(cookie) 
                
                 # 獲取一個opener對象 
                
                 opener  
                 = 
                 urllib.request.build_opener(handler) 
                
                 # # 獲取一個請求對象 
                
                 request  
                 = 
                 urllib.request.Request( 
                 'http://flights.ctrip.com/' 
                 ,headers 
                 = 
                 { 
                 "Connection" 
                 :  
                 "keep-alive" 
                 }) 
                
                 # 請求服務器，獲取響應對象。cookie會在response里一起響應 
                
                 response  
                 = 
                 opener. 
                 open 
                 (request) 
                
                 # 保存cookie到文件 
                
                 cookie.save(ignore_discard 
                 = 
                 True 
                 , ignore_expires 
                 = 
                 True 
                 ) 
                
                 """ 
                
                 請求攜帶文件中的cookie 
                
                 """ 
                
                 import 
                 urllib.request 
                
                 import 
                 http.cookiejar 
                
                 cookie  
                 = 
                 http.cookiejar.MozillaCookieJar() 
                
                 cookie.load( 
                 'cookie.txt' 
                 , ignore_discard 
                 = 
                 True 
                 , ignore_expires 
                 = 
                 True 
                 ) 
                
                 handler  
                 = 
                 urllib.request.HTTPCookieProcessor(cookie) 
                
                 opener  
                 = 
                 urllib.request.build_opener(handler) 
                
                 request  
                 = 
                 urllib.request.Request( 
                 'http://flights.ctrip.com/' 
                 ) 
                
                 html  
                 = 
                 opener. 
                 open 
                 (request).read().decode( 
                 'gbk' 
                 ) 
                
                 print 
                 (html)

常見的反爬有哪些

1、通過user-agent來控制訪問
user-agent能夠使服務器識別出用戶的操作系統及版本、cpu類型、瀏覽器類型和版本。很多網站會設置user-agent白名單，只有在白名單范圍內的請求才能正常訪問。所以在我們的爬蟲代碼中需要設置user-agent偽裝成一個瀏覽器請求。有時候服務器還可能會校驗Referer，所以還可能需要設置Referer(用來表示此時的請求是從哪個頁面鏈接過來的)

 
                 # 設置請求頭信息 
                
                 headers  
                 = 
                 { 
                
                 'Host' 
                 :  
                 'https://blog.csdn.net' 
                 , 
                
                 'Referer' 
                 :  
                 'https://blog.csdn.net/weixin_43499626/article/details/85875090' 
                 , 
                
                 'User-Agent' 
                 :  
                 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' 
                
                 } 
                
                 response  
                 = 
                 requests.get( 
                 "http://www.baidu.com" 
                 , headers 
                 = 
                 headers)

如下是CSDN中的Request Header中的信息

 
                 accept:  
                 * 
                 / 
                 * 
                
 
                 accept 
                 - 
                 encoding: gzip, deflate, br 
                
 
                 accept 
                 - 
                 language: zh 
                 - 
                 CN,zh;q 
                 = 
                 0.9 
                
 
                 content 
                 - 
                 length:  
                 0 
                
 
                 cookie: bdshare_firstime 
                 = 
                 1500xxxxxxxx 
                 .............. 
                
 
                 origin: https: 
                 / 
                 / 
                 blog.csdn.net 
                
 
                 referer: https: 
                 / 
                 / 
                 blog.csdn.net 
                 / 
                 weixin_43499626 
                 / 
                 article 
                 / 
                 details 
                 / 
                 85875090 
                
 
                 user 
                 - 
                 agent: Mozilla 
                 / 
                 5.0 
                 (Windows NT  
                 10.0 
                 ; WOW64) AppleWebKit 
                 / 
                 537.36 
                 (KHTML, like Gecko) Chrome 
                 / 
                 68.0 
                 . 
                 3440.106 
                 Safari 
                 / 
                 537.36 
                
 
                 x 
                 - 
                 requested 
                 - 
                 with: XMLHttpRequest 
                

2、通過IP來限制

當我們用同一個ip多次頻繁訪問服務器時，服務器會檢測到該請求可能是爬蟲操作。因此就不能正常的響應頁面的信息了。
解決辦法常用的是使用IP代理池。網上就有很多提供代理的網站、

 
                 proxies  
                 = 
                 { 
                
 
                    
                 "http" 
                 :  
                 "http://119.101.125.56" 
                 , 
                
 
                    
                 "https" 
                 :  
                 "http://119.101.125.1" 
                 , 
                
 
                 } 
                
 
                 response  
                 = 
                 requests.get( 
                 "http://www.baidu.com" 
                 , proxies 
                 = 
                 random.choices(proxies))  
                

3、設置請求間隔

1 2	`import` `time` `time.sleep(` `1` `)`

4、自動化測試工具Selenium
Web應用程序測試的Selenium工具。該工具可以用於單元測試，集成測試，系統測試等等。它可以像真正的用戶一樣去操作瀏覽器(包括字符填充、鼠標點擊、獲取元素、頁面切換)，支持Mozilla Firefox、Google、Chrome、Safari、Opera、IE等等瀏覽器。

5、參數通過加密
某些網站可能會將參數進行某些加密，或者對參數進行拼接發送給服務器，以此來達到反爬蟲的目的。這個時候我們可以試圖通過js代碼，查看破解的辦法。
連接xxx
或者可以使用"PhantomJS",PhantomJS是一個基於Webkit的"無界面"(headless)瀏覽器，它會把網站加載到內存並執行頁面上的JavaScript，因為不會展示圖形界面，所以運行起來比完整的瀏覽器更高效。

6、通過robots.txt來限制爬蟲

robots.txt是一個限制爬蟲的規范，該文件是用來聲明哪些東西不能被爬取。如果根目錄存在該文件，爬蟲就會按照文件的內容來爬取指定的范圍。

瀏覽器訪問https://www.taobao.com/robots.txt
可以查看淘寶的robots.txt文件
部分內容如下

User-agent:  Baiduspider
Disallow:  /product/
Disallow:  /
User-Agent: Googlebot
 Disallow: /
User-agent: Bingbot
 Disallow: /
User-Agent: 360Spider
 Disallow: /
User-Agent: Yisouspider
 Disallow: /
User-Agent: Sogouspider
 Disallow: /
User-Agent: Yahoo! Slurp
 Disallow: /
User-Agent: *
 Disallow: /

可以看出淘寶拒絕了百度爬蟲、谷歌爬蟲、必應爬蟲、360爬蟲、神馬爬蟲，搜狗爬蟲、雅虎爬蟲等約束。

分析

我們可以分析爬取的網頁內容，獲得我們真正需要的數據，常用的有正則表達式，BeautifulSoup,XPath、lxml等

正則表達式是進行內容匹配，將符合要求的內容全部獲取；
xpath()能將字符串轉化為標簽，它會檢測字符串內容是否為標簽，但是不能檢測出內容是否為真的標簽；
Beautifulsoup是Python的一個第三方庫，它的作用和 xpath 作用一樣，都是用來解析html數據的相比之下，xpath的速度會快一點，因為xpath底層是用c來實現的

存儲

通過分析網頁內容，獲取到我們想要的數據，我們可以選擇存到文本文件中，亦可以存儲在數據庫中，常用的數據庫有MySql、MongoDB

存儲為json文件

 
                 import 
                 json 
                
                 dictObj  
                 = 
                 { 
                
                 '小明' 
                 :{ 
                
                 'age' 
                 :  
                 15 
                 , 
                
                 'city' 
                 :  
                 'beijing' 
                 , 
                
                 }, 
                
                 '湯姆' 
                 : { 
                
                 'age' 
                 :  
                 16 
                 , 
                
                 'city' 
                 :  
                 'guangzhou' 
                 , 
                
                 } 
                
                 } 
                
                 jsObj  
                 = 
                 json.dumps(dictObj, ensure_ascii 
                 = 
                 False 
                 ) 
                
                 fileObject  
                 = 
                 open 
                 ( 
                 'jsonFile.json' 
                 ,  
                 'w' 
                 ) 
                
                 fileObject.write(jsObj) 
                
                 fileObject.close()

存儲為cvs文件

 
                 import 
                 csv 
                
 
                 with  
                 open 
                 ( 
                 'student.csv' 
                 ,  
                 'w' 
                 , newline 
                 = 
                 '') as csvfile: 
                
 
                      
                 writer  
                 = 
                 csv.writer(csvfile) 
                
 
                      
                 writer.writerow([ 
                 '姓名' 
                 ,  
                 '年齡' 
                 ,  
                 '城市' 
                 ]) 
                
 
                      
                 writer.writerows([[ 
                 '小明' 
                 ,  
                 15 
                 ,  
                 '北京' 
                 ],[ 
                 '湯姆' 
                 ,  
                 16 
                 ,  
                 '廣州' 
                 ]]) 
                

存儲到Mongo

 
                 # mongo服務 
                
                 client  
                 = 
                 pymongo.MongoClient( 
                 'mongodb://127.0.0.1:27017/' 
                 ) 
                
                 # test數據庫 
                
                 db  
                 = 
                 client.test 
                
                 # student表,沒有自動創建 
                
                 student_db  
                 = 
                 db.student 
                
                 student_json  
                 = 
                 { 
                
                 'name' 
                 :  
                 '小明' 
                 , 
                
                 'age' 
                 :  
                 15 
                 , 
                
                 'city' 
                 :  
                 '北京' 
                
                 } 
                
                 student_db.insert(student_json)

歡迎關注我的公眾號：程序員共成長

公眾號內回復【禮包】，獲取程序員專屬資料，包括但不限於Java、Python、Linux、數據庫、大數據、架構、測試、前端、ui以及各方向電子書

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於Kaggle入門，看這一篇就夠了 Hibernate入門這一篇就夠了 Mybatis使用入門，這一篇就夠了 mybatis入門看這一篇就夠了 Elasticsearch入門，這一篇就夠了 Elasticsearch入門，看這一篇就夠了 MASA Blazor入門這一篇就夠了 MASA Blazor入門這一篇就夠了關於反爬蟲，看這一篇就夠了（轉） Linux？這一篇就夠了