[python]利用urllib+urllib2解決爬蟲分頁翻頁問題


最近由於公司的自動化測試工具需要將測試結果導出到excel中,奈何沒有學SSH,導致無法在工具本身中添加(工具是開發做的),故轉而使用python爬蟲來做,開發過程中遇到了一個問題:

  由於測試結果太多,需要翻頁,而翻頁時網址沒有變化,這就導致抓取的時候沒法依照網址去爬,遂去網上查找解決方法,最后找到利用urllib2提交post的方法來解決。

解決過程:

  

網址不變,而如果是用selenium的話,我又覺得太慢,畢竟selenium是用來做驗收測試的,不是用來爬數據的。言歸正傳,利用urllib2提交post的方法來獲取翻頁數據的話,首先的找到網頁對應的post,首先我找到了這個:

{'topage':'3'}

 

和這個:

{'pageNow':'3'}


(后者是正確的)

這需要大家自己去網頁里找規律,不一定被放到了哪個位置,我因為工具是公司開發寫的,我在他的頁面代碼里找到了如下這段:

所以確定是{'pageNow':'3'}是對的。

 

既然找到post的鍵值,那接下來的事就簡單了:

 1  2 url = 網絡地址
 3 #需要提交給表單鍵值對
 4 query = {'pageNow':'3'}
 5 
 6 #urllib.urlencode(query[, doseq]):將dict或者包含兩個元素的元組列表轉換成url參
 7 #數。例如 字典{'name': 'dark-bull', 'age': 200}將被轉換為"name=dark-bull&
 8 #age=200"
 9 date = urllib.urlencode(query)
10 #向服務器端發送請求
11 post = urllib2.Request(url,date)
12 #接收服務端返回的內容
13 response  = urllib2.urlopen(request)
14 #轉化為頁面代碼
15 page = response.read()
16 
17 
18 print page

以上,控制台上顯示出來的就是第三頁的代碼,這時大家就可以用正則去匹配自己需要的東西了\(^o^)/~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM