0x00
之前不知道python怎么爬取百度的內容,因為看到有很多參數,直接復制下來改變wd參數總是會出現各種奇怪的問題
昨晚經程師傅指點才知道原來很多參數並不是必要的。今天才搜了下百度的各個參數的意義,以前居然沒想到去搜一下百度的參數,感覺自己真是太愚鈍了
於是,今天寫了個小小的百度爬蟲
0x01
代碼:
#!/usr/bin/python
# -*- coding:utf-8 -*-
# 昏鴉
import requests
import re
import sys
def get_baidu(s,page=5):
pattern = "data-tools='{\"title\":\"(.*?)\",\"url\":\"(.*?)\""
for p in xrange(0,page*10+1,10):
req = "http://www.baidu.com/s?wd={}&pn={}&cl=3".format(s,p)
res = requests.get(url=req).text
reg = re.findall(pattern,res)
for i in xrange(len(reg)):
title = reg[i][0]
url = requests.get(url=reg[i][1]).url
print title+'\n'+url+'\n\n'
if __name__=='__main__':
get_baidu(sys.argv[1],int(sys.argv[2]))
結果:

0x02
只爬取了百度出來的標題和URL鏈接,默認爬取前5頁
