一個簡單的百度爬蟲

本文轉載自查看原文 2018-04-07 18:43 3402

0x00

　　之前不知道python怎么爬取百度的內容，因為看到有很多參數，直接復制下來改變wd參數總是會出現各種奇怪的問題

　　昨晚經程師傅指點才知道原來很多參數並不是必要的。今天才搜了下百度的各個參數的意義，以前居然沒想到去搜一下百度的參數，感覺自己真是太愚鈍了

　　於是，今天寫了個小小的百度爬蟲

0x01

　　代碼：

#!/usr/bin/python
# -*- coding:utf-8 -*-
# 昏鴉

import requests
import re
import sys

def get_baidu(s,page=5):
	pattern = "data-tools='{\"title\":\"(.*?)\",\"url\":\"(.*?)\""

	for p in xrange(0,page*10+1,10):
		req = "http://www.baidu.com/s?wd={}&pn={}&cl=3".format(s,p)
		res = requests.get(url=req).text
		reg = re.findall(pattern,res)

		for i in xrange(len(reg)):
			title = reg[i][0]
			url = requests.get(url=reg[i][1]).url
			print title+'\n'+url+'\n\n'

if __name__=='__main__':
	get_baidu(sys.argv[1],int(sys.argv[2]))

　　結果：

0x02

　　只爬取了百度出來的標題和URL鏈接，默認爬取前5頁

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 一個簡單的爬蟲保存百度、360 搜索內容到數據庫百度翻譯爬蟲爬蟲之百度圖片一個簡單的python實現百度登錄操作爬蟲下載百度貼吧圖片百度地圖商家爬蟲百度圖片小爬蟲百度搜索結果爬蟲 1、Python request（爬蟲-百度翻譯） python爬蟲百度翻譯