學習Python也有一段時間了,各種理論知識大體上也算略知一二了,今天就進入實戰演練:通過Python來編寫一個拉勾網薪資調查的小爬蟲。
第一步:分析網站的請求過程
我們在查看拉勾網上的招聘信息的時候,搜索Python,或者是PHP等等的崗位信息,其實是向服務器發出相應請求,由服務器動態的響應請求,將我們所需要的內容通過瀏覽器解析,呈現在我們的面前。
可以看到我們發出的請求當中,FormData中的kd參數,就代表着向服務器請求關鍵詞為Python的招聘信息。
分析比較復雜的頁面請求與響應信息,推薦使用Fiddler,對於分析網站來說絕對是一大殺器。不過比較簡單的響應請求用瀏覽器自帶的開發者工具就可以,比如像火狐的FireBug等等,只要輕輕一按F12,所有的請求的信息都會事無巨細的展現在你面前。
經由分析網站的請求與響應過程可知,拉勾網的招聘信息都是由XHR動態傳遞的。
我們發現,以POST方式發出的請求有兩個,分別是companyAjax.json和positionAjax.json,它們分別控制當前顯示的頁面和頁面中包含的招聘信息。
可以看到,我們所需要的信息包含在positionAjax.json的Content->result當中,其中還包含了一些其他參數信息,包括總頁面數(totalPageCount),總招聘登記數(totalCount)等相關信息。
第二步:發送請求,獲取頁面
知道我們所要抓取的信息在哪里是最為首要的,知道信息位置之后,接下來我們就要考慮如何通過Python來模擬瀏覽器,獲取這些我們所需要的信息。
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
def read_page(url, page_num, keyword): |
其中比較關鍵的步驟在於如何仿照瀏覽器的Post方式,來包裝我們自己的請求。
request包含的參數包括所要抓取的網頁url,以及用於偽裝的headers。urlopen中的data參數包括FormData的三個參數(first、pn、kd)
包裝完畢之后,就可以像瀏覽器一樣訪問拉勾網,並獲得頁面數據了。
第三步:各取所需,獲取數據
獲得頁面信息之后,我們就可以開始爬蟲數據中最主要的步驟:抓取數據。
抓取數據的方式有很多,像正則表達式re,lxml的etree,json,以及bs4的BeautifulSoup都是python3抓取數據的適用方法。大家可以根據實際情況,使用其中一個,又或多個結合使用。
|
1
2
3
4
5
6
7
8
9
10
11
12
|
def read_tag(page, tag): |
第四步:將所抓取的信息存儲到excel中
獲得原始數據之后,為了進一步的整理與分析,我們有結構有組織的將抓取到的數據存儲到excel中,方便進行數據的可視化處理。
這里我用了兩個不同的框架,分別是老牌的xlwt.Workbook、以及xlsxwriter。
|
1
2
3
4
5
6
7
8
9
10
11
12
13
|
def save_excel(fin_result, tag_name, file_name): book.save_excel(r'C:\Users\Administrator\Desktop\%s.xls'%file_name) |
到從為止,一個抓取拉勾網招聘信息的小爬蟲就誕生了。
附上源碼
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
|
#! -*-coding:utf-8 -*- max_page_num = 30 tag_pos = 'A%s' % i |



