以前在學校做科研都是直接利用網上共享的一些數據,就像我們經常說的dataset、beachmark等等。但是,對於實際的工業需求來說,爬取網絡的數據是必須的並且是首要的。最近在國內一家互聯網公司實習,我的mentor交給我的第一件事就是去網絡上爬取數據,並對爬取的數據進行相關的分析和解析。
1.利用urllib2對指定的URL抓取網頁內容
網絡爬蟲(Web Spider),顧名思義就是將龐大的互聯網看做是一張大網,而我們要做的就是用代碼去構造一個類似於爬蟲的實體,在這張大網上爬取我們需要的數據。
所謂網頁抓取,就是把URL地址中指定的網絡資源從網絡流中讀取出來,保存到本地。類似於使用程序模擬IE瀏覽器的功能,把URL作為HTTP請求的內容發送到服務器端, 然后讀取服務器端的響應資源。Python中提供了專門抓取網絡的組件urllib和urllib2。
最簡單的抓取網絡的Python代碼,四行就可以搞定:
1 import urllib2 2 response = urllib2.urlopen('http://www.toutiao.com/') 3 html = response.read() 4 print html
顯示抓取的結果:
我們可以打開百度主頁,右擊,選擇查看源代碼(火狐OR谷歌瀏覽器均可),會發現也是完全一樣的內容。也就是說,上面這四行代碼將我們訪問百度時瀏覽器收到的代碼們全部打印了出來。這就是一個最簡單的利用urllib2進行網頁爬取的例子。
當然,有的網站為了防止爬蟲,可能會拒絕爬蟲的請求,這就需要我們來修改http中的Header項了。還有一些站點有所謂的反盜鏈設置,其實說穿了很簡單,就是檢查你發送請求的header里面,referer站點是不是他自己,所以我們只需要像把headers的referer改成該網站即可。有關Header項的修改請轉至下邊的鏈接查看,里邊詳細地介紹了Header的修改、Cookie和表單的處理,等等。
3)用python寫爬蟲,去爬csdn的內容,完美解決 403 Forbidden
2. 使用正則表達式過濾抓取到的網頁信息
如果說網頁爬蟲爬取的網頁信息是數據大海的話,那么正則表達式就是我們進行“大海撈針”的工具。
首先聲明一點,正則表達式不是Python的語法,並不屬於Python,其他的語言中也同樣支持正則表達式的使用。具體來說,它是一種強大的字符串匹配和處理規則。
2.1 正則表達式介紹
下圖展示了使用正則表達式進行匹配的流程:
下圖列出了Python支持的正則表達式元字符和語法:
2.1.1 正則表達式元字符
2.1.2 數量詞的貪婪模式與非貪婪模式
正則表達式通常用於在文本中查找匹配的字符串。貪婪模式,總是嘗試匹配盡可能多的字符;非貪婪模式則相反,總是嘗試匹配盡可能少的字符。Python里數量詞默認是貪婪的。
例如:正則表達式"ab*"如果用於查找"abbbc",將找到"abbb"。而如果使用非貪婪的數量詞"ab*?",將找到"a"。
2.1.3 反斜杠的問題
與大多數編程語言相同,正則表達式里使用"\"作為轉義字符,這就可能造成反斜杠困擾。假如你需要匹配文本中的字符"\",那么使用編程語言表示的正則表達式里將需要4個反斜杠"\\\\":第一個和第三個用於在編程語言里將第二個和第四個轉義成反斜杠,轉換成兩個反斜杠\\后再在正則表達式里轉義成一個反斜杠用來匹配反斜杠\。這樣顯然是非常麻煩的。
Python里的原生字符串很好地解決了這個問題,這個例子中的正則表達式可以使用r"\\"表示。同樣,匹配一個數字的"\\d"可以寫成r"\d"
2.2 Python的re模塊
Python通過re模塊提供對正則表達式的支持。
使用re的一般步驟是:
Step1:先將正則表達式的字符串形式編譯為Pattern實例。
Step2:然后使用Pattern實例處理文本並獲得匹配結果(一個Match實例)。
Step3:最后使用Match實例獲得信息,進行其他的操作。
一個使用Python的re模塊進行正則表達式匹配的例子:
-
# -*- coding: utf-8 -*- #一個簡單的re實例,匹配字符串中的hello字符串 #導入re模塊 import re # 將正則表達式編譯成Pattern對象,注意hello前面的r的意思是“原生字符串” pattern = re.compile(r'hello') # 使用Pattern匹配文本,獲得匹配結果,無法匹配時將返回None match1 = pattern.match('hello world!') match2 = pattern.match('helloo world!') match3 = pattern.match('helllo world!') #如果match1匹配成功 if match1: # 使用Match獲得分組信息 print match1.group() else: print 'match1匹配失敗!' #如果match2匹配成功 if match2: # 使用Match獲得分組信息 print match2.group() else: print 'match2匹配失敗!' #如果match3匹配成功 if match3: # 使用Match獲得分組信息 print match3.group() else: print 'match3匹配失敗!'
輸出結果:
hello
hello
match3匹配失敗!
當然,也可以省略編譯pattern的過程,如下所示:
# -*- coding: utf-8 -*- #一個簡單的re實例,匹配字符串中的hello字符串 import re m = re.match(r'hello', 'hello world!') print m.group()
除了match以外,Python中還提供了其他的匹配模式,可以針對不同的環境和用途來選擇不同的匹配模式。
1)match:只從字符串的開始與正則表達式匹配,匹配成功返回matchobject,否則返回none;
2)search:將字符串的所有字串嘗試與正則表達式匹配,如果所有的字串都沒有匹配成功,返回none,否則返回matchobject;(re.search相當於perl中的默認行為)
3)findall:匹配所有匹配成功的結果。
詳細的使用細則,可以查看下邊的內容:
當然,如果你覺得使用正則表達式太繁瑣的話,Python提供了BeautifulSoup插件來取代正則表達式,進行網頁的解析。想了解有關BeautifulSoup方面的知識,請移至下邊鏈接:
Python抓取網頁&批量下載文件方法(正則表達式+BeautifulSoup)
2.3 Python正則表達式匯總
2.3.1 正則表達式模式
模式字符串使用特殊的語法來表示一個正則表達式:
字母和數字表示他們自身。一個正則表達式模式中的字母和數字匹配同樣的字符串。
多數字母和數字前加一個反斜杠時會擁有不同的含義。
標點符號只有被轉義時才匹配自身,否則它們表示特殊的含義。
反斜杠本身需要使用反斜杠轉義。
由於正則表達式通常都包含反斜杠,所以你最好使用原始字符串來表示它們。模式元素(如 r'/t',等價於'//t')匹配相應的特殊字符。
下表列出了正則表達式模式語法中的特殊元素。如果你使用模式的同時提供了可選的標志參數,某些模式元素的含義會改變。
模式 | 描述 |
---|---|
^ | 匹配字符串的開頭 |
$ | 匹配字符串的末尾。 |
. | 匹配任意字符,除了換行符,當re.DOTALL標記被指定時,則可以匹配包括換行符的任意字符。 |
[...] | 用來表示一組字符,單獨列出:[amk] 匹配 'a','m'或'k' |
[^...] | 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。 |
re* | 匹配0個或多個的表達式。 |
re+ | 匹配1個或多個的表達式。 |
re? | 匹配0個或1個由前面的正則表達式定義的片段,非貪婪方式 |
re{ n} | |
re{ n,} | 精確匹配n個前面表達式。 |
re{ n, m} | 匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式 |
a| b | 匹配a或b |
(re) | G匹配括號內的表達式,也表示一個組 |
(?imx) | 正則表達式包含三種可選標志:i, m, 或 x 。只影響括號中的區域。 |
(?-imx) | 正則表達式關閉 i, m, 或 x 可選標志。只影響括號中的區域。 |
(?: re) | 類似 (...), 但是不表示一個組 |
(?imx: re) | 在括號中使用i, m, 或 x 可選標志 |
(?-imx: re) | 在括號中不使用i, m, 或 x 可選標志 |
(?#...) | 注釋. |
(?= re) | 前向肯定界定符。如果所含正則表達式,以 ... 表示,在當前位置成功匹配時成功,否則失敗。但一旦所含表達式已經嘗試,匹配引擎根本沒有提高;模式的剩余部分還要嘗試界定符的右邊。 |
(?! re) | 前向否定界定符。與肯定界定符相反;當所含表達式不能在字符串當前位置匹配時成功 |
(?> re) | 匹配的獨立模式,省去回溯。 |
\w | 匹配字母數字 |
\W | 匹配非字母數字 |
\s | 匹配任意空白字符,等價於 [\t\n\r\f]. |
\S | 匹配任意非空字符 |
\d | 匹配任意數字,等價於 [0-9]. |
\D | 匹配任意非數字 |
\A | 匹配字符串開始 |
\Z | 匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串。c |
\z | 匹配字符串結束 |
\G | 匹配最后匹配完成的位置。 |
\b | 匹配一個單詞邊界,也就是指單詞和空格間的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 |
\B | 匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。 |
\n, \t, 等. | 匹配一個換行符。匹配一個制表符。等 |
\1...\9 | 匹配第n個分組的子表達式。 |
\10 | 匹配第n個分組的子表達式,如果它經匹配。否則指的是八進制字符碼的表達式。 |
2.3.2 正則表達式實例
字符匹配:
實例 | 描述 |
---|---|
python | 匹配 "python". |
字符類:
實例 | 描述 |
---|---|
[Pp]ython | 匹配 "Python" 或 "python" |
rub[ye] | 匹配 "ruby" 或 "rube" |
[aeiou] | 匹配中括號內的任意一個字母 |
[0-9] | 匹配任何數字。類似於 [0123456789] |
[a-z] | 匹配任何小寫字母 |
[A-Z] | 匹配任何大寫字母 |
[a-zA-Z0-9] | 匹配任何字母及數字 |
[^aeiou] | 除了aeiou字母以外的所有字符 |
[^0-9] | 匹配除了數字外的字符 |
特殊字符類:
實例 | 描述 |
---|---|
. | 匹配除 "\n" 之外的任何單個字符。要匹配包括 '\n' 在內的任何字符,請使用象 '[.\n]' 的模式。 |
\d | 匹配一個數字字符。等價於 [0-9]。 |
\D | 匹配一個非數字字符。等價於 [^0-9]。 |
\s | 匹配任何空白字符,包括空格、制表符、換頁符等等。等價於 [ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等價於 [^ \f\n\r\t\v]。 |
\w | 匹配包括下划線的任何單詞字符。等價於'[A-Za-z0-9_]'。 |
\W | 匹配任何非單詞字符。等價於 '[^A-Za-z0-9_]'。 |
Python正則表達式詳細教程請見W3CSCHOOL Python正則表達式。
更加詳細的正則表達式教程請見正則表達式手冊。