Web Scraper 高級用法——利用正則表達式篩選文本信息

本文轉載自查看原文 2020-03-18 11:32 4236 web scraper/ 簡易數據分析

這是簡易數據分析系列的第 17 篇文章。

學習了這么多課，我想大家已經發現了，web scraper 主要是用來爬取文本信息的。

在爬取的過程中，我們經常會遇到一個問題：網頁上的數據比較臟，我們只需要里面的一部分信息。比如說要抓取電影的評價人數，網頁中抓到的原始數據是 1926853人評價，但是我們期望只抓取數字，把 人評價 這三個漢字丟掉。

這種類似的操作在 Excel 可以利用公式等工具處理，其實在 web scraper 里，也有一個利器，那就是正則表達式。

正則表達式是一個非常強大工具，它主要是用來處理文本數據的，常用來匹配、提取和替換文本，在計算機程序中有非常廣泛的應用。

web scraper 中也內置了正則表達式工具，但只提供了提取的功能。雖然功能有所殘缺，對於 web scraper 使用者來說完全夠用了，畢竟 web scraper 的定位就是不會寫代碼的小白，我們只需要學習最基礎的知識就可以了。

1.正則表達式初嘗

我們先用 web scraper 初步嘗試一下正則表達式。這里還是用豆瓣電影做例子，我們先選擇電影的評價人數，預覽圖是這個樣子的：

Text 選擇器有個 Regex 的輸入框，這個就是輸入正則表達式的地方。我們輸入 [0-9]，然后再點擊預覽，是這個樣子的：

這時候你應該就明白了， [0-9] 就是匹配一個數字的意思。如果我們要匹配多個數字呢？很簡單，后面再加個「 + 」號就好。把 [0-9]+ 輸入進去，預覽一下：

很明顯，所有的數字都匹配出來了。

上面講了用 [0-9] 匹配數字，我們想一下日常用到的文本信息，不外乎這幾種：數字、小寫字母、大些字母，漢字，特殊字符（比如說各種計量單位、下划線回車等符號）。

正則表達式里都有匹配這些字符的方法，下面我用一個表格列舉出來：

上面列舉了一些常用的，其實這些規則可以組合起來，比如說 [a-z] 和 [A-Z] 組合起來，就是 [a-zA-Z]，表示匹配所有的字母。這些組合也有一些簡寫，我這里也列舉一些：

字符簇	匹配
`\w`	匹配字母、數字、下划線。等價於 `[A-Za-z0-9_]`
`\W`	匹配非字母、數字、下划線
`\s`	匹配任何空白字符，包括空格、制表符、換頁符等等。等價於 `[ \f\n\r\t\v]`
`\S`	匹配任何非空白字符

基本上掌握以上內容就能匹配絕大多數字符了，這里我推薦一個正則練習網站：

按照下圖所示就可以練習正則匹配了：

結合前面的例子，我們知道這些規則只能匹配一個字符，如何匹配多個字符？這就要學習正則表達式限定符。

我們已經知道在 [0-9] 后面加個加號「+」就可以匹配多個字符了，其實還有很多限定符，詳情可見下圖表格：

限定符	匹配解釋	原始數據	例子
`{n}`	n 是一個非負整數。匹配確定的 n 次	100001	`10{2}`，表示 0 這個字符匹配 2 次，匹配結果是 100
`{n,m}`	m 和 n 均為非負整數，其中n <= m。最少匹配 n 次且最多匹配 m 次	100001	`10{2,3}`，表示 0 這個字符最少匹配 2 次且最多匹配 3 次，匹配結果是 1000
`{n,}`	n 是一個非負整數。至少匹配 n 次	100001	`10{2,}`，表示 0 這個字符至少匹配 2 次，匹配結果是 10000
`+`	匹配前面的子表達式一次或多次，等價於 `{1,}`	z，zo，zoo	`zo+` 能匹配「zo」以及「zoo」，但不能匹配「z」
`*`	匹配前面的子表達式零次或多次，等價於 `{0,}`	z，zo，zoo	`zo*` 能匹配「z」、「zo」以及「zoo」
`?`	匹配前面的子表達式零次或一次，等價於 `{0,1}`	z，zo，zoo	`zo?` 能匹配「z」以及「zo」，但不能匹配「zoo」