python是一門很強大的語言,在實現爬蟲方面也十分方便。
這個天氣預報采集是從中國天氣網提取廣東省內主要城市的天氣並回顯。本來是打算采集騰訊天氣的,但是貌似它的數據是用js寫上去還是什么的,得到的html文本中不包含數據,所以就算了。
爬蟲簡單說來包括兩個步驟:獲得網頁文本、過濾得到數據。
1、獲得html文本。
python在獲取html方面十分方便,寥寥數行代碼就可以實現我們需要的功能。
1 def getHtml(url): 2 page = urllib.urlopen(url) 3 html = page.read() 4 page.close() 5 return html
這么幾行代碼相信不用注釋都能大概知道它的意思。
2、根據正則表達式等獲得需要的內容。
使用正則表達式時需要仔細觀察該網頁信息的結構,並寫出正確的正則表達式。
python正則表達式的使用也很簡潔。我的上一篇文章《Python的一些用法》介紹了一點正則的用法。這里需要一個新的用法:
1 def getWeather(html): 2 reg = '<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>' 3 weatherList = re.compile(reg).findall(html) 4 return weatherList
其中reg是正則表達式,html是第一步獲得的文本。findall()的作用是找到html中所有符合正則匹配的字符串並存放到weatherList中。之后再枚舉weatheList中的數據輸出即可。
這里的正則表達式reg有兩個地方要注意。
一個是“(.*?)”。只要是“()”中的內容都是我們將要獲得的內容,如果有多個括號,那么findall的每個結果就都包含這幾個括號中的內容。上面有三個括號,分別對應城市、最低溫和最高溫。
另一個是“.*?”。python的正則匹配默認是貪婪的,即默認盡可能多地匹配字符串。如果在末尾加上問號,則表示非貪婪模式,即盡可能少地匹配字符串。在這里,由於有多個城市的信息需要匹配,所以需要使用非貪婪模式,否則匹配結果只剩下一個,且是不正確的。
補充上爬蟲結果的截圖:
python的使用確實十分方便:)