我們計划抓取的數據:杭州的天氣信息
實現數據抓取的邏輯:使用python 請求 URL,會返回對應的 HTML 信息,我們解析 html,獲得自己需要的數據。(很簡單的邏輯)
第一步:創建 Python 文件

寫第一段Python代碼

這段代碼類似於 Java 中的 Main 方法。可以直接鼠標右鍵,選擇 Run。

第二步:請求RUL
python 的強大之處就在於它有大量的模塊(類似於Java 的 jar 包)可以直接拿來使用。
我們需要安裝一個 request 模塊: File - Setting - Product - Product Interpreter


點擊如上圖的 + 號,就可以安裝 Python 模塊了。搜索 requests 模塊(有 s 噢),點擊 Install。

我們順便再安裝一個beautifulSoup4 和 pymysql模塊,beautifulSoup4 模塊是用來解析 html 的,可以對象化 HTML 字符串。pymysql 模塊是用來連接 mysql 數據庫使用的。


相關的模塊都安裝之后,就可以開心的敲代碼了。
定義一個 getContent 方法:

在 main 方法中調用:

第三步:分析頁面數據
定義一個 getData 方法:

上面的解析其實就是按照 HTML 的規則解析的。可以打開杭州天氣在開發者模式中(F12),看一下頁面的元素分布。

在 main 方法中調用:

數據寫入excel
現在我們已經在 Python 中拿到了想要的數據,對於這些數據我們可以先存放起來,比如把數據寫入 csv 中。
定義一個 writeDate 方法:

在 main 方法中調用:

執行之后呢,再指定路徑下就會多出一個 weather.csv文件,可以打開看一下內容。


到這里最簡單的數據抓取--儲存就完成了。