python爬取疫情數據

本文轉載自查看原文 2020-04-04 22:23 1804

上周的三個階段做到了疫情數據的可視化。但是這個數據是提前存儲到數據庫中的數據，要獲取疫情最新數據的話，就需要用到爬蟲技術。爬蟲呢，我主要了解了兩種，一種是java的爬蟲，另一種是python的爬蟲。對比了一下，還是python的爬蟲更為簡單。

下面是轉載的一些簡單的python爬蟲教程

Python 爬蟲主要過程分為以下 5 部分內容：

了解網頁；
使用 requests 庫抓取網站數據；
使用 Beautiful Soup 解析網頁；
清洗和組織數據；
爬蟲攻防戰；

了解網頁

以中國旅游網首頁（http://www.cntour.cn/）為例，抓取中國旅游網首頁首條信息（標題和鏈接），數據以明文的形式出面在源碼中。在中國旅游網首頁，按快捷鍵【Ctrl+U】打開源碼頁面，如圖 1 所示。

圖 1 中國旅游網首頁源碼

認識網頁結構

網頁一般由三部分組成，分別是 HTML（超文本標記語言）、CSS（層疊樣式表）和 JScript（活動腳本語言）。

HTML

HTML 是整個網頁的結構，相當於整個網站的框架。帶“＜”、“＞”符號的都是屬於 HTML 的標簽，並且標簽都是成對出現的。

常見的標簽如下：

<html>..</html> 表示標記中間的元素是網頁
<body>..</body> 表示用戶可見的內容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示圖片
<h1>..</h1>表示標題
<a href="">..</a>表示超鏈接

CSS

CSS 表示樣式，圖 1 中第 13 行＜style type=＂text/css＂＞表示下面引用一個 CSS，在 CSS 中定義了外觀。

JScript

JScript 表示功能。交互的內容和各種特效都在 JScript 中，JScript 描述了網站中的各種功能。

如果用人體來比喻，HTML 是人的骨架，並且定義了人的嘴巴、眼睛、耳朵等要長在哪里。CSS 是人的外觀細節，如嘴巴長什么樣子，眼睛是雙眼皮還是單眼皮，是大眼睛還是小眼睛，皮膚是黑色的還是白色的等。JScript 表示人的技能，例如跳舞、唱歌或者演奏樂器等。

寫一個簡單的 HTML

通過編寫和修改 HTML，可以更好地理解 HTML。首先打開一個記事本，然后輸入下面的內容：

<html>
<head>
    <title> Python 3 爬蟲與數據清洗入門與實戰</title>
</head>
<body>
    <div>
        <p>Python 3爬蟲與數據清洗入門與實戰</p>
    </div>
    <div>
        <ul>
            <li><a href="http://c.biancheng.net">爬蟲</a></li>
            <li>數據清洗</li>
        </ul>
    </div>
</body>

輸入代碼后，保存記事本，然后修改文件名和后綴名為"HTML.html"；

運行該文件后的效果，如圖 2 所示。

圖 2

這段代碼只是用到了 HTML，讀者可以自行修改代碼中的中文，然后觀察其變化。

關於爬蟲的合法性

幾乎每一個網站都有一個名為 robots.txt 的文檔，當然也有部分網站沒有設定 robots.txt。對於沒有設定 robots.txt 的網站可以通過網絡爬蟲獲取沒有口令加密的數據，也就是該網站所有頁面數據都可以爬取。如果網站有 robots.txt 文檔，就要判斷是否有禁止訪客獲取的數據。

以淘寶網為例，在瀏覽器中訪問 https://www.taobao.com/robots.txt，如圖 3 所示。

圖 3 淘寶網的robots.txt文件內容

淘寶網允許部分爬蟲訪問它的部分路徑，而對於沒有得到允許的用戶，則全部禁止爬取，代碼如下：

User-Agent:*
Disallow:/

這一句代碼的意思是除前面指定的爬蟲外，不允許其他爬蟲爬取任何數據。

使用 requests 庫請求網站

安裝 requests 庫

首先在 PyCharm 中安裝 requests 庫，為此打開 PyCharm，單擊“File”（文件）菜單，選擇“Setting for New Projects...”命令，如圖 4 所示。

圖 4

選擇“Project Interpreter”（項目編譯器）命令，確認當前選擇的編譯器，然后單擊右上角的加號，如圖 5 所示。

圖 5

在搜索框輸入：requests（注意，一定要輸入完整，不然容易出錯），然后單擊左下角的“Install Package”（安裝庫）按鈕。如圖 6 所示：

圖 6

安裝完成后，會在 Install Package 上顯示“Package‘requests’ installed successfully”（庫的請求已成功安裝），如圖 7 所示；如果安裝不成功將會顯示提示信息。

圖 7 安裝成功

爬蟲的基本原理

網頁請求的過程分為兩個環節：

Request （請求）：每一個展示在用戶面前的網頁都必須經過這一步，也就是向服務器發送訪問請求。
Response（響應）：服務器在接收到用戶的請求后，會驗證請求的有效性，然后向用戶（客戶端）發送響應的內容，客戶端接收服務器響應的內容，將內容展示出來，就是我們所熟悉的網頁請求，如圖 8 所示。

圖 8 Response相應

網頁請求的方式也分為兩種：

GET：最常見的方式，一般用於獲取或者查詢資源信息，也是大多數網站使用的方式，響應速度快。
POST：相比 GET 方式，多了以表單形式上傳參數的功能，因此除查詢信息外，還可以修改信息。

所以，在寫爬蟲前要先確定向誰發送請求，用什么方式發送。

使用 GET 方式抓取數據

復制任意一條首頁首條新聞的標題，在源碼頁面按【Ctrl+F】組合鍵調出搜索框，將標題粘貼在搜索框中，然后按【Enter】鍵。

如圖 8 所示，標題可以在源碼中搜索到，請求對象是www.cntour.cn，請求方式是GET（所有在源碼中的數據請求方式都是GET），如圖 9 所示。

圖 9（點此查看高清大圖）

確定好請求對象和方式后，在 PyCharm 中輸入以下代碼：

import requests #導入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url) #Get方式獲取網頁數據
print(strhtml.text)

運行結果如圖 10 所示：

圖 10 運行結果效果圖（點此查看高清大圖）

加載庫使用的語句是 import+庫的名字。在上述過程中，加載 requests 庫的語句是：import requests。

用 GET 方式獲取數據需要調用 requests 庫中的 get 方法，使用方法是在 requests 后輸入英文點號，如下所示：

requests.get

將獲取到的數據存到 strhtml 變量中，代碼如下：

strhtml = request.get(url)

這個時候 strhtml 是一個 URL 對象，它代表整個網頁，但此時只需要網頁中的源碼，下面的語句表示網頁源碼：

strhtml.text

使用 POST 方式抓取數據

首先輸入有道翻譯的網址：http://fanyi.youdao.com/，進入有道翻譯頁面。

按快捷鍵 F12，進入開發者模式，單擊 Network，此時內容為空，如圖 11 所示：

圖 11

在有道翻譯中輸入“我愛中國”，單擊“翻譯”按鈕，如圖 12 所示：

圖 12

在開發者模式中，依次單擊“Network”按鈕和“XHR”按鈕，找到翻譯數據，如圖 13 所示：

圖 13

單擊 Headers，發現請求數據的方式為 POST。如圖 14 所示：

圖 14

找到數據所在之處並且明確請求方式之后，接下來開始撰寫爬蟲。

首先，將 Headers 中的 URL 復制出來，並賦值給 url，代碼如下：

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

POST 的請求獲取數據的方式不同於 GET，POST 請求數據必須構建請求頭才可以。

Form Data 中的請求參數如圖 15 所示：

圖 15

將其復制並構建一個新字典：

From_data={'i':'我愛中國','from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}

接下來使用 requests.post 方法請求表單數據，代碼如下：

import requests #導入requests包
response = requests.post(url,data=payload)

將字符串格式的數據轉換成 JSON 格式數據，並根據數據結構，提取數據，並將翻譯結果打印出來，代碼如下：

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

使用 requests.post 方法抓取有道翻譯結果的完整代碼如下：

import requests #導入requests包
import json
def get_translate_date(word=None):
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
#請求表單數據
response = requests.post(url,data=From_data)
#將Json格式字符串轉字典
content = json.loads(response.text)
print(content)
#打印翻譯后的數據
#print(content['translateResult'][0][0]['tgt'])
if __name__=='__main__':
get_translate_date('我愛中國')

使用 Beautiful Soup 解析網頁

通過 requests 庫已經可以抓到網頁源碼，接下來要從源碼中找到並提取數據。Beautiful Soup 是 python 的一個庫，其最主要的功能是從網頁中抓取數據。Beautiful Soup 目前已經被移植到 bs4 庫中，也就是說在導入 Beautiful Soup 時需要先安裝 bs4 庫。

安裝 bs4 庫的方式如圖 16 所示:

圖 16

安裝好 bs4 庫以后，還需安裝 lxml 庫。如果我們不安裝 lxml 庫，就會使用 Python 默認的解析器。盡管 Beautiful Soup 既支持 Python 標准庫中的 HTML 解析器又支持一些第三方解析器，但是 lxml 庫具有功能更加強大、速度更快的特點，因此筆者推薦安裝 lxml 庫。

安裝 Python 第三方庫后，輸入下面的代碼，即可開啟 Beautiful Soup 之旅：

import requests #導入requests包
from bs4 import BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

代碼運行結果如圖 17 所示。

圖 17（點此查看高清大圖）

Beautiful Soup 庫能夠輕松解析網頁信息，它被集成在 bs4 庫中，需要時可以從 bs4 庫中調用。其表達語句如下：

from bs4 import BeautifulSoup

首先，HTML 文檔將被轉換成 Unicode 編碼格式，然后 Beautiful Soup 選擇最合適的解析器來解析這段文檔，此處指定 lxml 解析器進行解析。解析后便將復雜的 HTML 文檔轉換成樹形結構，並且每個節點都是 Python 對象。這里將解析后的文檔存儲到新建的變量 soup 中，代碼如下：

soup=BeautifulSoup(strhtml.text,'lxml')

接下來用 select（選擇器）定位數據，定位數據時需要使用瀏覽器的開發者模式，將鼠標光標停留在對應的數據位置並右擊，然后在快捷菜單中選擇“檢查”命令，如圖 18 所示：

圖 18

隨后在瀏覽器右側會彈出開發者界面，右側高亮的代碼（參見圖 19(b)）對應着左側高亮的數據文本（參見圖 19(a)）。右擊右側高亮數據，在彈出的快捷菜單中選擇“Copy”➔“Copy Selector”命令，便可以自動復制路徑。

圖 19 復制路徑

將路徑粘貼在文檔中，代碼如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

由於這條路徑是選中的第一條的路徑，而我們需要獲取所有的頭條新聞，因此將 li：nth-child（1）中冒號（包含冒號）后面的部分刪掉，代碼如下：

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a

使用 soup.select 引用這個路徑，代碼如下：

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')

清洗和組織數據

至此，獲得了一段目標的 HTML 代碼，但還沒有把數據提取出來，接下來在 PyCharm 中輸入以下代碼：

for item in data:
result={
'title':item.get_text(),
'link':item.get('href')
}
print(result)

代碼運行結果如圖 20 所示：

圖 20（點此查看高清大圖）

首先明確要提取的數據是標題和鏈接，標題在＜a＞標簽中，提取標簽的正文用 get_text() 方法。鏈接在＜a＞標簽的 href 屬性中，提取標簽中的 href 屬性用 get() 方法，在括號中指定要提取的屬性數據，即 get(＇href＇)。

從圖 20 中可以發現，文章的鏈接中有一個數字 ID。下面用正則表達式提取這個 ID。需要使用的正則符號如下:

\d匹配數字
+匹配前一個字符1次或多次

在 Python 中調用正則表達式時使用 re 庫，這個庫不用安裝，可以直接調用。在 PyCharm 中輸入以下代碼:

import re
for item in data:
result={
"title":item.get_text(),
"link":item.get('href'),
'ID':re.findall('\d+',item.get('href'))
}
print(result)

運行結果如圖 21 所示：

圖 21

這里使用 re 庫的 findall 方法，第一個參數表示正則表達式，第二個參數表示要提取的文本。

爬蟲攻防戰

爬蟲是模擬人的瀏覽訪問行為，進行數據的批量抓取。當抓取的數據量逐漸增大時，會給被訪問的服務器造成很大的壓力，甚至有可能崩潰。換句話就是說，服務器是不喜歡有人抓取自己的數據的。那么，網站方面就會針對這些爬蟲者，采取一些反爬策略。

服務器第一種識別爬蟲的方式就是通過檢查連接的 useragent 來識別到底是瀏覽器訪問，還是代碼訪問的。如果是代碼訪問的話，訪問量增大時，服務器會直接封掉來訪 IP。

那么應對這種初級的反爬機制，我們應該采取何種舉措？

還是以前面創建好的爬蟲為例。在進行訪問時，我們在開發者環境下不僅可以找到 URL、Form Data，還可以在 Request headers 中構造瀏覽器的請求頭，封裝自己。服務器識別瀏覽器訪問的方法就是判斷 keyword 是否為 Request headers 下的 User-Agent，如圖 22 所示。

圖 22

因此，我們只需要構造這個請求頭的參數。創建請求頭部信息即可，代碼如下：

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
response = request.get(url,headers=headers)

寫到這里，很多讀者會認為修改 User-Agent 很太簡單。確實很簡單，但是正常人1秒看一個圖，而個爬蟲1秒可以抓取好多張圖，比如 1 秒抓取上百張圖，那么服務器的壓力必然會增大。也就是說，如果在一個 IP 下批量訪問下載圖片，這個行為不符合正常人類的行為，肯定要被封 IP。

其原理也很簡單，就是統計每個IP的訪問頻率，該頻率超過閾值，就會返回一個驗證碼，如果真的是用戶訪問的話，用戶就會填寫，然后繼續訪問，如果是代碼訪問的話，就會被封 IP。

這個問題的解決方案有兩個，第一個就是常用的增設延時，每 3 秒鍾抓取一次，代碼如下：

import time
time.sleep(3)

但是，我們寫爬蟲的目的是為了高效批量抓取數據，這里設置 3 秒鍾抓取一次，效率未免太低。其實，還有一個更重要的解決辦法，那就是從本質上解決問題。

不管如何訪問，服務器的目的就是查出哪些為代碼訪問，然后封鎖 IP。解決辦法：為避免被封 IP，在數據采集時經常會使用代理。當然，requests 也有相應的 proxies 屬性。

首先，構建自己的代理 IP 池，將其以字典的形式賦值給 proxies，然后傳輸給 requests，代碼如下：

proxies={
"http":"http://10.10.1.10:3128",
"https":"http://10.10.1.10:1080",
}
response = requests.get(url, proxies=proxies)

以上教程轉自 http://c.biancheng.net/view/2011.html

接下來就是爬取全球疫情數據的過程

打開全球疫情數據的網站 https://ncov.dxy.cn/ncovh5/view/pneumonia?from=timeline&isappinstalled=0 查看其源碼。

找到想要爬取數據的部分 id="getTimelineService2"

獲取數據。

然后將獲取的數據轉換成json形式。

對獲取的數據進行篩選，將想要的數據存到數組中。

接下來通過sql語句將數據插入到數據庫中。

然后貼上根據上面教程編寫的爬取疫情最新數據的代碼

import json

import numpy as np
import pymysql
import requests
from bs4 import BeautifulSoup
import datetime

url = 'https://ncov.dxy.cn/ncovh5/view/pneumonia?from=timeline&isappinstalled=0'  #請求地址
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}#創建頭部信息
response =  requests.get(url,headers = headers)  #發送網絡請求
#print(response.content.decode('utf-8'))#以字節流形式打印網頁源碼
content = response.content.decode('utf-8')
#print(content)
soup = BeautifulSoup(content, 'html.parser')
listA = soup.find_all(name='script',attrs={"id":"getAreaStat"})
#世界確診getAreaStat
listB = soup.find_all(name='script',attrs={"id":"getListByCountryTypeService2true"})
#listA = soup.find_all(name='div',attrs={"class":"c-touchable-feedback c-touchable-feedback-no-default"})
account = str(listA)
world_messages = str(listB)[95:-21]
messages = account[52:-21]
messages_json = json.loads(messages)
print(world_messages)
world_messages_json = json.loads(world_messages)
valuesList = []
cityList = []
worldList = []
now_time = datetime.datetime.now().strftime('%Y-%m-%d')

for k in range(len(world_messages_json)):
    worldvalue = (now_time,
             world_messages_json[k].get('countryType'),world_messages_json[k].get('continents'),world_messages_json[k].get('provinceId'),world_messages_json[k].get('provinceName'),
             world_messages_json[k].get('provinceShortName'),world_messages_json[k].get('cityName'),world_messages_json[k].get('currentConfirmedCount'),world_messages_json[k].get('confirmedCount'),
             world_messages_json[k].get('suspectedCount'),world_messages_json[k].get('curedCount'),world_messages_json[k].get('deadCount'),world_messages_json[k].get('locationId'),
             world_messages_json[k].get('countryShortCode'),)
    worldList.append(worldvalue)
for i in range(len(messages_json)):
    #value = messages_json[i]
    value = (now_time,messages_json[i].get('provinceName'),messages_json[i].get('provinceShortName'),messages_json[i].get('currentConfirmedCount'),messages_json[i].get('confirmedCount'),messages_json[i].get('suspectedCount'),messages_json[i].get('curedCount'),messages_json[i].get('deadCount'),messages_json[i].get('comment'),messages_json[i].get('locationId'),messages_json[i].get('statisticsData'))
    valuesList.append(value)
    cityValue = messages_json[i].get('cities')
    #print(cityValue)
    for j in range(len(cityValue)):
        cityValueList = (cityValue[j].get('cityName'),cityValue[j].get('currentConfirmedCount'),cityValue[j].get('confirmedCount'),cityValue[j].get('suspectedCount'),cityValue[j].get('curedCount'),cityValue[j].get('deadCount'),cityValue[j].get('locationId'),messages_json[i].get('provinceShortName'))
        #print(cityValueList)
        cityList.append(cityValueList)
    #cityList.append(cityValue)
db = pymysql.connect("localhost", "root", "123456", "mytest", charset='utf8')
cursor = db.cursor()
array = np.asarray(valuesList[0])
#sql_clean_world = "TRUNCATE TABLE world_map"
sql_clean_city = "TRUNCATE TABLE city_map"
sql_clean_json = "TRUNCATE TABLE province_data_from_json"
sql_clean_province = "TRUNCATE TABLE province_map"
sql_clean_world = "TRUNCATE TABLE world_map"
sql1 = "INSERT INTO city_map values (%s,%s,%s,%s,%s,%s,%s,%s)"
sql_world = "INSERT INTO world_map values (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
#sql = "INSERT INTO province_map values (0,'%s','%s','%s','%s','%s','%s','%s','%s','%s','%s') "
sql = "INSERT INTO province_map values (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s) "
#sql = "INSERT INTO province_map (provinceName,provinceShortName,correntConfirmedCount,confirmedCount,suspectedCount,curedCount,deadCount,comment,locationId,statisticsData) values (0,'%s','%s','%s','%s','%s','%s','%s','%s','%s','%s') "
#sql = """INSERT INTO province_map (provinceName,provinceShortName,correntConfirmedCount,confirmedCount,suspectedCount,curedCount,deadCount,comment,locationId,statisticsData) values ('湖北省', '湖北', 43334, 64786, 0, 18889, 2563, '', 420000, 'https://file1.dxycdn.com/2020/0223/618/3398299751673487511-135.json')"""
value_tuple = tuple(valuesList)
cityTuple = tuple(cityList)
worldTuple = tuple(worldList)
print(worldTuple)
print(tuple(value_tuple))
try:
    #cursor.execute(sql_clean_city)
    #cursor.execute(sql_clean_province)
    #cursor.executemany(sql, value_tuple)
    #cursor.executemany(sql1,cityTuple)
    db.commit()
except:
    print('執行失敗，進入回調1')
    db.rollback()

try:
    #cursor.execute(sql_clean_city)
    #cursor.execute(sql_clean_province)
    #cursor.execute(sql_clean_world)
    #cursor.executemany(sql, value_tuple)
    #cursor.executemany(sql1,cityTuple)
    cursor.executemany(sql_world, worldTuple)
    db.commit()
except:
    print('執行失敗，進入回調2')
    db.rollback()
try:
    #cursor.execute(sql_clean_city)
    #cursor.execute(sql_clean_province)
    cursor.executemany(sql, value_tuple)
    #cursor.executemany(sql1,cityTuple)
    db.commit()
except:
    print('執行失敗，進入回調3')
    db.rollback()

try:
    #cursor.execute(sql_clean_city)
    #cursor.execute(sql_clean_province)
    #cursor.executemany(sql, value_tuple)
    #cursor.executemany(sql1,cityTuple)
    db.commit()
except:
    print('執行失敗，進入回調4')
    db.rollback()
#print(messages_json)
#print(account[52:-21])
# soupDiv = BeautifulSoup(listA,'html.parser')
# listB = soupDiv.find_all(name='div',attrs={"class":"c-gap-bottom-zero c-line-clamp2"})
#for i in listA:
    #print(i)
#listA[12]
#print(listA)


db.close()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬取疫情數據利用python爬取疫情最新數據 Python實現爬取全國疫情數據 python爬取丁香園疫情數據 python爬取疫情防控數據 Python爬蟲爬取疫情數據爬取疫情數據爬取騰訊疫情數據爬取最新疫情數據 Python爬取世界疫情的實時數據