【微軟數據管理】關注疫情數據,用Excel竟然只需這三步!


以下內容轉載至數據化管理WeChat公眾號(有少量刪改)

原文連接:https://mp.weixin.qq.com/s/Uf4CDizLAbAmCiDB360huQ

大家好,近期有收到一些朋友留言,表示自己是做數據分析的工作,也想自己關注所在地區的疫情數據,問我怎么能方便地獲取疫情的數據,本文就給大家介紹一下用Excel獲取疫情數據的簡單技能。

先搞清楚疫情數據的來源在哪里?

關注疫情的數據,官方的公布渠道就是通過國家衛健委、各省市區衛健委公布的信息,所以我們首先應該是考慮能不能從衛健委的網站獲取數據?

例如下圖是國家衛健委官網(http://www.nhc.gov.cn/)發布的頁面:

如果你要用工具獲取以上頁面中的數據,就是需要抓取到上面的這串文本,然后通過文本關鍵字分析,提取出其中的關鍵數據出來,再整理成結構化數據,才能用於數據的分析。同理,如果你要獲取某個省的疫情數據,也可以通過省級衛健委官網公布的數據,去提取整理。例如以下就是江西省衛健委公布的情況信息:

 

對於大多數人來說,這樣去整理數據確實費時費力,技能也不一定跟得上,但是要自己獲取這些數據的話,首先我們確實是這樣考慮的,畢竟衛健委的是一手數據,質量也能保障。但是由於技術難度相對較大,所以這種方法本文就不介紹了。

如果暫時沒有條件直接獲取到官方數據的話,我們還可以獲取別人整理好的數據,例如騰訊、阿里、新浪、丁香園、網易、百度等等,他們都有對應的疫情數據頁面,而且是國家,省,市級的數據都已經整理好了,所以我們可以想辦法從他們的頁面中獲取你要的數據。

以下就開始,給大家介紹簡單的數據獲取方法:

我們打開騰訊新聞的界面(https://news.qq.com/zt2020/page/feiyan.htm),里面是有全國的數據,有分省的數據,有市級的數據等,非常詳細。(可以看到它們的數據來源,也是寫着來源於衛健委發布的信息)

網頁地址找到了,接下來就是用什么工具來獲取?

工具其實是靈活的,看你熟悉使用哪個,Python可以,VBA也可以,或者其他編程語言都行。但我們今天用的工具,非常簡單,直接用Excel的Power Query功能來實現(Excel 2016以上默認是內置此功能的),以下介紹操作的步驟:

Step1:找到數據的真正地址。剛才我們只是拿到了頁面的地址,但這個地址中並沒有包含我們要的數據。怎么找?

這就需要你具備一定的網站數據傳輸知識了,有興趣的朋友可以百度“Chrome抓包分析”去了解更多。我在這里就直接提供我獲取到的2個地址給大家參考使用:

省數據:https://api.inews.qq.com/newsqa/v1/query/pubished/daily/list?province=湖北

市數據:https://api.inews.qq.com/newsqa/v1/query/pubished/daily/list?province=湖北&city=武漢

Step2:用PQ來獲取數據。如果你看不到以下界面,證明你沒有PQ的功能。(沒有這個功能也不用擔心,文末提供了直接下載數據的方法)

PoweQuery下載連接:https://www.microsoft.com/zh-cn/download/details.aspx?id=39379

 

 

按下確定后,就可以進入以下界面了,事情就變得簡單了,直接通過手工操作即可轉換好數據。

 

 

 

關於PQ的具體操作,可參考下述連接:

 

Step3:最后一步就是“關閉並上載”到新工作表即可。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM