一、項目背景及目的
2019年12月,我國出現了新型冠狀病毒引發的多起病例,全國逐漸開啟疫情防疫監控,嚴重地區甚至實施封閉管理。2月是疫情的高發期,各地區的人員流向、時間分布和規模化是本項目的主要分析目標,目的是分析人員流動規模的對比變化。
二、分析維度
根據現有的數據和分析方法,本項目分為三個維度進行分析:
1.地區間人員流向維度
根據不同省份,不同城市的人員流向,由省份-省份,城市-城市,省份-城市細分分析不同地區復工的情況。
2.日期維度
拆分時間段,計算不同時間段人員的流向。
3.人員規模維度
由流出地的規模指數和規模指數百分比,對比不同地區和時間,分析人員流動的規模化程度。
三、分析項目
1.數據來源及含義
本項目數據來源於百度遷徙2020年2月1日-2020年3月1日的全國各地流動規模指數,數據約有160萬條。'百度遷徙' 數據集字段包括流出省、流入城市、流入省、流入城市、日期、規模指數百分比乘積,‘百度遷徙指數’ 數據集字段包括省份、城市、日期、今年規模指數、去年規模指數。
數據集的字段含義如下:
'百度遷徙' 數據集
id:編號
origin_province:流出省
origin_city:流出城市
dest_province:流入省
dest_city:流入城市
cur_date:日期
compare:規模指數百分比乘積
‘百度遷徙指數’ 數據集
id:編號
province:省份
city:城市
cur_date:日期
migrate_this:今年規模指數
migrate_last:去年規模指數
2.數據清洗
數據庫采用Mysql,通過Navicat導入數據。
數據沒有出現缺失值,也沒有出現異常值,故數據可以做完整分析。
3.建立模型和可視化
(1)地區間人員流向分析
數據集包含了31個省份(不包括港澳台地區),365個城市。
每個人口遷入城市只取所占比例較高的前100個流入城市,例如承德市的遷入人口來源於占總量比17.51%的唐山市、15.81%的北京市、13.32%的赤峰市等前100個城市。
“規模次數”含義:每個遷入城市占比前100個流入城市的流入遷移次數,例如廈門市向承德市遷入人口的每一天占比排在前100,則一共有29次規模次數,泰安市向廣安市遷入人口只有5天排在前100,則規模次數為5次。
a.省份流動規模次數分析
流入規模次數最多是廣東省,其次是江蘇省,山東省。
流出規模次數最多是河南省,其次是廣東省,四川省。
上面所示流動規模次數較多的省份都是人口大省,人口數量基本上在1億以上,外出務工成為人口流動的主要驅動力。在2月一個整月期間,廣東省成為流入規模次數最多的省份,流入次數比流出次數高出三分之一,表明了廣東省的人口流動數量大。其次西北地區的省份和4個直轄市,人員的流動規模次數的波動較小,因為西北地區地方經濟較落后,人口少,地理位置和交通不方便以至於流入的人口少,而4個直轄市是因為地方面積小,人口基數小,變動幅度也較小。
上圖顯示流入規模次數最多的廣東省,其人員來源於臨近省份的湖南和廣西,同時,作為人口輸入大省的廣東也有反向輸出,整體的流動性相比其他省份高。
b.城市間流向分析
可以發現,城市的流動規模次數與區域、經濟、地理位置等有關,而且全國365個城市,在2月期間有152個城市的規模次數是為正值,213個城市為負值,意味着人口流動是有分布性的,尤其集中在某一個區域。大部分城市集中在東部地區,各省份的省會城市。
在Mysql導入查詢的數據,經過excel透視整理,達到2月一整個月向不同省份特定城市流向的城市數量,最多的是北京市,有202個城市連續每日規模性輸出人口,其次是上海、重慶、深圳、廣州、天津、成都等相對經濟發展較好的城市圈。二線城市的的數量也占據大部分,原因在於生活成本低,有些是省會城市,最為一個省份最為核心區域,也是吸引人口流向的一個因素。
我國有4個直轄市,其中上海市的主要人口流入城市來自蘇州,蘇州是上海的‘’后花園‘’,緊貼上海市,人口流入比例高;北京市的人口流入城市來自廊坊市,很多在北京工作的人選擇住在廊坊,以此廊坊市是北京市的人口輸入的持續性最長的城市;唐山市緊靠天津市,但是天津市的面積小,遷徙規模比例要小於其他城市;重慶市近年的發展尤其迅速,不斷吸引外來人口,廣安市是重慶市的主要流入人口輸送地。
(2)人口流動日期分析
2月1日是春節假期第一個開工日,但因為今年國內的疫情正值嚴格的防疫期,各省份都頒發了延遲復工復業的文件,但由於有些行業需要實時運轉,以此在2月1日,2月2日出現了人口流動規模次數較高,也就是返程高峰的現象。隨后的兩周內,流動規模的次數不斷減少,一方面是因為企業鼓勵員工在家辦公,另一方面是各地實時封鎖道路管理,以往春節的出行活動大幅度減少。直到2月17日開始,流動規模次數逐漸增多。
剔除省內之間的流動,我們將全國的流動規模次數與省份間的流動規模總次數對比,如下:
可以看出,省份間流動占全國流動的比例在89%-91%區間段,占比線與流動規模次數是相貼合的。同比可得,省份間的流動是人口流動的主要動力。
從流出規模次數較高的河南省來看,主要集中在2月最后一周和2月第一周,這兩個星期是返程的高峰期。而廣東省和四川省主要的高峰期在2月的第一周。根據查詢的數據顯示,江蘇、安徽、山東、湖南等省份的流出規模次數也比其他省份要高,主要在於向鄰近的省份移動,大多是因為工作需求。
流入規模最多的省份是廣東,主要集中在元宵節之后的返程,其次是浙江和江蘇,集中在最后一周。由此也可見,廣東一整個月都處於流入規模次數靠前的省份,每天的次數也沒有太大的差距,處於一個穩定的流入現象。
最后一周的遷徙規模指數比前幾周的要大,2月29日達到全月最高規模程度。
總結:2月基本上最后一周的遷徙流動達到最大規模以及數量最多,其次是第一周,總體規模程度出現V字形分布。
(3)人口流動規模分析
基本上每個城市的同期規模指數比去年小,北上廣深以及新一線城市的規模指數同比其他城市要高,但是對比去年所占比例不到50%,從散點圖可以看出,大城市的遷徙規模要大得多但是數量少,大部分城市都處於遷徙規模較小的情況。側面反映了國內現在人口流動呈現區域化、集中化的情況。
各省份的平均遷徙規模指數,4個直轄市,廣東、江蘇、浙江為首的高指數地區,以4個直轄市為例,本地人口占本市的比例不高,外地人口輸入為主,所以缺少了外來人口的流入,指數的差值大幅度擴大,反觀廣東、江蘇和浙江,因為本省的經濟發展區域相對集中在一起,較為偏遠的城市的當地人口的流動性並不高,人口遷徙規模較小,所以差值縮小。
去年全國城市的遷入規模指數大於1有167個,今年的城市數量只有47個,大幅度減少。
連續29天規模指數大於1可以理解為一個城市在每一天都有規模化人口流入且數量相對較大,去年的城市數量要比今年多出53個,顯而易間今年在整個2月期間,人口的遷徙數量急劇減少。今年連續29天規模指數大於1 的城市分別為北京、上海、廣州、深圳、東莞、長沙、成都、佛山。連續20天以上的城市只有蘇州、昆明、南京。
按規模指數將省份分為4個流入級別,8個一級省主要還是國內發展較好的大城市。二級省和三級省主要是省份中的二線城市或者一些省會,但是人口流入偏少。四級省主要是省份的偏遠、經濟發展較為落后的城市群。
中國的沿海省份有遼寧、山東、江蘇、浙江、上海、福建、廣東、海南,但是沿海省份的平均流入規模次數百分比只有上海、廣東、江蘇和浙江比較高於其他的省份,位於東三省的遼寧、廣東北上的福建、海南、山東等省份遠遠比內陸的一些省份要低,不是所有的沿海省份的人口流入是最高的。
四、結論
1.由於2月的全國疫情的高發期,人口流動要比去年大幅度減少,尤其是一線城市的幅度更加顯而易見。
2.人口的流動以全國幾個經濟發展較好的地區輻射流入,珠三角、長三角、京津地區,外來人口比本地人口多,所以在人口流動幅度更大。
3.河南、廣東、四川、湖南、江蘇是人口流動大省,但河南省是輸出人口性質的省份,其次是四川省、湖南省。廣東省市雙向流動,但輸入比輸出的規模更大和頻率更高。位於上海臨近的江蘇和浙江也是人口流動頻繁的省份,大多城市以上海為核心。
4.沿海省份以及其城市流入人口偏多於內陸城市,重慶和北京除外。
5.西北地區地域面積大但是人口少,所以向東部流動的規模次數偏低。
6.日期主要集中在2月第一周以及最后一周,因為很多人需要返回工作地,流動規模次數會增多,規模指數會偏高。
7.臨近省份的流動人口更多,地理位置近交通方便。
8.氣候好的區域是流動人口遷徙的流向,生活環境是人考慮的重要因素之一。