7、Python 數據分析-Pandas人口分析案例

本文轉載自查看原文 2020-06-29 21:47 667 數據分析

需求：

1.導入文件，查看原始數據
2.將人口數據和各州簡稱數據進行合並
3.將合並的數據中重復的abbreviation列進行刪除
4.查看存在缺失數據的列
5.找到有哪些state/region使得state的值為NaN，進行去重操作
6.為找到的這些state/region的state項補上正確的值，從而去除掉state這一列的所有NaN
7合並各州面積數據areas
8.我們會發現area(sq.mi)這一列有缺失數據，找出是哪些行
9.去除含有缺失數據的行
10.找出2010年的全民人口數據
11.計算各州的人口密度
12.排序，並找出人口密度最高的州

①

導入文件，查看原始數據

abb = pd.read_csv('./state-abbrevs.csv') 
#state(州的全稱)abbreviation（州的簡稱）

area = pd.read_csv('./state-areas.csv') 
#state州的全稱，area (sq. mi)州的面積

pop = pd.read_csv('./state-population.csv')
#state/region州/地區簡稱，ages年齡，year時間，population人口數量

②

將人口數據和各州簡稱數據進行合並

abb_pop = pd.merge(abb,pop,left_on='abbreviation',right_on='state/region',how='outer')

③

將合並的數據中重復的abbreviation列進行刪除

abb_pop.drop(labels='abbreviation',axis=1,inplace=True)

④

查看存在缺失數據的列
方式1：

abb_pop.info()
>>>
<class 'pandas.core.frame.DataFrame'>
Int64Index: 2544 entries, 0 to 2543
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   state         2448 non-null   object 
 1   state/region  2544 non-null   object 
 2   ages          2544 non-null   object 
 3   year          2544 non-null   int64  
 4   population    2524 non-null   float64
dtypes: float64(1), int64(1), object(3)
memory usage: 119.2+ KB

方式2:

abb_pop.isnull().any(axis=0)
>>>
state            True
state/region    False
ages            False
year            False
population       True
dtype: bool

⑤

找到有哪些state/region使得state的值為NaN，進行去重操作

#1.找到state中的空值
abb_pop['state'].isnull()
#2.將空值對應的行數據提取
abb_pop.loc[abb_pop['state'].isnull()]
#3.將state空對應的簡稱找出
abb_pop.loc[abb_pop['state'].isnull()]['state/region']
#4.對符合要求的簡稱進行去重
abb_pop.loc[abb_pop['state'].isnull()]['state/region'].unique()
>>>
array(['PR', 'USA'], dtype=object)


#nunique可以統計重復元素的個數
abb_pop.loc[abb_pop['state'].isnull()]['state/region'].nunique()
>
2

⑥

為找到的這些state/region的state項補上正確的值，從而去除掉state這一列的所有NaN

#1.state這一列中的空值對應的簡稱為PR和USA，
#state這一列的空值分為兩種類型，一種類型需要補充PR的全稱，一種類型需要補充為USA的全稱
#2.找到PR簡稱對應全稱的空值
    #可以將PR對應的行數據取出，然后將state列取出即可
abb_pop['state/region'] == 'PR'
    #取出對應的行數據
abb_pop.loc[abb_pop['state/region'] == 'PR']
#3.將符合要求的空進行正確填充
indexs = abb_pop.loc[abb_pop['state/region'] == 'PR'].index
#批量賦值
abb_pop.loc[indexs,'state'] = 'PPPRRR'

abb_pop['state/region'] == 'USA'
abb_pop.loc[abb_pop['state/region'] == 'USA']
indexs = abb_pop.loc[abb_pop['state/region'] == 'USA'].index
abb_pop.loc[indexs,'state'] = 'United States'

⑦

合並各州面積數據areas

abb_pop_area = pd.merge(abb_pop,area,how='outer')

⑧

我們會發現area(sq.mi)這一列有缺失數據，找出是這些行

abb_pop_area['area (sq. mi)'].isnull()
abb_pop_area.loc[abb_pop_area['area (sq. mi)'].isnull()]
drop_index = abb_pop_area.loc[abb_pop_area['area (sq.mi)'].isnull()].index
>>>
Int64Index([2448, 2449, 2450, 2451, 2452, 2453, 2454, 2455, 2456, 2457, 2458,
            2459, 2460, 2461, 2462, 2463, 2464, 2465, 2466, 2467, 2468, 2469,
            2470, 2471, 2472, 2473, 2474, 2475, 2476, 2477, 2478, 2479, 2480,
            2481, 2482, 2483, 2484, 2485, 2486, 2487, 2488, 2489, 2490, 2491,
            2492, 2493, 2494, 2495, 2496, 2497, 2498, 2499, 2500, 2501, 2502,
            2503, 2504, 2505, 2506, 2507, 2508, 2509, 2510, 2511, 2512, 2513,
            2514, 2515, 2516, 2517, 2518, 2519, 2520, 2521, 2522, 2523, 2524,
            2525, 2526, 2527, 2528, 2529, 2530, 2531, 2532, 2533, 2534, 2535,
            2536, 2537, 2538, 2539, 2540, 2541, 2542, 2543],
           dtype='int64')

⑨

去除含有缺失數據的行

#刪除缺失數據的行
abb_pop_area.drop(labels=drop_index,axis=0,inplace=True)
#刪除最后一行數據
abb_pop_area.drop(labels=2544,axis=0,inplace=True)
#查看狀態信息是否都已清洗完成
abb_pop_area.isnull().any(axis=0)
>>>
state            False
state/region     False
ages             False
year             False
population       False
area (sq. mi)    False
dtype: bool

⑩

找出2010年的全民人口數據

query條件查詢

abb_pop_area.query('year == 2010 & ages == "total"')

⑪

計算各州的人口密度

abb_pop_area['midu'] = abb_pop_area['population'] / abb_pop_area['area (sq. mi)']

⑫

排序，並找出人口密度最高的州

sort_values:值排序

sort_index:索引排序

abb_pop_area.sort_values(by='midu',axis=0,ascending=False)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python數據分析(二): Pandas技巧 (2) Python數據分析(二): Pandas技巧 (1) python 數據分析之pandas Python 數據分析 Pandas python 數據分析實際案例 4 數據分析-案例:亞洲國家人口數據計算 Python數據分析庫pandas ------ pandas數據讀寫數據分析隨筆(python及pandas及matplotlib查看數據) 【Python數據分析】pandas時刻數據：Timestamp python數據分析：客戶價值分析案例實戰