如何從地址中提取省市區?


假設我們通過爬蟲獲取了上萬條不規范的地址信息:

杭州市濱江區網商路599號東城區和平里街道上海市徐匯區 xx 小區...

現在老板想讓你把這些地址統一格式化為標准的省市區地址格式,並寫入到 Excel 中。你應該如何操作?

有一個庫,叫做 cpca,可以非常方便地解決這個問題。我們來寫一段非常簡單的代碼,看看這個庫有多簡單:

import cpca

address_list = '''杭州市濱江區網商路599號
東城區和平里街道
上海市徐匯區 xx 小區'''.split('\n')

df = cpca.transform(address_list)
print(df)

 

 

這個庫能自動根據你寫的部分地址,推測出這個地址所在的省市區。即使你把省市區省略了一部分,或者是使用簡稱,它也能識別出來,如下圖所示:

 

 

cpca.transform返回的是一個 Pandas 的 DataFrame 對象,我們可以調用它的.to_csv()直接生成 csv 文件。如果我們再安裝一個第三方庫openpyxl,還可以直接生成 Excel 文件,如下圖所示:

 

 

大家可以訪問 GitHub - DQinYuan/chinese_province_city_area_mapper: 一個用於提取簡體中文字符串中省,市和區並能夠進行映射,檢驗和簡單繪圖的python模塊[1]查看更多用法,包括如何處理不同城市的同名區,並且還可以繪制熱力圖。

參考資料

[1]

GitHub - DQinYuan/chinese_province_city_area_mapper: 一個用於提取簡體中文字符串中省,市和區並能夠進行映射,檢驗和簡單繪圖的python模塊: https://github.com/DQinYuan/chinese_province_city_area_mapper

 

 

轉自:微信公眾號:未聞code


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM