假設我們通過爬蟲獲取了上萬條不規范的地址信息:
杭州市濱江區網商路599號東城區和平里街道上海市徐匯區 xx 小區...
現在老板想讓你把這些地址統一格式化為標准的省市區地址格式,並寫入到 Excel 中。你應該如何操作?
有一個庫,叫做 cpca
,可以非常方便地解決這個問題。我們來寫一段非常簡單的代碼,看看這個庫有多簡單:
import cpca address_list = '''杭州市濱江區網商路599號 東城區和平里街道 上海市徐匯區 xx 小區'''.split('\n') df = cpca.transform(address_list) print(df)
這個庫能自動根據你寫的部分地址,推測出這個地址所在的省市區。即使你把省市區省略了一部分,或者是使用簡稱,它也能識別出來,如下圖所示:
cpca.transform
返回的是一個 Pandas 的 DataFrame 對象,我們可以調用它的.to_csv()
直接生成 csv 文件。如果我們再安裝一個第三方庫openpyxl
,還可以直接生成 Excel 文件,如下圖所示:
大家可以訪問 GitHub - DQinYuan/chinese_province_city_area_mapper: 一個用於提取簡體中文字符串中省,市和區並能夠進行映射,檢驗和簡單繪圖的python模塊[1]查看更多用法,包括如何處理不同城市的同名區,並且還可以繪制熱力圖。
參考資料
[1]
GitHub - DQinYuan/chinese_province_city_area_mapper: 一個用於提取簡體中文字符串中省,市和區並能夠進行映射,檢驗和簡單繪圖的python模塊: https://github.com/DQinYuan/chinese_province_city_area_mapper
轉自:微信公眾號:未聞code