優達學城數據分析師納米學位——P3項目知識點整理及代碼分析


 P3 OpenStreetMap 項目思路整理

P3項目的核心在於數據的整理 data cleaning 數據清洗,數據來源於開源的OpenStreetMap平台,該平台上的很多數據都是開發者自行輸入的,難免會造成數據的混亂和缺失,錯誤,也就是所說的dirty data 臟數據 human involved

data cleaning的關注點 validity completeness accuracy consistency uniformity 

validity 有效性 數據是否符合常理 人名不應該是數字

completeness 完整性 數據記錄表格中的數據是否記錄完整

accuracy 准確性  數據是否符合實際情況 一個國家的人口值,國土面積

consistency 一致性

uniformity 統一性  單位是否統一

項目評估准則 中的地圖中遇到的問題:

舉例 :使用藍圖的實例中  使用編寫的audit()函數來統計道路名稱的種類  代碼使用了cElementTree 正則表達式(正則表達式是一個特殊的字符序列,它能幫助你方便的檢查一個字符串是否與某種模式匹配)

圖1. 統計所用的audit()函數代碼

 

 

圖2. 部分統計結果

 

XML (Extensible Markup Language)數據處理基礎: 

1. XML 與 HTML 關系: XML用來存儲和傳輸數據 HTML用來展示數據 (XML可以自定義標簽,具備自我描述性)

             XML將數據從HTML文件中分離出來,簡化數據的傳輸,共享,更新

 

一個XML文件的示例 簡單的一個便簽文本

標簽是處理的核心,讀懂標簽就能夠對數據進行整理分類

 

 

樹形結構文檔 根元素,子元素,元素的屬性

shil

 

構建http請求:待完成

 OSM XML 文件基礎:

1.迭代解析 創建一個tag標簽,初步了解一個數據集的標簽總數,通過逐一解析標簽來完成數據分析工作總而避免將數據全部導入到內存中占據過大的內存空間。 使用解析器 parsing service.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM