Python數據清理之解析CSV文件


 一不小心,1月份留下來的坑都兩三個月了,荒草萋萋。Udacity數據分析專題已經進行到P3,但是筆記都沒怎么記錄。每當忘記之前的內容時,一頁頁重看視頻真的是很耗費時間和精力,不如把視頻整理成文字,哪怕是貼圖!

既然是數據分析,首先要有數據。如果手頭有現成的Clean數據,那是最省事兒的,直接可以進入分析階段。但是現實中往往沒有,所以需要從各種途徑收集,提取需要的數據,並進行清理存儲。也即如下流程:

對於從各種途徑收集到的數據(表格形式、CSV、Jason、XML等格式),我們並不建議就這樣直接展開分析,因為並不能保證這些數據的質量。所以先評估一下。其方法有以下幾種:

表格形式我們比較熟悉,如Excel、googlesheet等,每一行代表一條記錄,每一列表示一個字段,這里不多說。接下來說說CSV格式。

CSV,即Comma-Separated Values,(一般)以逗號分隔。CSV比較輕便,每行一條記錄,每條記錄被分隔符分割為不同的字段,純文本格式方便讀寫。

 

用Python解析CSV文件

Python解析CSV文件主要是以字典的形式存儲。

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM