一不小心,1月份留下來的坑都兩三個月了,荒草萋萋。Udacity數據分析專題已經進行到P3,但是筆記都沒怎么記錄。每當忘記之前的內容時,一頁頁重看視頻真的是很耗費時間和精力,不如把視頻整理成文字,哪怕是貼圖!
既然是數據分析,首先要有數據。如果手頭有現成的Clean數據,那是最省事兒的,直接可以進入分析階段。但是現實中往往沒有,所以需要從各種途徑收集,提取需要的數據,並進行清理存儲。也即如下流程:
對於從各種途徑收集到的數據(表格形式、CSV、Jason、XML等格式),我們並不建議就這樣直接展開分析,因為並不能保證這些數據的質量。所以先評估一下。其方法有以下幾種:
表格形式我們比較熟悉,如Excel、googlesheet等,每一行代表一條記錄,每一列表示一個字段,這里不多說。接下來說說CSV格式。
CSV,即Comma-Separated Values,(一般)以逗號分隔。CSV比較輕便,每行一條記錄,每條記錄被分隔符分割為不同的字段,純文本格式方便讀寫。
用Python解析CSV文件
Python解析CSV文件主要是以字典的形式存儲。