一、數據的分類
1、分類
(1)結構化數據:能用關系型數據庫描述的數據。
特點:數據以行為單位,一行數據表示一個實體的信息,每一行的數據的屬性是相同的。
舉例:關系數據庫中存儲的表
處理方法:sql---結構化查詢語言---語言---可以在關系型數據庫中對數據的操作。
(2)半結構化數據:擁有自描述結構數據
特點:包含相關標記,用來分隔語義元素以及對記錄和字段進行分層----也別成為自描述結構
舉例:html,xml,json。
處理方法:正則,xpath(xml,html)
(3)非結構化數據:
特點:沒有固定結構的數據。
舉例:文檔,圖片,視頻,音頻等等,都是通過整體存儲二進制格式來保存的。
如果下載視頻,音頻。
處理:
response = requests.get(url='視頻的地址')
保存response.content即可,文件名稱后要注意。
2、json(json(JavaScript Object Notation,JS對象標記))數據
json是一種數據【交換】的格式。
json是如何來進行交換的。
【json其實是在js語言中,用'字符串'的形式來表示json中的對象和數組的一種技術。】所以json本質上是字符串。
js中的對象:var obj = {name:'zhangsan',age:'10'}----在python中這個可以當成:字典
js中的數組:var arr = ['a','b','c','d']----在python中這個可以當成:list。
3、json數據的處理(重點)
(1)使用json模塊處理。
json_str:json數據
json.loads(json_str)--->python的list或者字典
json.dumps(python的list或者字典)--->json_str
(2)在requests模塊中,response對象有個json方法,可以直接得到相應json字符串解析后的內容
response.json()--->python的list或者字典