一、数据的分类
1、分类
(1)结构化数据:能用关系型数据库描述的数据。
特点:数据以行为单位,一行数据表示一个实体的信息,每一行的数据的属性是相同的。
举例:关系数据库中存储的表
处理方法:sql---结构化查询语言---语言---可以在关系型数据库中对数据的操作。
(2)半结构化数据:拥有自描述结构数据
特点:包含相关标记,用来分隔语义元素以及对记录和字段进行分层----也别成为自描述结构
举例:html,xml,json。
处理方法:正则,xpath(xml,html)
(3)非结构化数据:
特点:没有固定结构的数据。
举例:文档,图片,视频,音频等等,都是通过整体存储二进制格式来保存的。
如果下载视频,音频。
处理:
response = requests.get(url='视频的地址')
保存response.content即可,文件名称后要注意。
2、json(json(JavaScript Object Notation,JS对象标记))数据
json是一种数据【交换】的格式。
json是如何来进行交换的。
【json其实是在js语言中,用'字符串'的形式来表示json中的对象和数组的一种技术。】所以json本质上是字符串。
js中的对象:var obj = {name:'zhangsan',age:'10'}----在python中这个可以当成:字典
js中的数组:var arr = ['a','b','c','d']----在python中这个可以当成:list。
3、json数据的处理(重点)
(1)使用json模块处理。
json_str:json数据
json.loads(json_str)--->python的list或者字典
json.dumps(python的list或者字典)--->json_str
(2)在requests模块中,response对象有个json方法,可以直接得到相应json字符串解析后的内容
response.json()--->python的list或者字典