分布四个部分
1. 数据采集
通过爬虫工具,ETL工具获取数据,然后经过清洗、转换和集成将数据加载到数据仓库或者数据集市中。
extract, transform,load
2. 数据存储和管理
典型的存储地方: 文件系统和数据库
由于海量的数据导致单机存储的方式不够用,转而存到多个机器上(甚至上百台机器): 分布式文件系统和分布式数据库(分布式存储技术)
原有的关系型数据库也不能支持现有的海量数据,现在以Nosql为基础的非关系型数据库存储了大概90%的数据量。
3. 数据处理和分析
原有的单机计算方式已经解决不了那么海量的数据了,如何实现实时高效的计算(分布式处理技术)
现在分布式架构的mapreduce、saprk等可以解决大数据的计算问题
4. 数据隐私和安全
由于数据源的多样性,诞生了
隐私数据保护体系
数据安全保护体系
这四个部分最重要的是第2和第3部分
第2的分布式存储技术--------------将数据分布式的存储
google公司提出GFS
hadoop中的HDFS
第3的分布式处理技术------------在多台机器上计算同一个任务(数据在哪台机器上,就在哪台机器上进行计算)
google公司提出MAPReduce
hadoop开源实现了
可以看出hadoop包含了两块,存储方式HDFS,处理方式mapreduce