大数据的关键技术:数据采集,数据存储和管理,数据处理和分析,数据隐私和安全


分布四个部分

 

1.   数据采集

通过爬虫工具,ETL工具获取数据,然后经过清洗、转换和集成将数据加载到数据仓库或者数据集市中。

extract, transform,load

 

2.  数据存储和管理

典型的存储地方: 文件系统和数据库

由于海量的数据导致单机存储的方式不够用,转而存到多个机器上(甚至上百台机器): 分布式文件系统和分布式数据库(分布式存储技术)

原有的关系型数据库也不能支持现有的海量数据,现在以Nosql为基础的非关系型数据库存储了大概90%的数据量。

 

3.  数据处理和分析

原有的单机计算方式已经解决不了那么海量的数据了,如何实现实时高效的计算(分布式处理技术)

现在分布式架构的mapreduce、saprk等可以解决大数据的计算问题

 

4. 数据隐私和安全

由于数据源的多样性,诞生了

隐私数据保护体系

数据安全保护体系

 

 

这四个部分最重要的是第2和第3部分

第2的分布式存储技术--------------将数据分布式的存储

google公司提出GFS

hadoop中的HDFS

第3的分布式处理技术------------在多台机器上计算同一个任务(数据在哪台机器上,就在哪台机器上进行计算)

google公司提出MAPReduce

hadoop开源实现了

可以看出hadoop包含了两块,存储方式HDFS,处理方式mapreduce

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM