一、大數據相關工作介紹
大數據方向的工作目前主要分為三個主要方向:
1. 大數據工程師
2. 數據分析師
3. 大數據科學家
4. 其他(數據挖掘等)
二、大數據工程師的技能要求
附上大數據工程師技能圖:
必須掌握的技能11條
1. Java高級(虛擬機、並發)
2. Linux 基本操作
3. Hadoop(HDFS+MapReduce+Yarn )
4. HBase(JavaAPI操作+Phoenix )
5. Hive(Hql基本操作和原理理解)
6. Kafka
7. Storm/JStorm
8. Scala
9. Python
10. Spark (Core+sparksql+Spark streaming )
11. 輔助小工具(Sqoop/Flume/Oozie/Hue等)
高階技能6條
1. 機器學習算法以及mahout庫加MLlib
2. R語言
3. Lambda 架構
4. Kappa架構
5. Kylin
6. Alluxio
三、學習路徑
加米谷大數據理論+代碼+實戰+實操的獨有課程體系,下面是加米谷的0基礎大數據開發課程大綱:
第一階段:Java設計與編程思想
學習內容:Java設計與編程思想
學習目標:Java基礎、Java面向對象、Java高級、數據庫與JDBC
學習效果:熟練掌握Java語法並靈活運用,能夠開發后台應用
第二階段:Web前端開發
學習內容:Web前端開發
學習目標:HTML基礎、CSS3基礎、JS腳本編程
學習效果:能夠基於HTML+CSS+JQuery進行前端開發
第三階段:JavaEE進階
學習內容:JavaEE進階
學習目標:JavaWeb后端開發、SSM框架
學習效果:掌握主流JavaWeb框架並靈活運用
第四階段:大數據基礎
學習內容:大數據基礎
學習目標:Linux基礎、Maven基礎
學習效果:熟練掌握Linux及Maven等相關知識並靈活運用
第五階段:HDFS分布式文件系統
學習內容:HDFS分布式文件系統
學習目標:HDFS原理剖析、HDFS編程
學習效果:深入理解HDFS的原理並靈活運用
第六階段:MapReduce分布式計算模型
學習內容:MapReduce分布式計算模型
學習目標:MapReduce原理剖析、MapReduce實踐
學習效果:熟練掌握MapReduce原理並靈活運用
第七階段:Yarn分布式資源管理器
學習內容:Yarn分布式資源管理器
學習目標:Yarn原理剖析、Yarn實踐
學習效果:深入理解Yarn的原理並調優
第八階段:Zookeeper分布式協調服務
學習內容:Zookeeper分布式協調服務
學習目標:Zookeeper原理剖析、Zookeeper實踐
學習效果:深入理解Zookeeper的原理並靈活運用
第九階段:Hbase分布式數據庫
學習內容:Hbase分布式數據庫
學習目標:Hbase原理剖析、Hbase編程實踐
學習效果:深入理解Hbase的原理並靈活運用及調優
第十階段:Hive分布式數據倉庫
學習內容:Hive分布式數據倉庫
學習目標:Hive原理剖析、Hive編程實踐
學習效果:深入理解Hive的原理並靈活運用
第十一階段:FlumeNG分布式數據采集系統
學習內容:FlumeNG分布式數據采集系統
學習目標:FlumeNG原理剖析、FlumeNG編程實踐
學習效果:熟練掌握FlumeNG的各種應用場景
第十二階段:Sqoop大數據遷移系統
學習內容:Sqoop大數據遷移系統
學習目標:Sqoop原理剖析、Sqoop編程實踐
學習效果:熟練掌握Sqoop並靈活運用
第十三階段:Scala大數據黃金語言
學習內容:Scala大數據黃金語言
學習目標:Scala語法剖析、Scala應用實踐
學習效果:熟練掌握Scala各種語法並靈活運用
第十四階段:kafka分布式總線系統
學習內容:kafka分布式總線系統
學習目標:kafka原理剖析、kafka編程實踐
學習效果:深入理解kafka原理並靈活運用及調優
第十五階段:SparkCore大數據計算基石
學習內容:SparkCore大數據計算基石
學習目標:SparkCore核心原理、SparkCore實踐
學習效果:深入理解SparkCore原理並靈活運用及調優
第十六階段:SparkSQL數據挖掘利器
學習內容:SparkSQL數據挖掘利器
學習目標:SparkSQL核心原理、SparkSQL實踐
學習效果:熟練掌握SparkSQL的各種應用場景並靈活運用
第十七階段:SparkStreaming流失計算平台
學習內容:SparkStreaming流失計算平台
學習目標:SparkStreaming核心原理、SparkStreaming實踐
學習效果:深入理解SparkStreaming原理及各種應用場景和調優
第十八階段:SparkMllib機器學習平台
學習內容:SparkMllib機器學習平台
學習目標:SparkMllib算法模型及核心原理、SparkMllib實踐
學習效果:熟練掌握SparkMllib的常用算法並靈活運用
第十九階段:SparkGraphx圖計算平台
學習內容:SparkGraphx圖計算平台
學習目標:SparkGraphx核心原理、SparkGraphx實踐
學習效果:深入理解SparkGraphx的原理並靈活運用
第二十階段:大數據項目實戰
學習內容:大數據項目實戰
學習目標:4個大數據項目的實戰
學習效果:能夠基於所學知識在真實的項目中操練
人工智能、大數據、雲計算和物聯網的未來發展值得重視,均為前沿產業,有興趣的朋友,可以查閱多智時代,在此為你推薦幾篇優質好文:
---------------------
作者:duozhishidai
來源:CSDN
原文:https://blog.csdn.net/duozhishidai/article/details/82976709
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!