從業大數據方向,需要掌握哪些技能,具體學習路線是什么?


一、大數據相關工作介紹

  大數據方向的工作目前主要分為三個主要方向:

  1. 大數據工程師

  2. 數據分析師

  3. 大數據科學家

  4. 其他(數據挖掘等)

二、大數據工程師的技能要求

  附上大數據工程師技能圖:

 

必須掌握的技能11條

  1. Java高級(虛擬機、並發)

  2. Linux 基本操作

  3. Hadoop(HDFS+MapReduce+Yarn )

  4. HBase(JavaAPI操作+Phoenix )

  5. Hive(Hql基本操作和原理理解)

  6. Kafka

  7. Storm/JStorm

  8. Scala

  9. Python

  10. Spark (Core+sparksql+Spark streaming )

  11. 輔助小工具(Sqoop/Flume/Oozie/Hue等)

高階技能6條

  1. 機器學習算法以及mahout庫加MLlib

  2. R語言

  3. Lambda 架構

  4. Kappa架構

  5. Kylin

  6. Alluxio

三、學習路徑

  加米谷大數據理論+代碼+實戰+實操的獨有課程體系,下面是加米谷的0基礎大數據開發課程大綱:

  第一階段:Java設計與編程思想

  學習內容:Java設計與編程思想

  學習目標:Java基礎、Java面向對象、Java高級、數據庫與JDBC

  學習效果:熟練掌握Java語法並靈活運用,能夠開發后台應用

  第二階段:Web前端開發

  學習內容:Web前端開發

  學習目標:HTML基礎、CSS3基礎、JS腳本編程

  學習效果:能夠基於HTML+CSS+JQuery進行前端開發

  第三階段:JavaEE進階

  學習內容:JavaEE進階

  學習目標:JavaWeb后端開發、SSM框架

  學習效果:掌握主流JavaWeb框架並靈活運用

  第四階段:大數據基礎

  學習內容:大數據基礎

  學習目標:Linux基礎、Maven基礎

  學習效果:熟練掌握Linux及Maven等相關知識並靈活運用

  第五階段:HDFS分布式文件系統

  學習內容:HDFS分布式文件系統

  學習目標:HDFS原理剖析、HDFS編程

  學習效果:深入理解HDFS的原理並靈活運用

  第六階段:MapReduce分布式計算模型

  學習內容:MapReduce分布式計算模型

  學習目標:MapReduce原理剖析、MapReduce實踐

  學習效果:熟練掌握MapReduce原理並靈活運用

  第七階段:Yarn分布式資源管理器

  學習內容:Yarn分布式資源管理器

  學習目標:Yarn原理剖析、Yarn實踐

  學習效果:深入理解Yarn的原理並調優

  第八階段:Zookeeper分布式協調服務

  學習內容:Zookeeper分布式協調服務

  學習目標:Zookeeper原理剖析、Zookeeper實踐

  學習效果:深入理解Zookeeper的原理並靈活運用

  第九階段:Hbase分布式數據庫

  學習內容:Hbase分布式數據庫

  學習目標:Hbase原理剖析、Hbase編程實踐

  學習效果:深入理解Hbase的原理並靈活運用及調優

  第十階段:Hive分布式數據倉庫

  學習內容:Hive分布式數據倉庫

  學習目標:Hive原理剖析、Hive編程實踐

  學習效果:深入理解Hive的原理並靈活運用

  第十一階段:FlumeNG分布式數據采集系統

  學習內容:FlumeNG分布式數據采集系統

  學習目標:FlumeNG原理剖析、FlumeNG編程實踐

  學習效果:熟練掌握FlumeNG的各種應用場景

  第十二階段:Sqoop大數據遷移系統

  學習內容:Sqoop大數據遷移系統

  學習目標:Sqoop原理剖析、Sqoop編程實踐

  學習效果:熟練掌握Sqoop並靈活運用

  第十三階段:Scala大數據黃金語言

  學習內容:Scala大數據黃金語言

  學習目標:Scala語法剖析、Scala應用實踐

  學習效果:熟練掌握Scala各種語法並靈活運用

  第十四階段:kafka分布式總線系統

  學習內容:kafka分布式總線系統

  學習目標:kafka原理剖析、kafka編程實踐

  學習效果:深入理解kafka原理並靈活運用及調優

  第十五階段:SparkCore大數據計算基石

  學習內容:SparkCore大數據計算基石

  學習目標:SparkCore核心原理、SparkCore實踐

  學習效果:深入理解SparkCore原理並靈活運用及調優

  第十六階段:SparkSQL數據挖掘利器

  學習內容:SparkSQL數據挖掘利器

  學習目標:SparkSQL核心原理、SparkSQL實踐

  學習效果:熟練掌握SparkSQL的各種應用場景並靈活運用

  第十七階段:SparkStreaming流失計算平台

  學習內容:SparkStreaming流失計算平台

  學習目標:SparkStreaming核心原理、SparkStreaming實踐

  學習效果:深入理解SparkStreaming原理及各種應用場景和調優

  第十八階段:SparkMllib機器學習平台

  學習內容:SparkMllib機器學習平台

  學習目標:SparkMllib算法模型及核心原理、SparkMllib實踐

  學習效果:熟練掌握SparkMllib的常用算法並靈活運用

  第十九階段:SparkGraphx圖計算平台

  學習內容:SparkGraphx圖計算平台

  學習目標:SparkGraphx核心原理、SparkGraphx實踐

  學習效果:深入理解SparkGraphx的原理並靈活運用

  第二十階段:大數據項目實戰

  學習內容:大數據項目實戰

  學習目標:4個大數據項目的實戰

  學習效果:能夠基於所學知識在真實的項目中操練

人工智能、大數據、雲計算和物聯網的未來發展值得重視,均為前沿產業,有興趣的朋友,可以查閱多智時代,在此為你推薦幾篇優質好文:
---------------------
作者:duozhishidai
來源:CSDN
原文:https://blog.csdn.net/duozhishidai/article/details/82976709
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM