從業大數據方向,需要掌握哪些技能,具體系統學習路線是什么?


一、大數據相關工作介紹

大數據方向的工作目前主要分為三個主要方向:

1. 大數據工程師

2. 數據分析師

3. 大數據科學家

4. 其他(數據挖掘等)

二、大數據工程師的技能要求

附上大數據工程師技能圖:

 

總體而言,我們大數據人才划分為三個大類:

一、 大數據開發工程師:

圍繞大數據系平台系統級的研發人員, 熟練Hadoop、Spark、Storm等主流大數據平台的核心框架。深入掌握如何編寫MapReduce的作業及作業流的管理完成對數據的計算,並能夠使用Hadoop提供的通用算法, 熟練掌握Hadoop整個生態系統的組件如: Yarn,HBase、Hive、Pig等重要組件,能夠實現對平台監控、輔助運維系統的開發。


【零基礎到實戰大數據】獲取途徑:

請加下面的 :
首先在前面的一組數字是: 410
其次在中間的一組數字是:391
最后位於末尾的一組數字是:744 按照先后順序組合起來,你就可以找到一個學習的樂園,不要怕麻煩,成功者都是從麻煩崛起的群

通過學習一系列面向開發者的Hadoop、Spark等大數據平台開發技術,掌握設計開發大數據系統或平台的工具和技能,能夠從事分布式計算框架如Hadoop、Spark群集環境的部署、開發和管理工作,如性能改進、功能擴展、故障分析等。

二、 大數據運維工程師:

了解Hadoop、Spark、Storm等主流大數據平台的核心框架,熟悉Hadoop的核心組件:HDFS、MapReduce、Yarn;具備大數據集群環境的資源配置,如網絡要求、硬件配置、系統搭建。熟悉各種大數據平台的部署方式,集群搭建,故障診斷、日常維護、性能優化,同時負責平台上的數據采集、數據清洗、數據存儲,數據維護及優化。熟練使用Flume、Sqoop等工具將外部數據加載進入大數據平台,通過管理工具分配集群資源實現多用戶協同使用集群資源。

三、 大數據架構師:

這一角色的要求是綜合型的,對各種開源和商用的大數據系統平台和產品的特點非常熟悉,能基於Hadoop、Spark、 NoSQL、 Storm流式計算、分布式存儲等主流大數據技術進行平台架構設計,負責企業選用軟件產品的技術選型,具體項目中的數據庫設計及實現工作,協助開發人員完成數據庫部分的程序 ,能解決公司軟件產品或者項目開發和運維中與數據庫相關的問題; 及時解決項目開發或產品研發中的技術難題,對設計系統的最終性能和穩定性負責。

崗位能力級別定義:

1. 初級:具備基本的大數據技術的基礎知識,可以將其視為大數據認證的初學或者入門等級。

2. 高級:大數據認證的高級或者熟練等級,表明該人才具備大數據某一專業方向的基本知識和熟練技能。

3. 專家:具有業界公認的專業大數據技術知識和豐富工作經驗。

這里簡單介紹幾種我認為用的比較多的技術,因為我也僅僅是個大數據愛好者,所以有些觀點可能不太標准,建議你對照着看。

一、Hadoop

可以說,hadoop幾乎已經是大數據代名詞。無論是是否贊成,hadoop已經是大部分企業的大數據標准。得益於Hadoop生態圈,從現在來看,還沒有什么技術能夠動搖hadoop的地位。

這一塊可以按照一下內容來學習:

1、Hadoop產生背景 2、Hadoop在大數據、雲計算中的位置和關系 3、國內外Hadoop應用案例介紹 4、國內Hadoop的就業情況分析及課程大綱介紹 5、分布式系統概述 6、Hadoop生態圈以及各組成部分的簡介

二、分布式文件系統HDFS

HDFS全稱 Hadoop Distributed File System ,它是一個高度容錯性的系統,適合部署在廉價的機器上,同時能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。為了實現流式讀取文件系統數據的目的,HDFS放寬了一部分POSIX約束。

1、分布式文件系統HDFS簡介 2、HDFS的系統組成介紹 3、HDFS的組成部分詳解 4、副本存放策略及路由規則 5、NameNode Federation 6、命令行接口 7、Java接口 8、客戶端與HDFS的數據流講解 9、HDFS的可用性(HA)

三、初級MapReduce

這是你成為Hadoop開發人員的基礎課程。

MapReduce提供了以下的主要功能:

1)數據划分和計算任務調度:

2)數據/代碼互定位:

3)系統優化:

4)出錯檢測和恢復:

這種編程模型主要用於大規模數據集(大於1TB)的並行運算。

1、如何理解map、reduce計算模型 2、剖析偽分布式下MapReduce作業的執行過程 3、Yarn模型 4、序列化 5、MapReduce的類型與格式 6、MapReduce開發環境搭建 7、MapReduce應用開發 8、熟悉MapReduce算法原理

四、高級MapReduce

這一塊主要是高級Hadoop開發的技能,都是MapReduce為什么我要分開寫呢?因為我真的不覺得誰能直接上手就把MapReduce搞得清清楚楚。

1、使用壓縮分隔減少輸入規模 2、利用Combiner減少中間數據 3、編寫Partitioner優化負載均衡 4、如何自定義排序規則 5、如何自定義分組規則 6、MapReduce優化

五、Hadoop集群與管理

這里會涉及到一些比較高級的數據庫管理知識,乍看之下都是操作性的內容,但是做成容易,做好非常難。

1、Hadoop集群的搭建 2、Hadoop集群的監控 3、Hadoop集群的管理 4、集群下運行MapReduce程序

六、ZooKeeper基礎知識

ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

1、ZooKeeper體現結構 2、ZooKeeper集群的安裝 3、操作ZooKeeper

七、HBase基礎知識

HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。

與FUJITSU Cliq等商用大數據產品不同,HBase是Google Bigtable的開源實現,類似Google Bigtable利用GFS作為其文件存儲系統,HBase利用Hadoop HDFS作為其文件存儲系統;Google運行MapReduce來處理Bigtable中的海量數據,HBase同樣利用Hadoop MapReduce來處理HBase中的海量數據;Google Bigtable利用 Chubby作為協同服務,HBase利用Zookeeper作為對應。

1、HBase定義 2、HBase與RDBMS的對比 3、數據模型 4、系統架構 5、HBase上的MapReduce 6、表的設計

八、HBase集群及其管理

1、集群的搭建過程 2、集群的監控 3、集群的管理

十、Pig基礎知識

Pig是進行Hadoop計算的另一種框架,是一個高級過程語言,適合於使用 Hadoop 和 MapReduce 平台來查詢大型半結構化數據集。通過允許對分布式數據集進行類似 SQL 的查詢,Pig 可以簡化 Hadoop 的使用。

1、Pig概述 2、安裝Pig 3、使用Pig完成手機流量統計業務

十一、Hive

hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用。

1、數據倉庫基礎知識 2、Hive定義 3、Hive體系結構簡介 4、Hive集群 5、客戶端簡介 6、HiveQL定義 7、HiveQL與SQL的比較 8、數據類型 9、表與表分區概念 10、表的操作與CLI客戶端 11、數據導入與CLI客戶端 12、查詢數據與CLI客戶端 13、數據的連接與CLI客戶端 14、用戶自定義函數(UDF)

十二、Sqoop

Sqoop(發音:skup)是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。

1、配置Sqoop 2、使用Sqoop把數據從MySQL導入到HDFS中 3、使用Sqoop把數據從HDFS導出到MySQL中

十三、Storm

Storm為分布式實時計算提供了一組通用原語,可被用於“流處理”之中,實時處理消息並更新數據庫。這是管理隊列及工作者集群的另一種方式。 Storm也可被用於“連續計算”(continuous computation),對數據流做連續查詢,在計算時就將結果以流的形式輸出給用戶。它還可被用於“分布式RPC”,以並行的方式運行昂貴的運算。

1、Storm基礎知識:包括Storm的基本概念和Storm應用 場景,體系結構與基本原理,Storm和Hadoop的對比 2、Storm集群搭建:詳細講述Storm集群的安裝和安裝時常見問題 3、Storm組件介紹: spout、bolt、stream groupings等 4、Storm消息可靠性:消息失敗的重發 5、Hadoop 2.0和Storm的整合:Storm on YARN 6、Storm編程實戰

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM