想高效學會Hadoop,你要按照這個路線


學習hadoop,首先我們要知道hadoop是什么?

說到底Hadoop只是一項分布式系統的工具,我們在學習的時候要理解分布式系統設計中的原則以及方法,只有這樣才能以不變應萬變。再一個就是一定要動手,有什么案例,有什么項目一定要親自動手去敲。

學習的時候不要害怕遇到問題,問題是最好的老師。其實學習的過程就是逐漸解決問題的過程,當你遇到的問題越來越少的時候,就說明已經學的差不多了。

 

下面說一下hadoop的學習路線。

1.我們要掌握Linux的安裝及基本操作、Python安裝及編程基礎、java基礎。

需要學習Linux的常用命令、基本網絡配置、進程管理、shell語法;Python的常用語法,能夠基於Python搭建一個常用的Server服務器和java的基礎知識。

這時候只需要掌握基礎即可,后邊遇到問題再學習,這樣才不會混亂,學的才扎實。

2. 搭建Hadoop分布式環境

我們要做的是在自己的電腦上安裝Linux,然后准備環境nat配置,搭建Hadoop集群先讓Hadoop在自己的電腦上跑起來。使用VMware來搭建。

這時候我們會Host配置、IP配置、SSH免密登錄等。

3.學習HDFS分布式文件系統

 這一步要學習架構分析、容災容錯策略、local數據策略、數據塊概念、機架感應,功能邏輯實現等。要真正的去敲敲,掌握Linux下HDFS Shell常用命令的使用。

4.學習MapReduce計算框架

MapReduce是Hadoop核心編程模型。在Hadoop中,數據處理核心就是MapReduce程序設計模型。這一步需要學的東西很多,大家一定要有耐心,把MR的知識學牢固。

首先我們需要學習MR的基本原理、任務執行流程、Shuffle策略。自己動手寫一個MR任務,來實現wordcount。然后要學習表單join、表單查詢、數據清洗、全局排序、多目錄輸入輸出、自定義partition分區,掌握二分法算法。

接下來學習自然語言處理方法(NLP),掌握如何提取關鍵詞,TF-IDF算法。這里我們可以實踐一下,統計文本中的詞頻。

學習中文分詞,分詞的質量直接影響數據挖掘的質量。

5.學習Strom流式計算

Storm是一個開源分布式實時計算系統,它可以實時可靠地處理流數據。

這一步我們要知道Hadoop和Storm的區別,知道他們如何進行互補。了解Storm的體系架構、Zookeeper在架構中的作用和數據流處理的過程。弄懂Storm的工作原理和核心組件(Spout、Bolt)

6.學習Zookeeper分布式協作服務

這一步我們學會數據管理的樹形結構,學會根據應用場景選擇不同類型的節點、節點權限管理ACL和監控機制。學會Zookeeper開源自帶Client工具的Shell使用,開發java代碼實現不同類型的節點進行新建、修改、刪除和節點的監控。

7.學習數據倉庫工具Hive

這一步要了解Hive的體系架構和其與mysql的對比。要掌握Mysql的基本知識、系統搭建標准SQL語(增刪查改)。

8.學習分布式存儲系統Hbase

這一步要掌握Hbase的體系架構(HMaster、HRegionServer、HStore、HFile、HLog),物理存儲、數據邏輯存儲、核心功能模塊。

細化一點要掌握Hbase表結構設計、Shell操作(增刪查改)、javaAPI操作、數據遷移、備份與恢復。與MR結合實現批量導入與導出,與Hive結合使用,集群管理和性能調優。

9.學習Spark

這一步要掌握SPark的編程模型、運行框架、作業提交、緩存策略、RDD、MLLib。

10.學習Scala語言

這一步要掌握Scala的常用語法、函數、元組等操作,不熟Spark。

11.學習Spark開發技術

這一步要能夠熟練使用MLLib,能夠自己開發Scala的Spark任務,完成表格join、連接和文本串過濾等。

12.學習推薦系統

前面我們學了那么多,最終所學的技術要能落地,我學的是現在主流的推薦系統,現在各大公司都需要這方面的人才。

這一步我們可以找一些案例在學習,要掌握主流的推薦算法,Content Base、Collab Filter。

a.學習基於MR的協同過濾算法

b.學習Mahout,掌握Mahout的適用場景、環境搭建與部署。

  學習基於Mahout的協同過濾算法,與MR進行效果對比。

C.學習基於Spark的協同過濾算法

到這里,按照上邊的路線認真學習,肯定能學好hadoop開發,在學習的時候一定要親自動手去敲,要去不斷的嘗試,把看到的知識盡快轉化為自己的技能,這樣才能高效率的學會hadoop,學任何一門技術都是一樣,需要實際動手。

最后送給大家一套hadoop視頻,授課老師是百度的hadoop核心架構師,經常在一些上市公司做內訓,有很強的專業技能和授課能力。

這套視頻主要內容包括Hadoop入門、Hadoop生態架構和Hadoop大型商業項目的講解。這三塊細化來看就是我文章中提到的那個學習順序。老師講的很細,MR就講了15個小時,畢竟這是Hadoop中的重點。

想要視頻的同學可以加微信ganshiyu1026,備注 OSC 即可免費領取。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM