大數據學習之路------借助HDP SANDBOX開始學習


一開始...

  一開始知道大數據這個概念的時候,只是感覺很高大上,引起了我的興趣。當時也不知道,這個東西是做什么的,有什么用,當然現在看來也是很模糊的樣子,但是的確比一開始強了不少。

  所以學習的過程可能會很艱辛甚至有時候會很緩慢,但是感覺這東西未來會很有用途,最初了解大數據是從《大數據時代》這本書開始的,里面的很多概念和預測讓我覺得很神奇。

  但是漸漸生活中的一些事物被印證,我漸漸接受了這本書的內容,我覺得這本書還是值得一看的。

  在國內這個技術似乎是比較新穎的,做的人似乎不是很多,正因為如此,資料也會匱乏,學習難度也上升了,但是這不是我們放棄的理由不是么?

借助平台管理工具

  廢話少說,多學些東西才是正經事,在公司實習過一段時間了,感覺初學的困難之一就是,搭建平台。

  所以我們可以了解一下一些比較流行的平台管理工具:

  HDP、CDH

  而我在公司使用的便是HDP,所以我就大概的說一下HDP好了

HDP

HDP是什么?

  HDP全稱叫做Hortonworks Data Platform。

  Hortonworks數據平台是一款基於Apache Hadoop的是開源數據平台,提供大數據雲存儲,大數據處理和分析等服務。該平台是專門用來應對多來源和多格式的數據,並使其處理起來能變成簡單、更有成本效益。HDP還提供了一個開放,穩定和高度可擴展的平台,使得更容易地集成Apache Hadoop的數據流業務與現有的數據架構。該平台包括各種的Apache Hadoop項目以及Hadoop分布式文件系統(HDFS)、MapReduce、Pig、Hive、HBase、Zookeeper和其他各種組件,使Hadoop的平台更易於管理,更加具有開放性以及可擴展性。

  官網地址為:http://zh.hortonworks.com/

HDP的架構

 

學習路線:

由上圖看出

大概分為這么幾類工具:

數據管理:
HDFS、YARN

數據訪問:
Hive、Tez、Pig、Storm、Spark、HBase、Accumulo、Solr

數據管制和集成:

Atlas、Falcon、Oozie、Sqoop、Flume、Kafka

安全性:

Knox、Ranger

運營:

Ambari Zookeeper

Cloud:

Cloudbreak

既然沒有什么具體的路線那么就是一個類一個類的來學習好了。

Hortonworks Sandbox的安裝與使用:

  官網上解釋:Hortonworks Sandbox,可以使用它嘗試一下最新的hdp特性和功能。

  它可以裝在一個VM上,如此來說,給我們學習大數據相關內容提供了極大的便利

  下載地址:http://zh.hortonworks.com/downloads/#sandbox

 

  安裝的方法很簡單,使用相應的虛擬機軟件,直接導入就OK了。

 注意:我的筆記本電腦是12g內存的,而HDP2.5所需要的最小內存是8G,而如果你的內存不夠,可以選擇低版本的SANDBOX。

安裝后,開啟虛擬機就可以了

啟動的過程可能會很久要耐心等待。

啟動如下圖所示:

 

打開瀏覽器,輸入http://127.0.0.1:8888/即可。

進入后可以點開 view advanced options來查看更多的信息。

右下角有如下內容:

* Service disabled by default. To enable the service you need to log in as an ambari admin.

The ambari admin password can be set by following this tutorial

這里需要我們進行ssh登錄后,添加admin賬戶的密碼,並使用這個admin賬戶來登錄虛擬機。

ssh工具登錄使用地址127.0.0.1 端口為 2222

 這里也可以使用瀏覽器進行登錄:

在瀏覽器里輸入127.0.0.1:4200,訪問即可

用戶名:root

密碼:  hadoop

登錄后需要修改密碼,這里的密碼設置復雜一些,簡單密碼有可能通不過(不過經過本人測試,當你以后再次登錄后,可以運行passwd root,修改成任意你想要的密碼)

然后運行ambari-admin-password-reset命令,修改ambari的admin賬戶密碼。

修改后,我們在瀏覽器里輸入172.0.0.1:8080,並用admin賬戶登錄。

截張圖,

 

關於ambari的介紹如下:

  

  Apache Ambari是一種基於Web的工具,支持Apache Hadoop集群的供應、管理和監控。Ambari目前已支持大多數Hadoop組件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
  Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5個頂級hadoop管理工具之一。
 

以后我們就用它來學習了!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM