熱門的消息隊列中間件RabbitMQ,分布式任務處理平台Celery,大數據分布式處理的三大重量級武器:Hadoop、Spark、Storm,以及新一代的數據采集和分析引擎Elasticsearch。
RabbitMQ
RabbitMQ是一個支持Advanced Message Queuing Protocol(AMQP)的開源消息隊列實現,由Erlang編寫,因以高性能、高可用以及可伸縮性出名。它支持多種客戶端,如:Java、Python、PHP、.NET、Ruby、JavaScript等。它主要用於在分布式系統中存儲和轉發消息,方便組件之間的解耦,消息的發送者無需知道消息使用者的存在,反之亦然。
AMQP架構中有兩個主要組件:Exchange和Queue,兩者都在服務端,又稱Broker,由RabbitMQ實現的。客戶端通常有Producer和Consumer兩種類型。

在使用RabbitMQ過程中需要注意的是,它將數據存儲在Node中,默認情況為hostname。因此在使用docker run指令運行容器的時候,應該通過-h/--hostname參數指定每一個rabbitmq daemon運行的主機名。這樣就可以輕松地管理和維護數據了:
$ docker run -d --hostname my-rabbit --name some-rabbit rabbitmq:3
3f28f6290e05375363ee661151170d37fbc89ada004c3235f02997b711b4cb2b
用戶使用rabbitmqctl工具進行遠程管理,或跨容器管理的時候,會需要設置持久化的cookie。這里可以使用RABBITMQ_ERLANG_COOKIE參數進行設置:
$ docker run -d --hostname my-rabbit --name some-rabbit -e RABBITMQ_ERLANG_COOKIE='secret cookie here' rabbitmq:3
使用cookie連接至一個獨立的實例:
$ docker run -it --rm --link some-rabbit:my-rabbit -e RABBITMQ_ERLANG_COOKIE='secret cookie here' rabbitmq:3 bash
root@f2a2d3d27c75:/# rabbitmqctl -n rabbit@my-rabbit list_users
Listing users ...
guest [administrator]
同樣,用戶也可以使用RABBITMQ_NODENAME簡化指令:
$ docker run -it --rm --link some-rabbit:my-rabbit -e RABBITMQ_ERLANG_COOKIE='secret cookie here' -e RABBITMQ_NODENAME=rabbit@my-rabbit rabbitmq:3 bash
root@f2a2d3d27c75:/# rabbitmqctl list_users
Listing users ...
guest [administrator]
默認情況下,rabbitmq會安裝並啟動一些管控插件,如rabbitmq:3-management。通常可以通過默認用戶名密碼以及標准管控端口15672訪問這些插件:
$ docker run -d --hostname my-rabbit --name some-rabbit rabbitmq:3-management
用戶可以通過瀏覽器訪問http://container-ip:15672,如果需要從宿主機外訪問,則使用8080端口:
$ docker run -d --hostname my-rabbit --name some-rabbit -p 8080:15672 rabbitmq:3-management
如果需要修改默認用戶名與密碼(guest:guest),則可以使用RABBITMQ_DEFAULT_USER和RABBITMQ_DEFAULT_PASS環境變量:
$ docker run -d --hostname my-rabbit --name some-rabbit -e RABBITMQ_DEFAULT_USER=user -e RABBITMQ_DEFAULT_PASS=password rabbitmq:3-management
如果需要修改默認vhost,可以修改RABBITMQ_DEFAULT_VHOST環境變量:
$ docker run -d --hostname my-rabbit --name some-rabbit -e RABBITMQ_DEFAULT_VHOST=my_vhost rabbitmq:3-management
然后連接至daemon:
$ docker run --name some-app --link some-rabbit:rabbit -d application-that-uses-rabbitmq
用戶也可以訪問官方鏡像倉庫,並對Dockerfile進行更多定制。
Celery
除了通用的消息隊列外,任務隊列在分布式處理中也十分重要。任務隊列的輸入是工作的一個單元,稱為任務,有多個工作者監聽隊列來獲取任務並執行。
Celery是一個簡單、靈活、高可用、高性能的開源(BSD許可)分布式任務處理系統,專注於實時處理的任務隊列管理,同時也支持任務調度。Celery基於Python實現,跟包括Django、Pyramid、Pylons、Flask、Tornado等Web框架都無縫集成,有龐大的用戶與貢獻者社區。Celery可以單機運行,也可以在多台機器上運行,甚至可以跨越數據中心運行。
1.使用官方鏡像
啟動一個celery worker,即RabbitMQ Broker:
$ docker run --link some-rabbit:rabbit --name some-celery -d celery:latest
檢查集群狀態:
$ docker run --link some-rabbit:rabbit --rm celery celery status
啟動一個celery worker,即Redis Broker:
$ docker run --link some-redis:redis -e CELERY_BROKER_URL=redis://redis --name some-celery -d celery
檢查集群狀態:
$ docker run --link some-redis:redis -e CELERY_BROKER_URL=redis://redis --rm celery celery status
2.使用Celery庫
如果用戶使用的框架已有Celery庫,那么使用起來會更方便。
下面是Python中調用Celery的hello world程序:
from celery import Celery app = Celery('hello', broker='amqp://guest@localhost//') @app.task def hello(): return 'hello world'
Hadoop
作為當今大數據處理領域的經典分布式平台,Apache Hadoop主要基於Java語言實現,由三個核心子系統組成:HDFS、YARN、MapReduce,其中,HDFS是一套分布式文件系統;YARN是資源管理系統,MapReduce是運行在YARN上的應用,負責分布式處理管理。如果從操作系統的角度看,HDFS相當於Linux的ext3/ext4文件系統,而Yarn相當於Linux的進程調度和內存分配模塊。
1.使用官方鏡像
可以通過docker run指令運行鏡像,同時打開bash命令行,如下所示:
$ docker run -it sequenceiq/hadoop-docker:2.7.0 /etc/bootstrap.sh -bash
bash-4.1#
此時可以查看各種配置信息和執行操作,例如查看namenode日志等信息:
bash-4.1# cat /usr/local/hadoop/logs/hadoop-root-namenode-d4e1e9d8f24f.out
ulimit -a for user root core file size (blocks, -c) 0 data seg size (kbytes, -d) unlimited scheduling priority (-e) 0 file size (blocks, -f) unlimited pending signals (-i) 7758 max locked memory (kbytes, -l) 64 max memory size (kbytes, -m) unlimited open files (-n) 1048576 pipe size (512 bytes, -p) 8 POSIX message queues (bytes, -q) 819200 real-time priority (-r) 0 stack size (kbytes, -s) 8192 cpu time (seconds, -t) unlimited max user processes (-u) unlimited virtual memory (kbytes, -v) unlimited file locks (-x) unlimited
2.安裝驗證
需要驗證Hadoop環境是否安裝成功。打開容器的bash命令行環境,進入Hadoop目錄:
bash-4.1# cd $HADOOP_PREFIX
bash-4.1# pwd
/usr/local/hadoop
然后通過運行Hadoop內置的實例程序來進行測試:
bash-4.1# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output 'dfs[a-z.]+'
16/08/31 10:00:11 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 16/08/31 10:00:15 INFO input.FileInputFormat: Total input paths to process : 31 16/08/31 10:00:16 INFO mapreduce.JobSubmitter: number of splits:31 ...
最后可以使用hdfs指令檢查輸出結果:
bash-4.1# bin/hdfs dfs -cat output/*
Spark
Apache Spark是一個圍繞速度、易用性和復雜分析構建的大數據處理框架,基於Scala開發。最初在2009年由加州大學伯克利分校的AMPLab開發,並於2010年成為Apache的開源項目之一。與Hadoop和Storm等其他大數據和MapReduce技術相比,Spark支持更靈活的函數定義,可以將應用處理速度提升一到兩個數量級,並且提供了眾多方便的實用工具,包括SQL查詢、流處理、機器學習和圖處理等。
Spark體系架構包括如下三個主要組件:數據存儲、API、管理框架,如圖13-3所示。

1.使用官方鏡像
用戶可以使用sequenceiq/spark鏡像,版本方面支持Hadoop 2.6.0,Apache Spark v1.6.0(CentOS)。同時此鏡像還包含Dockerfile,用戶可以基於它構建自定義的Apache Spark鏡像。
用戶使用docker pull指令直接獲取鏡像:
$ docker pull sequenceiq/spark:1.6.0
也可以使用docker build指令構建spark鏡像:
$ docker build --rm -t sequenceiq/spark:1.6.0 .
另外,用戶在運行容器時,需要映射YARN UI需要的端口:
$ docker run -it -p 8088:8088 -p 8042:8042 -h sandbox sequenceiq/spark:1.6.0 bash
啟動后,可以使用bash命令行來查看namenode日志等信息:
bash-4.1# cat /usr/local/hadoop/logs/hadoop-root-namenode-sandbox.out
2.驗證
基於YARN部署Spark系統時,用戶有兩種部署方式可選:YARN客戶端模式和YARN集群模式。
下面分別論述兩種部署方式。
1.YARN客戶端模式
在YARN客戶端模式中,SparkContext(或稱為驅動程序,driver program)運行在客戶端進程中,應用的master僅處理來自YARN的資源管理請求:
#運行spark shell spark-shell \ --master yarn-client \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 #執行以下指令,若返回1000則符合預期 scala> sc.parallelize(1 to 1000).count()
2.YARN集群模式
在YARN集群模式中,Spark driver驅動程序運行於應用master的進程中,即由YARN從集群層面進行管理。
下面,用戶以Pi值計算為例子,展現兩種模式的區別:
Pi計算(YARN集群模式):
#執行以下指令,成功后,日志中會新增記錄"Pi is roughly 3.1418" #集群模式下用戶必須制定--files參數,以開啟metrics spark-submit \ --class org.apache.spark.examples.SparkPi \ --files $SPARK_HOME/conf/metrics.properties \ --master yarn-cluster \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \ $SPARK_HOME/lib/spark-examples-1.6.0-hadoop2.6.0.jar
Pi計算(YARN客戶端模式):
#執行以下指令,成功后,命令行將顯示"Pi is roughly 3.1418" spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn-client \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \ $SPARK_HOME/lib/spark-examples-1.6.0-hadoop2.6.0.jar
3.容器外訪問Spark
如果需要從容器外訪問Spark環境,則需要設置YARN_CONF_DIR環境變量。只能使用根用戶訪問Docker的HDFS環境。
yarn-remote-client文件夾內置遠程訪問的配置信息:
export YARN_CONF_DIR="`pwd`/yarn-remote-client"
當用戶從容器集群外部,使用非根用戶訪問Spark環境時,則需要配置HADOOP_USER_NAME環境變量:
export HADOOP_USER_NAME=root
Storm
Apache Storm是一個實時流計算框架,由Twitter在2014年正式開源,遵循Eclipse Public License 1.0。Storm基於Clojure等語言實現。
Storm集群與Hadoop集群在工作方式上十分相似,唯一區別在於Hadoop上運行的是MapReduce任務,在Storm上運行的則是topology。MapReduce任務完成處理即會結束,而topology則永遠在等待消息並處理(直到被停止)。
使用Compose搭建Storm集群
利用Docker Compose模板,用戶可以在本地單機Docker環境快速地搭建一個Apache Storm集群,進行應用開發測試。
1.Storm示例架構,Storm架構圖。

其中包含如下容器:
·Zookeeper:Apache Zookeeper三節點部署。
·Nimbus:Storm Nimbus。
·Ui:Storm UI
·Supervisor:Storm Supervisor(一個或多個)。
·Topology:Topology部署工具,其中示例應用基於官方示例storm-starter代碼構建。
2.本地開發測試
首先從Github下載需要的代碼:
$ git clone https://github.com/denverdino/docker-storm.git
$ cd docker-swarm/local
代碼庫中的docker-compose.yml文件描述了典型的Storm應用架構。
用戶可以直接運行下列命令構建測試鏡像:
$ docker-compose build
現在可以用下面的命令來一鍵部署一個Storm應用:
$ docker-compose up -d
當UI容器啟動后,用戶可以訪問容器的8080端口來打開操作界面。
利用如下命令,可以伸縮supervisor的數量,比如伸縮到3個實例:
$ docker-compose scale supervisor=3
用戶也許會發現Web界面中並沒有運行中的topology。這是因為Docker Compose目前只能保證容器的啟動順序,但是無法確保所依賴容器中的應用已經完全啟動並可以被正常訪問了。為了解決這個問題,需要運行下面的命令來再次啟動topolgoy服務應用來提交更新的拓撲:
$ docker-compose start topology
稍后刷新Storm UI,可以發現Storm應用已經部署成功了。
Elasticsearch
Elasticsearch是一個基於Lucene的開源搜索服務器,主要基於Java實現。它提供了一個分布式的,多租戶的全文搜索引擎,內含RESTful web接口。
Elasticsearch提供了實時的分布式數據存儲和分析查詢功能,很容易擴展到上百台服務器,支持處理PB級結構化或非結構化數據。配合Logstash、Kibana等組件,可以快速構建一套對日志消息的分析平台。
可以使用官方鏡像,快速運行Elasticsearch容器:
$ docker run -d elasticsearch
也可以在啟動時傳入一些額外的配置參數:
$ docker run -d elasticsearch elasticsearch -Des.node.name="TestNode"
目前使用的鏡像內含默認配置文件,包含了預先定義好的默認配置。
如果用戶要使用自定義配置,可以使用數據卷,掛載自定義配置文件至/usr/share/elasticsearch/config:
$ docker run -d -v "$PWD/config":/usr/share/elasticsearch/config elasticsearch
如果需要數據持久化,可以使用數據卷指令,掛載至/usr/share/elasticsearch/data:
$ docker run -d -v "$PWD/esdata":/usr/share/elasticsearch/data elasticsearch
此鏡像會暴露9200 9300兩個默認的HTTP端口,可以通過此端口進行服務訪問。9200端口是對外提供服務的API使用的端口。9300端口是內部通信端口,這些通信包括心跳,集群內部信息同步。
小結
分布式處理與大數據處理領域的典型熱門工具,包括Rabbitmq、Celery、Hadoop、Spark、Storm和Elasticsearch等。這些開源項目的出現,極大降低了開發者進行分布式處理和數據分析的門檻。
實際上,摩爾定律的失效,必將導致越來越多的復雜任務必須采用分布式架構進行處理。在新的架構和平台下,如何實現高性能、高可用性,如何讓應用容易開發、方便調試,都是十分復雜的問題。已有的開源平台項目提供了很好的實現參考,方便用戶將更多的精力放到核心業務的維護上。通過基於容器的部署和使用,極大簡化了對如此復雜系統的使用和維護。
