文檔編寫目的
Cloudera Data Flow(CDF) 作為 Cloudera 一個獨立的產品單元,圍繞着實時數據采集,實時數據處理和實時數據分析有多個不同的功能模塊,如下圖所示:

圖中 4 個功能模塊從左到右分別解釋如下:
- Cloudera Edge Management(CEM),主要是指在邊緣設備如傳感器上部署 MiNiFi 的 agent 后用於采集數據。
- Cloudera Flow Management(CFM),主要是使用 Apache NiFi 通過界面化拖拽的方式實現數據采集,處理和轉換。
- Cloudera Streaming Processing(CSP),主要包括 Apache Kafka,Kafka Streams,Kafka 的監控 Streams Messaging Manager(SMM),以及跨集群 Kafka topic 的數據復制 Streams Replication Manager(SRM)。
- Cloudera Streaming Analytics(CSA),以前這塊是使用 Storm 來作為 Native Streaming 來補充 Spark Streaming 的 Micro-batch 的時延問題,目前這塊改為 Flink 來實現,未來的 CDF 中將不再包含 Storm。
本文 Fayson 主要是介紹如何在 CDH6.3 中安裝 Flink 1.9 以及運行你的第一個 Flink 例子,以下是測試環境信息:
- CM 和 CDH 版本為 6.3
- Redhat 7.4
- JDK 1.8.0_181
- 集群未啟用 Kerberos
- Root 用戶安裝
安裝 Flink 1.9
1.准備 Flink 1.9 的 csd 文件,並放置到 Cloudera Manager Server 的 /opt/cloudera/csd 目錄。然后重啟 Cloudera Manager Server 服務。

2.CM 重啟完成以后,添加服務頁面可以看到有 Flink 服務。

3.下載 Flink 1.9 的 Parcel,並放置 /var/www/html 目錄。

4.通過 Hosts > Parcels 進入 Cloudera Manager 的 Parcel 頁面,輸入 SMM Parcel 的 http 地址,下載->分配->激活。


5.進入 CM 主頁點擊“添加服務”。

6.選擇添加 Flink 服務,點擊繼續。

7.選擇 Flink History Server 以及 Gateway 節點,點擊繼續。

8.點擊繼續。

9.等待 Flink History Server 啟動成功,完成后點擊繼續。


10.安裝完成,點擊完成回到 CM 主頁。


發現 Flink 的狀態為灰色,CMS 有重啟提示,按照提示重啟 CMS 服務,重啟過程略。重啟完成后顯示 Flink 服務正常。

第一個 Flink 例子
1.執行 Flink 自帶的 example 的 wordcount 例子。



2.查看輸出結果。

3.在 YARN 和 Flink 的界面上分別都能看到這個任務。


至此,Flink 1.9 安裝到 CDH 6.3 以及第一個例子介紹完畢。
備注:這是 Cloudera Streaming Analytics 中所包含 Apache Flink 的搶先測試版。Cloudera 不提供對此版本的支持。該 Beta 版本的目的是讓用戶可以盡可能早的開始使用 Flink 進行應用程序的開發。
本文作者:巴蜀真人
本文為阿里雲內容,未經允許不得轉載。
