Flink使用（二）——Flink集群資源規划

本文轉載自查看原文 2019-12-03 00:26 398 Flink

前言

　　本文主要譯自Flink Forward 2017的柏林站中Robert Metzger的有關集群規划的How to size your flink cluster一文。該文中主要是考慮網絡資源，博主結合自己的使用經驗對文中省略的做了一定補充，同時也非常歡迎大伙留言補充。

　　本文非直譯，原文鏈接如下：https://www.ververica.com/blog/how-to-size-your-apache-flink-cluster-general-guidelines

　　文中拿捏不准的地方，均附有英文原文。若是有表述不合適的，歡迎大伙留言指出。

1、關鍵參數與資源

　　為估算Flink集群所需資源，首先我們需要根據Flink任務中的指標給出集群的最低資源需求（baseline）。

　　1.1 指標（metric）：

　　　　1）每秒的record數和每個record的大小；

　　　　2）不同key的個數和每個key產生state的大小；

　　　　3）state的更新方式以及state的訪問模式

　　此外還需考慮SLA（服務級別協議）。例如，可能願意接受的停機時間，可接受的延遲或最大吞吐量，因為此類SLA會對Flink群集的大小產生影響。

　　1.2 資源

　　　　在給Flink集群做規划時，我們需要考慮集群的資源，但這里的資源一般指什么呢？一般有以下幾種：

　　　　1）網絡容量。在考慮網絡容量時，我們也需要考慮到可能使用網絡的其他服務，如Kafka、HDFS等；

　　　　2）磁盤帶寬。當我們的容錯機制是基於磁盤的，如RockDB、HDFS，此時也有可能需要考慮到Kafka，因為其也是將數據存在磁盤的；

　　　　3）節點數量以及能提供的CPU和內存；

2、例子

　　Flink例子的拓撲圖1如下：

　　該例子從kafka消費message，以用戶id（userId）做keyBy后，經過window算子聚合（window算子為sliding window，其窗口大小為5min，間隔是1min），處理后的消息寫入到kafka中。

　　2.1 任務metrics

　　從kafka消費的record平均大小為2KB，吞吐量為1百萬/s，userId的個數為5億(5*10^9）。該任務的關鍵指標（key metric）如下：

　　2.2 硬件

　　1）5個節點，每個節點有一個TaskManager；2）萬兆網；3）磁盤通過網絡連接（本例中集群部署在雲上，物理機得另外考慮）；此外，kafka是單獨的集群。如下圖2：

　　每個節點是16核，為簡化，文中暫不考慮CUP和內存的需求。在實際的生產中需要根據任務邏輯和容錯方式去考慮內存。本例的狀態是通過RockDB的方式存儲，該方式對內存的要求較小。

　　2.3 單節點資源需求

　　　　為方便分析，我們先考慮單節點上的資源需求，集群整體的需求可以大致通過乘以節點數得到。例子中，每個算子的並行度相同且沒有其他特殊調度限制，每個節點擁有流任務的所有算子，即每個節點上都有Kafka source、window、Kafka sink算子，如下圖3：

　　為方便計算資源，上圖中KeyBy算子單獨給出，但在實際中KeyBy是Kafka算子和window算子之間鏈接的配置屬性。下面將結合圖3從上往下分析網絡資源的需求（network resource requirement）。

　　2.3.1 Kafka Source

　　為計算從單個Kafka Source的拿到的數據，我們先計算從Kafka拿到數據的綜合，計算過程如下：

　　1）每秒1,000,000條，每條大小為2KB ，每秒獲得總數據為：

　　　　2KB×1,000,000/s=2GB/s

　　2）Flink集群中每個節點每秒獲得數據為

　　　　2GB/s÷5=400MB/s

　　2.3.2 Shuffle過程（KeyBy）

　　經過KeyBy后，具有相同userId的數據將會在一個節點上，但是Kafka可能根據不同的元數據進行分區（partitioned according to a different partitioning scheme），因此對一個key（userId），單個節點直接從Kafka得到的數據為400MB/s÷5=80MB/s，這樣就有320MB/s的需要通過shuffle獲得。

　　2.3.3 window emit和Kafka sink

　　　　window會發送多少數據，有多少數據會到Kafka sink？分析如下：

　　　　window算子為每個key（userId）聚合生成4個long數，每分鍾發射一次，這樣window每分鍾為每個key會發射2個int字段（userId、window_ts）和4個long字段，總的數據量如下：

　　　　(2 x 4 bytes) + (4 x 8 bytes) = 40 bytes per key

　　這樣5個節點，每個節點的數據量為：

　　　　500,000,000 keys x 40 bytes÷5 = 4GB

　　每秒的數據量為4GB/min ÷ 60 = 67MB/s，因為每個節點上都有Kafka sink，不需要額外的重分區，因此從Flink到Kafka的數據為67MB/s。在實際中，算子不會以67MB/s的恆定速度發送數據，而是每分鍾最大限度地利用可用帶寬幾秒鍾。

　　單節點數據總流向總結如下：

Data in: 720MB/s (400 + 320) per machine
Data out: 387MB/s (320 + 67) per machine

　　整個過程可以總結如下：

　　2.3.4 獲取state和checkpointing

　　　　到目前為止，我們只考慮Flink處理的數據。實際上，還需考慮到state存儲和checkpoint過程中所需要的網絡資源。

　　　　1）state消耗的網絡帶寬

　　　　為弄清window算子的state大小，我們需要從另外一個角度去分析該問題。Flink的計算窗口大小為5min，滑動尺度為1min，為此Flink通過維持五個窗口實現“滑動窗口”。如在2.3.3節中提到，每個窗口Flink需要維持40Bytes的數據。每當一個event到達時，Flink將會從已有state中獲得數據（40Bytes）去更新聚合值，然后將更新后的數據寫入state（磁盤），如下圖：