【源碼解析】Flink 滑動窗口數據分配到多個窗口

本文轉載自查看原文 2019-09-29 17:24 1351 FLINK

之前一直用翻滾窗口，每條數據都只屬於一個窗口，所有不需要考慮數據需要在多個窗口存的事情。

剛好有個需求，要用到滑動窗口，來翻翻 flink 在滑動窗口中，數據是怎么分配到多個窗口的

一段簡單的測試代碼：

val input = env.addSource(kafkaSource)
    val stream = input
      .map(node => {
        Event(node.get("id").asText(), node.get("createTime").asText())
      })
      .windowAll(SlidingProcessingTimeWindows.of(Time.minutes(1), Time.seconds(10)))
      .process(new ProcessAllWindowFunction[Event, Event, TimeWindow] {
        override def process(context: Context, elements: Iterable[Event], out: Collector[Event]): Unit = {
          val it = elements.iterator
          var xx: Event = null
          while (it.hasNext) {
            xx = it.next()
          }
          out.collect(xx)
        }
      })
    stream.print()

定義了一個長度為1分鍾，滑動距離 10秒的窗口，所以正常每條數據應該對應 6 個窗口

在 process 中打個斷點就可以追這段處理的源碼了

數據的流向和 TumblingEventTimeWindows 是一樣的，所以直接跳到對應數據分配的地方

WindowOperator.processElement，代碼比較長，這里就精簡一部分

@Override
public void processElement(StreamRecord<IN> element) throws Exception {
    // 對應的需要分配的窗口
    final Collection<W> elementWindows = windowAssigner.assignWindows(
        element.getValue(), element.getTimestamp(), windowAssignerContext);

    //if element is handled by none of assigned elementWindows
    boolean isSkippedElement = true;

    final K key = this.<K>getKeyedStateBackend().getCurrentKey();

    if (windowAssigner instanceof MergingWindowAssigner) {
        
    } else {
        // 循環遍歷，將數據放到對應的窗口狀態的 namesspace 中
        for (W window: elementWindows) {

            // drop if the window is already late
            if (isWindowLate(window)) {
                continue;
            }
            isSkippedElement = false;
            // 將數據放到對應的窗口中
            windowState.setCurrentNamespace(window); windowState.add(element.getValue());

            registerCleanupTimer(window);
        }
    }


}

for 循環就是將數據放到多個窗口的循環，看下 dubug 信息

看對應的6個窗口，從后往前的

窗口分配的代碼，就對應這個方法的第一句：

final Collection<W> elementWindows = windowAssigner.assignWindows(
            element.getValue(), element.getTimestamp(), windowAssignerContext);

assignWindows 的源碼是根據 windowAssigner 的不同而改變的，這里是： SlidingProcessingTimeWindows，對應源碼：

@Override
public Collection<TimeWindow> assignWindows(Object element, long timestamp, WindowAssignerContext context) {
    timestamp = context.getCurrentProcessingTime();
    List<TimeWindow> windows = new ArrayList<>((int) (size / slide));
    long lastStart = TimeWindow.getWindowStartWithOffset(timestamp, offset, slide);
    for (long start = lastStart;
        start > timestamp - size;
        start -= slide) {
        windows.add(new TimeWindow(start, start + size));
    }
    return windows;
}

有個list 存儲對應的窗口時間對象，list 的長度就是窗口的長度 / 滑動的距離（即一條數據會出現在幾個窗口中）

這里用的是處理時間，所有Timestamp 直接從處理時間中取，數據對應的最后一個窗口的開始時間 lastStart 就用處理時間傳到TimeWindow.getWindowStartWindOffset 中做計算

算出最后一個窗口的開始時間后，減滑動的距離，就是上一個窗口的開始時間，直到窗口的開始時間超出窗口的范圍

對應的關鍵就是 lastStart 的計算，看源碼：

/**
 * Method to get the window start for a timestamp.
 *
 * @param timestamp epoch millisecond to get the window start.
 * @param offset The offset which window start would be shifted by.
 * @param windowSize The size of the generated windows.
 * @return window start
 */
public static long getWindowStartWithOffset(long timestamp, long offset, long windowSize) {
    return timestamp - (timestamp - offset + windowSize) % windowSize;
}

沒指定 offset ，所以 offset 為0， lastStart = timestamp - (timestamp - offset + windowSize) % windowSize

windowSize 是滑動的距離，這里畫了個圖來說明計算的公式：

算出最后一個窗口的時間后，下面的 for 循環計算出數據對應的所有窗口，並創建一個時間窗口（這個時間窗口，並不是一個窗口，只是窗口的時間，表達一個窗口的開始時間和結束時間）

long lastStart = TimeWindow.getWindowStartWithOffset(timestamp, offset, slide);
    for (long start = lastStart;
        start > timestamp - size;
        start -= slide) {
        windows.add(new TimeWindow(start, start + size));
    }

所以 17 對應的這條數據對應的窗口就有 (10-20), (15,25)

一條數據屬於多少個窗口分配好了以后，就是把數據放到對應的窗口中了，flink 的窗口對應 state 的 namespace ，所以放到多個窗口，就是放到多個 namespace 中，對應的代碼是：

windowState.setCurrentNamespace(window);
windowState.add(element.getValue());

選擇 namespace，把數據放到對應的 state 中，后面窗口 fire 的時候，會從對應的 namespace 中 get 數據

歡迎關注Flink菜鳥公眾號，會不定期更新Flink（開發技術）相關的推文

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據學習日志——解析sparkstreaming滑動窗口源碼 Sentinel源碼解析三（滑動窗口流量統計） Flink 滑動窗口使用觸發器會觸發多個窗口的計算 flink自定義窗口分配器周、月《Flink 源碼解析》—— 源碼編譯運行 Flink 源碼解析 —— 深度解析 Flink 序列化機制 flink-connector-kafka consumer的topic分區分配源碼 [源碼解析] Flink的Slot究竟是什么？(1) [源碼解析] Flink的Slot究竟是什么？(2) [源碼解析] 從TimeoutException看Flink的心跳機制