入門Flink的第一個程序——WordCount


一、從WordCount開始

1.1 Maven依賴

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.coderead</groupId>
    <artifactId>flink-quick-start</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <encoding>UTF-8</encoding>
        <java.version>1.8</java.version>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>

        <scala.version>2.11</scala.version>
        <flink.version>1.8.1</flink.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_${scala.version}</artifactId>
            <version>${flink.version}</version>
        </dependency>
    </dependencies>
    
</project>
  • 2.11 表示 Flink 是使用 Scala 2.11 編譯的;
  • 1.8.1 表示的是 Flink 的版本號;截止撰寫本文,Flink 已經有 1.14.0 版本了 Download Flink
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class SocketTextWorkCountStream {

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        DataStreamSource<String> src = env.socketTextStream("localhost", 8888);

        src.flatMap(new LineSplitter()).setParallelism(1)
                .keyBy(0)
                .sum(1).setParallelism(1)
                .print();

        env.execute("Java WordCount from SocketTextStream Example");
    }

    private static final class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {

        @Override
        public void flatMap(String value, Collector<Tuple2<String, Integer>> collector) {
            // normalize and split the line
            // \W 匹配非字母、數字、下划線。等價於 '[^A-Za-z0-9_]'。
            String[] tokens = value.toLowerCase().split("\\W+");
            // emit the pairs
            for (String token : tokens) {
                if (token.length() > 0) {
                    collector.collect(new Tuple2<>(token, 1));
                }
            }
        }
    }

}

1.3 服務端程序

在啟動上面的程序之前,我們需要一個服務端程序:

import java.io.BufferedWriter;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.net.InetSocketAddress;
import java.net.ServerSocket;
import java.net.Socket;
import java.util.Scanner;

public class TextServer {
    public static void main(String[] args) throws IOException {
        try (ServerSocket server = new ServerSocket()) {
            // 監聽 8888 端口
            server.bind(new InetSocketAddress(8888));

            Socket socket = server.accept();
            // 命令行輸出
            Scanner in = new Scanner(System.in);
            // 通過 Socket 輸出
            try (BufferedWriter out = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream()))) {
                while (in.hasNextLine()) {
                    String value = in.nextLine();
                    out.write(value);
                    out.write("\n");
                    out.flush();
                }
            }
        }
    }

}

這個程序可以為我們的 SocketTextWorkCountStream 提供數據。
那么,為什么我們用的是以下這段代碼呢?

BufferedWriter out = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream()))

原因是要和 env.socketTextStream("localhost", 8888) 底層代碼保持一致————代碼一直跟到 SocketTextStreamFunction 第 97 行:

try (BufferedReader reader = new BufferedReader(new InputStreamReader(socket.getInputStream())))

當然, TextServer 也可以用另一種發送報文的方式:

try (PrintWriter out = new PrintWriter(socket.getOutputStream())) {
    while (in.hasNextLine()) {
        String value = in.nextLine();
        out.println(value);
        out.flush();
    }
}

本質也是一樣的,我們可以看一下 PrintWriter 的構造函數,也用到了 new BufferedWriter(new OutputStreamWriter(out))

public PrintWriter(OutputStream out, boolean autoFlush) {
    this(new BufferedWriter(new OutputStreamWriter(out)), autoFlush);
    // save print stream for error propagation
    if (out instanceof java.io.PrintStream) {
        psOut = (PrintStream) out;
    }
}

需要注意的是,為了提高數據傳輸的效率,Socket類並沒有在每次調用write方法后都進行數據傳輸,而是將這些要傳輸的數據寫到一個緩沖區里(默認是8192個字節),然后通過flush方法將這個緩沖區里的數據一起發送出去,因此,out.flush();是必須的。

二、源碼解析

2.1 Flink執行環境

程序的啟動,從這句開始。

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

這行代碼會返回一個可用的執行環境。執行環境是整個flink程序執行的上下文,記錄了相關配置(如並行度等),並提供了一系列方法,如讀取輸入流的方法,以及真正開始運行整個代碼的execute方法等。對於分布式流處理程序來說,我們在代碼中定義的flatMap,keyBy等等操作,事實上可以理解為一種聲明,告訴整個程序我們采用了什么樣的算子,而真正開啟計算的代碼不在此處。由於我們是在本地運行flink程序,因此這行代碼會返回一個LocalStreamEnvironment,最后我們要調用它的execute方法來開啟真正的任務。我們先接着往下看。

2.2 算子(Operator)的注冊(聲明)

我們以org.apache.flink.streaming.api.datastream.DataStream#flatMap為例, 跟蹤源碼進去是這樣的:

/**
 * 在{@link DataStream}上應用FlatMap轉換。
 * 該轉換為DataStream的每個元素調用一次{@link FlatMapFunction}。
 * 每個FlatMapFunction調用可以返回任意數量的元素,包括none。
 * 用戶還可以擴展{@link RichFlatMapFunction},以訪問{@link org.apache.flink.api.common.functions.RichFunction}接口提供的其他功能。
 *
 * @param flatMapper
 *            The FlatMapFunction that is called for each element of the
 *            DataStream
 *
 * @param <R>
 *            output type
 * @return The transformed {@link DataStream}.
 */
public <R> SingleOutputStreamOperator<R> flatMap(FlatMapFunction<T, R> flatMapper) {
    TypeInformation<R> outType = TypeExtractor.getFlatMapReturnTypes(clean(flatMapper),
            getType(), Utils.getCallLocationName(), true);
    return transform("Flat Map", outType, new StreamFlatMap<>(clean(flatMapper)));
}

里面完成了兩件事,一是用反射拿到了flatMap算子的輸出類型,二是生成了一個Operator。 flink流式計算的核心概念,就是將數據從輸入流一個個傳遞給Operator進行鏈式處理,最后交給輸出流的過程。對數據的每一次處理在邏輯上成為一個operator,並且為了本地化處理的 效率起見,operator之間也可以串成一個chain一起處理(可以參考責任鏈模式幫助理解)。

1.3 整體變換過程

下面這張圖表明了flink是如何看待用戶的處理流程的:抽象化為一系列operator,以source開始,以sink結尾,中間的operator做的操作叫做transform,並且可以把幾個操作串在一起執行。

你可能要問 env.socketTextStream("localhost", 8888); 有沒有調用 addSource 啊?我們稍微跟蹤一下 StreamExecutionEnvironment 源碼:

public DataStreamSource<String> socketTextStream(String hostname, int port, String delimiter, long maxRetry) {
        // 還是調用的 addSource 添加數據源
	return addSource(new SocketTextStreamFunction(hostname, port, delimiter, maxRetry),
			"Socket Stream");
}

同理,print 作為輸出函數,也調用了 addSink,跟蹤一下 DataStream 源碼:

public DataStreamSink<T> print() {
	PrintSinkFunction<T> printFunction = new PrintSinkFunction<>();
        // 還是調用了 addSink 輸出結果
	return addSink(printFunction).name("Print to Std. Out");
}


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM