Flink 學習
https://github.com/zhisheng17/flink-learning
麻煩路過的各位親給這個項目點個 star,太不易了,寫了這么多,算是對我堅持下來的一種鼓勵吧!
本項目結構
2019/06/08 新增 Flink 四本電子書籍的 PDF,在 books 目錄下:
-
Introduction_to_Apache_Flink_book.pdf 這本書比較薄,處於介紹階段,國內有這本的翻譯書籍
-
Learning Apache Flink.pdf 這本書比較基礎,初學的話可以多看看
-
Stream Processing with Apache Flink.pdf 這本書是 Flink PMC 寫的
-
Streaming System.pdf 這本書評價不是一般的高
2019/06/09 新增流處理引擎相關的 Paper,在 paper 目錄下:
博客
1、Flink 從0到1學習 —— Apache Flink 介紹
2、Flink 從0到1學習 —— Mac 上搭建 Flink 1.6.0 環境並構建運行簡單程序入門
3、Flink 從0到1學習 —— Flink 配置文件詳解
4、Flink 從0到1學習 —— Data Source 介紹
5、Flink 從0到1學習 —— 如何自定義 Data Source ?
6、Flink 從0到1學習 —— Data Sink 介紹
7、Flink 從0到1學習 —— 如何自定義 Data Sink ?
8、Flink 從0到1學習 —— Flink Data transformation(轉換)
9、Flink 從0到1學習 —— 介紹 Flink 中的 Stream Windows
10、Flink 從0到1學習 —— Flink 中的幾種 Time 詳解
11、Flink 從0到1學習 —— Flink 讀取 Kafka 數據寫入到 ElasticSearch
12、Flink 從0到1學習 —— Flink 項目如何運行?
13、Flink 從0到1學習 —— Flink 讀取 Kafka 數據寫入到 Kafka
14、Flink 從0到1學習 —— Flink JobManager 高可用性配置
15、Flink 從0到1學習 —— Flink parallelism 和 Slot 介紹
16、Flink 從0到1學習 —— Flink 讀取 Kafka 數據批量寫入到 MySQL
17、Flink 從0到1學習 —— Flink 讀取 Kafka 數據寫入到 RabbitMQ
18、Flink 從0到1學習 —— Flink 讀取 Kafka 數據寫入到 HBase
19、Flink 從0到1學習 —— Flink 讀取 Kafka 數據寫入到 HDFS
20、Flink 從0到1學習 —— Flink 讀取 Kafka 數據寫入到 Redis
21、Flink 從0到1學習 —— Flink 讀取 Kafka 數據寫入到 Cassandra
22、Flink 從0到1學習 —— Flink 讀取 Kafka 數據寫入到 Flume
23、Flink 從0到1學習 —— Flink 讀取 Kafka 數據寫入到 InfluxDB
24、Flink 從0到1學習 —— Flink 讀取 Kafka 數據寫入到 RocketMQ
25、Flink 從0到1學習 —— 你上傳的 jar 包藏到哪里去了
26、Flink 從0到1學習 —— 你的 Flink job 日志跑到哪里去了
Flink 源碼項目結構
學習資料
另外我自己整理了些 Flink 的學習資料,目前已經全部放到微信公眾號了。
你可以加我的微信:zhisheng_tian,然后回復關鍵字:Flink 即可無條件獲取到,轉載請聯系本人獲取授權,違者必究。
更多私密資料請加入知識星球!
有人要問知識星球里面更新什么內容?值得加入嗎?
目前知識星球內已更新的系列文章:
4、Flink 源碼解析 —— standalonesession 模式啟動流程
5、Flink 源碼解析 —— Standalone Session Cluster 啟動流程深度分析之 Job Manager 啟動
6、Flink 源碼解析 —— Standalone Session Cluster 啟動流程深度分析之 Task Manager 啟動
7、Flink 源碼解析 —— 分析 Batch WordCount 程序的執行過程
8、Flink 源碼解析 —— 分析 Streaming WordCount 程序的執行過程
9、Flink 源碼解析 —— 如何獲取 JobGraph?
10、Flink 源碼解析 —— 如何獲取 StreamGraph?
11、Flink 源碼解析 —— Flink JobManager 有什么作用?
12、Flink 源碼解析 —— Flink TaskManager 有什么作用?
13、Flink 源碼解析 —— JobManager 處理 SubmitJob 的過程
14、Flink 源碼解析 —— TaskManager 處理 SubmitJob 的過程
15、Flink 源碼解析 —— 深度解析 Flink Checkpoint 機制
16、Flink 源碼解析 —— 深度解析 Flink 序列化機制
17、Flink 源碼解析 —— 深度解析 Flink 是如何管理好內存的?
18、Flink Metrics 源碼解析 —— Flink-metrics-core
19、Flink Metrics 源碼解析 —— Flink-metrics-datadog
20、Flink Metrics 源碼解析 —— Flink-metrics-dropwizard
21、Flink Metrics 源碼解析 —— Flink-metrics-graphite
22、Flink Metrics 源碼解析 —— Flink-metrics-influxdb
23、Flink Metrics 源碼解析 —— Flink-metrics-jmx
24、Flink Metrics 源碼解析 —— Flink-metrics-slf4j
25、Flink Metrics 源碼解析 —— Flink-metrics-statsd
26、Flink Metrics 源碼解析 —— Flink-metrics-prometheus
除了《從1到100深入學習Flink》源碼學習這個系列文章,《從0到1學習Flink》的案例文章也會優先在知識星球更新,讓大家先通過一些 demo 學習 Flink,再去深入源碼學習!
如果學習 Flink 的過程中,遇到什么問題,可以在里面提問,我會優先解答,這里做個抱歉,自己平時工作也挺忙,微信的問題不能做全部做一些解答,
但肯定會優先回復給知識星球的付費用戶的,慶幸的是現在星球里的活躍氛圍還是可以的,有不少問題通過提問和解答的方式沉淀了下來。
1、為何我使用 ValueState 保存狀態 Job 恢復是狀態沒恢復?
2、flink中watermark究竟是如何生成的,生成的規則是什么,怎么用來處理亂序數據
3、消費kafka數據的時候,如果遇到了臟數據,或者是不符合規則的數據等等怎么處理呢?
4、在Kafka 集群中怎么指定讀取/寫入數據到指定broker或從指定broker的offset開始消費?
6、jobmanager掛掉后,提交的job怎么不經過手動重新提交執行?
8、通過flink 儀表盤提交的jar 是存儲在哪個目錄下?
9、從Kafka消費數據進行etl清洗,把結果寫入hdfs映射成hive表,壓縮格式、hive直接能夠讀取flink寫出的文件、按照文件大小或者時間滾動生成文件
11、flink 啟動時不自動創建 上傳jar的路徑,能指定一個創建好的目錄嗎
12、Flink sink to es 集群上報 slot 不夠,單機跑是好的,為什么?
13、Fllink to elasticsearch如何創建索引文檔期時間戳?
14、blink有沒有api文檔或者demo,是否建議blink用於生產環境。
16、Flink VS Spark Streaming VS Storm VS Kafka Stream
17、你們做實時大屏的技術架構是什么樣子的?flume→kafka→flink→redis,然后后端去redis里面撈數據,醬紫可行嗎?
18、做一個統計指標的時候,需要在Flink的計算過程中多次讀寫redis,感覺好怪,星主有沒有好的方案?
19、Flink 使用場景大分析,列舉了很多的常用場景,可以好好參考一下
20、將kafka中數據sink到mysql時,metadata的數據為空,導入mysql數據不成功???
22、flink on yarn jobmanager的HA需要怎么配置。還是說yarn給管理了
25、不采用yarm部署flink,還有其他的方案嗎? 主要想解決服務器重啟后,flink服務怎么自動拉起? jobmanager掛掉后,提交的job怎么不經過手動重新提交執行?
26、在一個 Job 里將同份數據昨晚清洗操作后,sink 到后端多個地方(看業務需求),如何保持一致性?(一個sink出錯,另外的也保證不能插入)
27、flink sql任務在某個特定階段會發生tm和jm丟失心跳,是不是由於gc時間過長呢,
29、一個task slot 只能同時運行一個任務還是多個任務呢?如果task slot運行的任務比較大,會出現OOM的情況嗎?
30、你們怎么對線上flink做監控的,如果整個程序失敗了怎么自動重啟等等
31、flink cep規則動態解析有接觸嗎?有沒有成型的框架?
32、每一個Window都有一個watermark嗎?window是怎么根據watermark進行觸發或者銷毀的?
33、 CheckPoint與SavePoint的區別是什么?
34、flink可以在算子中共享狀態嗎?或者大佬你有什么方法可以共享狀態的呢?
37、大家都用jdbc寫,各種數據庫增刪查改拼sql有沒有覺得很累,ps.set代碼一大堆,還要計算每個參數的位置
38、關於datasource的配置,每個taskmanager對應一個datasource?還是每個slot? 實際運行下來,每個slot中datasorce線程池只要設置1就行了,多了也用不到?
39、kafka現在每天出現數據丟失,現在小批量數據,一天200W左右, kafka版本為 1.0.0,集群總共7個節點,TOPIC有十六個分區,單條報文1.5k左右
40、根據key.hash的絕對值 對並發度求模,進行分組,假設10各並發度,實際只有8個分區有處理數據,有2個始終不處理,還有一個分區處理的數據是其他的三倍,如截圖
41、flink每7小時不知道在處理什么, CPU 負載 每7小時,有一次高峰,5分鍾內平均負載超過0.8,如截圖
42、有沒有Flink寫的項目推薦?我想看到用Flink寫的整體項目是怎么組織的,不單單是一個單例子
43、Flink 源碼的結構圖
44、我想根據不同業務表(case when)進行不同的redis sink(hash ,set),我要如何操作?
45、這個需要清理什么數據呀,我把hdfs里面的已經清理了 啟動還是報這個
46、 在流處理系統,在機器發生故障恢復之后,什么情況消息最多會被處理一次?什么情況消息最少會被處理一次呢?
48、reduce方法后 那個交易時間 怎么不是最新的,是第一次進入的那個時間,
52、用戶進入產品預定頁面(端埋點上報),並填寫了一些信息(端埋點上報),但半小時內並沒有產生任何訂單,然后給該類用戶發送一個push。 1. 這種需求適合用flink去做嗎?2. 如果適合,說下大概的思路
53、業務場景是實時獲取數據存redis,請問我要如何按天、按周、按月分別存入redis里?(比方說過了一天自動換一個位置存redis)
54、有人 AggregatingState 的例子嗎, 感覺官方的例子和 官網的不太一樣?
55、flink-jdbc這個jar有嗎?怎么沒找到啊?1.8.0的沒找到,1.6.2的有
61、請問下flink可以實現一個流中同時存在訂單表和訂單商品表的數據 兩者是一對多的關系 能實現得到 以訂單表為主 一個訂單多個商品 這種需求嘛
62、在用中間狀態的時候,如果中間一些信息保存在state中,有沒有必要在redis中再保存一份,來做第三方的存儲。
63、能否出一期flink state的文章。什么場景下用什么樣的state?如,最簡單的,實時累加update到state。
64、flink的雙流join博主有使用的經驗嗎?會有什么常見的問題嗎
65、窗口觸發的條件問題
68、重啟flink單機集群,還報job not found 異常。
71、flink 支持hadoop 主備么? hadoop主節點掛了 flink 會切換到hadoop 備用節點?
72、請教大家: 實際 flink 開發中用 scala 多還是 java多些? 剛入手 flink 大數據 scala 需要深入學習么?
73、我使用的是flink是1.7.2最近用了split的方式分流,但是底層的SplitStream上卻標注為Deprecated,請問是官方不推薦使用分流的方式嗎?
75、用flink時,遇到個問題 checkpoint大概有2G左右, 有背壓時,flink會重啟有遇到過這個問題嗎
80、使用rocksdb狀態后端,自定義pojo怎么實現序列化和反序列化的,有相關demo么?
81、check point 老是失敗,是不是自定義的pojo問題?到本地可以,到hdfs就不行,網上也有很多類似的問題 都沒有一個很好的解釋和解決方案
84、Flink job打開了checkpoint,用的rocksdb,通過觀察hdfs上checkpoint目錄,為啥算副本總量會暴增爆減
85、Flink 提交任務的 jar包可以指定路徑為 HDFS 上的嗎
89、用flink清洗數據,其中要訪問redis,根據redis的結果來決定是否把數據傳遞到下流,這有可能實現嗎?
92、SocketTextStreamWordCount中輸入中文統計不出來,請問這個怎么解決,我猜測應該是需要修改一下代碼,應該是這個例子默認統計英文
93、 Flink 應用程序本地 ide 里面運行的時候並行度是怎么算的?
94、 請問下flink中對於窗口的全量聚合有apply和process兩種 他們有啥區別呢
96、 來分析一下現在Flink,Kafka方面的就業形勢,以及准備就業該如何准備的這方面內容呢?
97、 大佬知道flink的dataStream可以轉換為dataSet嗎?因為數據需要11分鍾一個批次計算五六個指標,並且涉及好幾步reduce,計算的指標之間有聯系,用Stream卡住了。
98、1.如何在同一窗口內實現多次的聚合,比如像spark中的這樣2.多個實時流的jion可以用window來處理一批次的數據嗎?
99、寫的批處理的功能,現在本機跑是沒問題的,就是在linux集群上出現了問題,就是不知道如果通過本地調用遠程jar包然后傳參數和拿到結果參數返回本機
101、 有使用AssignerWithPunctuatedWatermarks 的案例Demo嗎?網上找了都是AssignerWithPeriodicWatermarks的,不知道具體怎么使用?
103、 為啥split這個流設置為過期的
105、 Flink 對 SQL 的重視性
106、 flink job打開了checkpoint,任務跑了幾個小時后就出現下面的錯,截圖是打出來的日志,有個OOM,又遇到過的沒?
107、 本地測試是有數據的,之前該任務放在集群也是有數據的,可能提交過多次,現在讀不到數據了 group id 也換過了, 只能重啟集群解決么?
108、使用flink清洗數據存到es中,直接在flatmap中對處理出來的數據用es自己的ClientInterface類直接將數據存入es當中,不走sink,這樣的處理邏輯是不是會有問題。
109、 設置時間時間特性有什么區別呢, 分別在什么場景下使用呢?兩種設置時間延遲有什么區別呢 , 分別在什么場景下使用
115、現在遇到一個需求,需要在job內部定時去讀取redis的信息,想請教flink能實現像普通程序那樣的定時任務嗎?
117、請問impala這種mpp架構的sql引擎,為什么穩定性比較差呢?
118、watermark跟並行度相關不是,過於全局了,期望是keyby之后再針對每個keyed stream 打watermark,這個有什么好的實踐呢?
119、請問如果把一個文件的內容讀取成datastream和dataset,有什么區別嗎??他們都是一條數據一條數據的被讀取嗎?
123、flink的狀態是默認存在於內存的(也可以設置為rocksdb或hdfs),而checkpoint里面是定時存放某個時刻的狀態信息,可以設置hdfs或rocksdb是這樣理解的嗎?
124、Flink異步IO中,下圖這兩種有什么區別?為啥要加 CompletableFuture.supplyAsync,不太明白?
125、flink的狀態是默認存在於內存的(也可以設置為rocksdb或hdfs),而checkpoint里面是定時存放某個時刻的狀態信息,可以設置hdfs或rocksdb是這樣理解的嗎?
127、一個互聯網公司,或者一個業務系統,如果想做一個全面的監控要怎么做?有什么成熟的方案可以參考交流嗎?有什么有什么度量指標嗎?
128、怎么深入學習flink,或者其他大數據組件,能為未來秋招找一份大數據相關(計算方向)的工作增加自己的競爭力?
140、端到端的數據保證,是否意味着中間處理程序中斷,也不會造成該批次處理失敗的消息丟失,處理程序重新啟動之后,會再次處理上次未處理的消息
142、FLIP-16 Loop Fault Tolerance 是講現在的checkpoint機制無法在stream loop的時候容錯嗎?現在這個問題解決了沒有呀?
143、現在的需求是,統計各個key的今日累計值,一分鍾輸出一次。如,各個用戶今日累計點擊次數。這種需求用datastream還是table API方便點?
144、本地idea可以跑的工程,放在standalone集群上,總報錯,報錯截圖如下,大佬請問這是啥原因
145、比如現在用k8s起了一個flink集群,這時候數據源kafka或者hdfs會在同一個集群上嗎,還是會單獨再起一個hdfs/kafka集群
149、是否可以抽空總結一篇Flink 的 watermark 的原理案例?一直沒搞明白基於事件時間處理時的數據亂序和數據遲到底咋回事
150、flink中rpc通信的原理,與幾個類的講解,有沒有系統詳細的文章樣,如有求分享,謝謝
152、flink實時計算平台,yarn模式日志收集怎么做,為什么會checkpoint失敗,報警處理,后需要做什么嗎?job監控怎么做
154、為什么使用SessionWindows.withGap窗口的話,State存不了東西呀,每次加1 ,拿出來都是null, 我換成 TimeWindow就沒問題。
155、請問一下,flink datastream流處理怎么統計去重指標? 官方文檔中只看到批處理有distinct概念。
156、好全的一篇文章,對比分析 Flink,Spark Streaming,Storm 框架
157、關於 structured_streaming 的 paper
158、zookeeper集群切換領導了,flink集群項目重啟了就沒有數據的輸入和輸出了,這個該從哪方面入手解決?
159、我想請教下datastream怎么和靜態數據join呢
160、時鍾問題導致收到了明天的數據,這時候有什么比較好的處理方法?看到有人設置一個最大的跳躍閾值,如果當前數據時間 - 歷史最大時間 超過閾值就不更新。如何合理的設計水印,有沒有一些經驗呢?
165、請教一個flink sql的問題。我有兩個聚合后的流表A和B,A和Bjoin得到C表。在設置state TTL 的時候是直接對C表設置還是,對A表和B表設置比較好?
166、spark改寫為flink,會不會很復雜,還有這兩者在SQL方面的支持差別大嗎?
167、請問flink allowedLateness導致窗口被多次fire,最終數據重復消費,這種問題怎么處理,數據是寫到es中
170、a,b,c三個表,a和c有eventtime,a和c直接join可以,a和b join后再和c join 就會報錯,這是怎么回事呢
171、自定義的source是這樣的(圖一所示) 使用的時候是這樣的(圖二所示),為什么無論 sum.print().setParallelism(2)(圖2所示)的並行度設置成幾最后結果都是這樣的
172、剛接觸flink,如有問的不合適的地方,請見諒。 1、為什么說flink是有狀態的計算? 2、這個狀態是什么?3、狀態存在哪里
175、請問老師是否可以提供一些Apachebeam的學習資料 謝謝
176、flink 的 DataSet或者DataStream支持索引查詢以及刪除嗎,像spark rdd,如果不支持的話,該轉換成什么
178、我這邊做了個http sink,想要批量發送數據,不過現在只能用數量控制發送,但最后的幾個記錄沒法觸發發送動作,想問下有沒有什么辦法
179、請問下如何做定時去重計數,就是根據時間分窗口,窗口內根據id去重計數得出結果,多謝。試了不少辦法,沒有簡單直接辦法
180、我有個job使用了elastic search sink. 設置了批量5000一寫入,但是看es監控顯示每秒只能插入500條。是不是bulkprocessor的currentrequest為0有關
182、在說明KeyBy的StreamGraph執行過程時,keyBy的ID為啥是6? 根據前面說,ID是一個靜態變量,每取一次就遞增1,我覺得應該是3啊,是我理解錯了嗎
184、可以分享下物理執行圖怎樣划分task,以及task如何執行,還有他們之間數據如何傳遞這塊代碼嘛?
186、請問flink1.8,如何做到動態加載外部udf-jar包呢?
189、今天本地運行flink程序,消費socket中的數據,連續只能消費兩條,第三條flink就消費不了了
190、源數據經過過濾后分成了兩條流,然后再分別提取事件時間和水印,做時間窗口,我測試時一條流沒有數據,另一條的數據看日志到了窗口操作那邊就沒走下去,貌似窗口一直沒有等到觸發
193、想咨詢下,如何對flink中的datastream和dataset進行數據采樣
194、一個flink作業經常發生oom,可能是什么原因導致的。 處理流程只有15+字段的解析,redis數據讀取等操作,TM配置10g。 業務會在夜間刷數據,qps能打到2500左右~
195、我看到flink 1.8的狀態過期僅支持Processing Time,那么如果我使用的是Event time那么狀態就不會過期嗎
196、請問我想每隔一小時統計一個屬性從當天零點到當前時間的平均值,這樣的時間窗該如何定義?
197、flink任務里面反序列化一個類,報ClassNotFoundException,可是包里面是有這個類的,有遇到這種情況嗎?
198、在構造StreamGraph,類似PartitionTransformmation 這種類型的 transform,為什么要添加成一個虛擬節點,而不是一個實際的物理節點呢?
等等等,還有很多,復制粘貼的我手累啊 😂
另外里面還會及時分享 Flink 的一些最新的資料(包括數據、視頻、PPT、優秀博客,持續更新,保證全網最全,因為我知道 Flink 目前的資料還不多)
再就是星球用戶給我提的一點要求:不定期分享一些自己遇到的 Flink 項目的實戰,生產項目遇到的問題,是如何解決的等經驗之談!
7、《大數據“重磅炸彈”——實時計算框架 Flink》專欄系列文章目錄大綱
8、《大數據“重磅炸彈”——實時計算框架 Flink》Chat 付費文章
10、Flink On K8s
當然,除了更新 Flink 相關的東西外,我還會更新一些大數據相關的東西,因為我個人之前不是大數據開發,所以現在也要狂補些知識!總之,希望進來的童鞋們一起共同進步!
7、Lightweight Asynchronous Snapshots for Distributed Dataflows
8、Apache Flink™- Stream and Batch Processing in a Single Engine
13、Stream Processing with Apache Flink pdf
15、《大數據重磅炸彈-實時計算Flink》預備篇——大數據實時計算介紹及其常用使用場景 pdf 和 視頻
16、《大數據重磅炸彈-實時計算Flink》開篇詞 pdf 和 視頻
17、四本 Flink 書
21、基於Flink on Kubernetes的大數據平台
26、流處理系統 的相關 paper原文出處:zhisheng的博客,歡迎關注我的公眾號:zhisheng