最近在研究flink,發現較新版的flink支持sql,這下好了,我用spark兩年了,對用法和性能算是踩過一些坑了。
聽說flink挺快的,那么flinkSQL和sparkSQL到底哪個快呢?
想必很多人也想知道吧,那就拿數據說話(雖然不是自己做的基線測試,但好歹也找了好久)
下圖是hive, spark, flink的sql執行速度對比:
下圖是平均的
綜上所述,flinkSQL和sparkSQL的性能只差一點點,flink是spark的最強大的競爭者。
個人認為flink潛力很大。
第一,flink主要是java寫的代碼,相比scala寫的spark而言,flink的內存溢出問題更容易定位和優化。
第二,flink是在idea環境開發的,而我主要就是用這個開發環境,非常方便。
本人用sparkSQL兩年來,數據傾斜,內存溢出問題見過太多,相當坑爹,而官方源碼幾乎很難打包編譯調試。
第三、flink更專業,spark就是綜合rdd,sql,圖計算,流式計算的等幾個模塊綜合體,長遠來看不利於開源社區演進