spark flink 技術交流感想

本文轉載自查看原文 2017-10-18 16:58 1364 spark

1、spark sql past,present,future

介紹了spark sql的歷史，Catalyst優化器的一些優化（Tungsten內部數據編碼格式，Whole Stage code gengeration,Vectorized Parquent reader）。Spark SQL未來的一些功能：

a.Data Source APIv2:vestorized read/write, join pushdown,Transcation-friendly

b.完全的向量化：包括shuffle階段，和寫到Data Source

c.原生代碼生成：現在的代碼生成優化生成的是java代碼（JVM的一些優化不可控），所以生成原生代碼，很可能基於LLVM技術

2.實時計算在滴滴的應用

滴滴是實時計算平台主要有flink,spark streaming和druid組成

一列應用是實時表表，主要流程是：數據采集（mysql binlog）--》ETL（80%用內置ETL模板，其余用web IDE編碼實現，在服務端編碼。編譯。部署）---》用druid存儲---》用druid查詢---》報表

另一類應用是各種實時業務，根據業務的延時需求和業務方對flink或是spark的熟悉程序來覺得是使用flink還是spark

另外的技術點是應用yarn node label技術，對應用分配達到待定label的機器上進行物理隔離

yarn的升級對業務無感知

3、flink as server in huawei

為華為雲上的實時流計算服務打廣告

基於flink，支持sql（flink內建SQL），也支持上傳基於flink api編寫的程序

強調了對process time（時間到達時間）和row time（時間發生時間）的支持和不同處理

華為的一個工作是擴展SQL語法支持flink CEP功能，使得可以在SQL中使用CEP進行復雜的事件處理（各種pattern識別處理等）

4、Spark on hbase

為阿里雲的hbase服務打廣告

干貨少，介紹了spark hbase connector的三種不同開源組件（huawei ,cloudera ,hortonworks）,這些我們都是知道的

5、sloth-sql on flink

這個比較有意思，就是繞開flink內部自己的sql，自己做了一個獨立的HiveQL sql parser，然后進行優化，生成flink代碼。理論上不綁定到flink，可以支持spark。bean等

UDF兼容hive udf，同時增加了對增量計算的支持

要強調的sloth使用增量計算模型，解決了大部分操作進行增量計算時如何更新現有狀態的問題（比如sum,average等）

　有可能會開源

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 java技術交流群技術交流群內容及加入方式運維技術交流群：926402931，歡迎大家一起來交流。淺析那些大型職業技術交流群是怎么被玩變質的？ Java 技術交流群，微信群上海線下技術交流（AA制）記上海技術交流會之行備忘錄(superset與odoo整合) java常用工具類（java技術交流群57388149）南京.NET線下活動后續—一對一技術交流【福州活動】| "福州首屆.NET開源社區線下技術交流會"(2018.11.10)