1、spark sql past,present,future
介紹了spark sql的歷史,Catalyst優化器的一些優化(Tungsten內部數據編碼格式,Whole Stage code gengeration,Vectorized Parquent reader)。Spark SQL未來的一些功能:
a.Data Source APIv2:vestorized read/write, join pushdown,Transcation-friendly
b.完全的向量化:包括shuffle階段,和寫到Data Source
c.原生代碼生成:現在的代碼生成優化生成的是java代碼(JVM的一些優化不可控),所以生成原生代碼,很可能基於LLVM技術
2.實時計算在滴滴的應用
滴滴是實時計算平台主要有flink,spark streaming和druid組成
一列應用是實時表表,主要流程是:數據采集(mysql binlog)--》ETL(80%用內置ETL模板,其余用web IDE編碼實現,在服務端編碼。編譯。部署)---》用druid存儲---》用druid查詢---》報表
另一類應用是各種實時業務,根據業務的延時需求和業務方對flink或是spark的熟悉程序來覺得是使用flink還是spark
另外的技術點是應用yarn node label技術,對應用分配達到待定label的機器上進行物理隔離
yarn的升級對業務無感知
3、flink as server in huawei
為華為雲上的實時流計算服務打廣告
基於flink,支持sql(flink內建SQL),也支持上傳基於flink api編寫的程序
強調了對process time(時間到達時間)和row time(時間發生時間)的支持和不同處理
華為的一個工作是擴展SQL語法支持flink CEP功能,使得可以在SQL中使用CEP進行復雜的事件處理(各種pattern識別處理等)
4、Spark on hbase
為阿里雲的hbase服務打廣告
干貨少,介紹了spark hbase connector的三種不同開源組件(huawei ,cloudera ,hortonworks),這些我們都是知道的
5、sloth-sql on flink
這個比較有意思,就是繞開flink內部自己的sql,自己做了一個獨立的HiveQL sql parser,然后進行優化,生成flink代碼。理論上不綁定到flink,可以支持spark。bean等
UDF兼容hive udf,同時增加了對增量計算的支持
要強調的sloth使用增量計算模型,解決了大部分操作進行增量計算時如何更新現有狀態的問題(比如sum,average等)
有可能會開源