spark flink 技術交流感想


1、spark sql past,present,future
    介紹了spark sql的歷史,Catalyst優化器的一些優化(Tungsten內部數據編碼格式,Whole Stage code gengeration,Vectorized Parquent reader)。Spark SQL未來的一些功能:
    a.Data Source APIv2:vestorized read/write, join pushdown,Transcation-friendly
    b.完全的向量化:包括shuffle階段,和寫到Data Source
    c.原生代碼生成:現在的代碼生成優化生成的是java代碼(JVM的一些優化不可控),所以生成原生代碼,很可能基於LLVM技術
 
2.實時計算在滴滴的應用
    滴滴是實時計算平台主要有flink,spark streaming和druid組成
    一列應用是實時表表,主要流程是:數據采集(mysql binlog)--》ETL(80%用內置ETL模板,其余用web IDE編碼實現,在服務端編碼。編譯。部署)---》用druid存儲---》用druid查詢---》報表
    另一類應用是各種實時業務,根據業務的延時需求和業務方對flink或是spark的熟悉程序來覺得是使用flink還是spark
    另外的技術點是應用yarn node label技術,對應用分配達到待定label的機器上進行物理隔離
    yarn的升級對業務無感知
 
3、flink as server in huawei
    為華為雲上的實時流計算服務打廣告
    基於flink,支持sql(flink內建SQL),也支持上傳基於flink api編寫的程序
    強調了對process time(時間到達時間)和row time(時間發生時間)的支持和不同處理
    華為的一個工作是擴展SQL語法支持flink CEP功能,使得可以在SQL中使用CEP進行復雜的事件處理(各種pattern識別處理等)
 
4、Spark on  hbase
    為阿里雲的hbase服務打廣告
    干貨少,介紹了spark hbase connector的三種不同開源組件(huawei ,cloudera ,hortonworks),這些我們都是知道的
 
5、sloth-sql on flink
    這個比較有意思,就是繞開flink內部自己的sql,自己做了一個獨立的HiveQL sql parser,然后進行優化,生成flink代碼。理論上不綁定到flink,可以支持spark。bean等
    UDF兼容hive udf,同時增加了對增量計算的支持
    要強調的sloth使用增量計算模型,解決了大部分操作進行增量計算時如何更新現有狀態的問題(比如sum,average等)
 有可能會開源


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM