spark UI 界面解释及数据倾斜处理办法


spark UI 界面:http://blog.csdn.net/u013013024/article/details/73498508
几个概念的解释:http://blog.csdn.net/jiangwlee/article/details/50774561

 

数据倾斜处理:

https://blog.csdn.net/kaede1209/article/details/81145560

https://www.cnblogs.com/frankdeng/p/9301695.html

 

 

 

 

总结
      数据倾斜无法避免,也有没有一劳永逸的解决方式,处理数据倾斜是一个长期的过程需要我们慢慢积累经验,基本思想就是

         1.首先从源头选择可以split的数据源,从源头避免倾斜

         2.shufle过程中,增加并行度,减少shuffle 在map-side进行数据合并,避免reduce fetch数据倾斜

         3.sample采样将倾斜的数据,特殊处理,这个方法可以适用于所有的数据倾斜问题, 另外,就是我们尽量使用spark-sql,spark-sql里面优化器提供很多基本CRO和CBO的优化策略,不仅帮我们从源头帮我们去除无关的数据减少计算数据量,其次在计算过程中会根据我们的table 的数据量,自动帮我们计算合适task partition数量,和选择合适join策略,从而提升计算性能,也避免shufle 数据倾斜


原文链接:https://blog.csdn.net/kaede1209/java/article/details/81145560


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM