原文:如何在本地调试你的 Spark Job

生产环境的 Spark Job 都是跑在集群上的,毕竟 Spark 为大数据而生,海量的数据处理必须依靠集群。但是在开发Spark的的时候,不可避免我们要在本地进行一些开发和测试工作,所以如何在本地用好Spark也十分重要,下面给大家分享一些经验。 首先你需要在本机上安装好了Java,Scala和Spark,并配置好了环境变量。详情请参考官方文档或其他教程。 spark shell 本地运行Sp ...

2020-05-21 22:06 0 1303 推荐指数:

查看详情

本地调试spark程序

用IDEA编写spark程序,每次运行都要先打成jar包,然后再提交到集群上运行,这样很麻烦,不方便调试。我们可以直接在Idea中调试spark程序。 例如下面的WordCount程序: package cn.edu360.spark import ...

Fri Jan 22 00:40:00 CST 2021 0 316
<Spark Streaming><本地调试>

写在前面 因为本地电脑没装flume,nginx各种。所以之前写Streaming程序的时候,都是打包了放到集群上跑。就算我在程序代码里不停地logger,调试起来也hin不方便。 于是本地写了两个程序,在intellj调试。 主要就是包括两个程序: 一个是 ...

Sat May 20 18:07:00 CST 2017 0 2101
本地idea调试spark2.x程序

1.构建使用idea 构建maven 项目 选择org.scala-tools.archetypes:scala-archetype-simple,然后一直点next,maven最好选中本地配置国内源的而不适用idea自生的。 工程创建好后,点击Event Log 修改pox.xml文件 ...

Fri Oct 27 23:40:00 CST 2017 0 1317
idea在本地调试spark创建hiveContext的时候报错

spark版本:1.6.1 scala版本:2.10 问题呢场景:   在idea调试本地程序的时候创建hiveContext报错,上午的时候是没有这个问题的,下午在项目中写了一个小deamon,出现了而这个问题,下面是我的代码: import ...

Thu Apr 04 00:27:00 CST 2019 0 530
何在本地使用scala或python运行Spark程序

何在本地使用scala或python运行Spark程序 包含两个部分: 本地scala语言编写程序,并编译打包成jar,在本地运行。 本地使用python语言编写程序,直接调用spark的接口,并在本地运行 ...

Sat Nov 30 22:01:00 CST 2019 0 1394
SparkJob的划分

Job的划分 1、Application :   应用,创建一个SparkContext可以认为创建了一个Application 2、Job   在一个app中每执行一次行动算子 就会创建一个Job,一个application会有多个job 3、stage   阶段,每碰到一个 ...

Tue May 12 06:29:00 CST 2020 0 1076
Spark Job调度

Spark Job调度 1、概览 Spark有几种用于在计算之间调度资源的工具。首先,回想一下,如集群模式概述中所述,每个Spark应用程序(SparkContext的实例)都运行一组独立的executor进程。Spark运行的集群管理器提供了跨应用程序的调度工具。其次, 在每个Spark ...

Tue Aug 28 04:41:00 CST 2018 0 2905
Sparkjob调优(1)

本文翻译之cloudera的博客,本系列有两篇,第二篇看心情了 概论 当我们理解了 transformation,action和rdd后,我们就可以写一些基础的spark的应用了,但是如果需要对应用进行调优就需要了解spark的底层执行模型,理解job,stage,task等概念 ...

Mon Dec 14 03:12:00 CST 2015 1 3107
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM