【文章推荐】如何在本地调试你的 Spark Job

原文：如何在本地调试你的 Spark Job

生产环境的 Spark Job 都是跑在集群上的，毕竟 Spark 为大数据而生，海量的数据处理必须依靠集群。但是在开发Spark的的时候，不可避免我们要在本地进行一些开发和测试工作，所以如何在本地用好Spark也十分重要，下面给大家分享一些经验。首先你需要在本机上安装好了Java，Scala和Spark，并配置好了环境变量。详情请参考官方文档或其他教程。 spark shell 本地运行Sp ...

2020-05-21 22:06 0 1303 推荐指数：

查看详情

本地调试spark程序

用IDEA编写spark程序，每次运行都要先打成jar包，然后再提交到集群上运行，这样很麻烦，不方便调试。我们可以直接在Idea中调试spark程序。例如下面的WordCount程序： package cn.edu360.spark import ...

<Spark Streaming><本地调试>

写在前面因为本地电脑没装flume，nginx各种。所以之前写Streaming程序的时候，都是打包了放到集群上跑。就算我在程序代码里不停地logger，调试起来也hin不方便。于是本地写了两个程序，在intellj调试。主要就是包括两个程序：一个是 ...

本地idea调试spark2.x程序

1.构建使用idea 构建maven 项目选择org.scala-tools.archetypes:scala-archetype-simple，然后一直点next,maven最好选中本地配置国内源的而不适用idea自生的。工程创建好后，点击Event Log 修改pox.xml文件 ...

idea在本地调试，spark创建hiveContext的时候报错

spark版本：1.6.1 scala版本：2.10 问题呢场景：　　在idea调试本地程序的时候创建hiveContext报错，上午的时候是没有这个问题的，下午在项目中写了一个小deamon，出现了而这个问题，下面是我的代码： import ...

如何在本地使用scala或python运行Spark程序

如何在本地使用scala或python运行Spark程序包含两个部分：本地scala语言编写程序，并编译打包成jar，在本地运行。本地使用python语言编写程序，直接调用spark的接口，并在本地运行 ...

Spark的Job的划分

Job的划分 1、Application : 　　应用，创建一个SparkContext可以认为创建了一个Application 2、Job 　　在一个app中每执行一次行动算子就会创建一个Job,一个application会有多个job 3、stage 　　阶段，每碰到一个 ...

Spark Job调度

Spark Job调度 1、概览 Spark有几种用于在计算之间调度资源的工具。首先，回想一下，如集群模式概述中所述，每个Spark应用程序（SparkContext的实例）都运行一组独立的executor进程。Spark运行的集群管理器提供了跨应用程序的调度工具。其次，在每个Spark ...

Spark的job调优（1）

本文翻译之cloudera的博客，本系列有两篇，第二篇看心情了概论当我们理解了 transformation,action和rdd后，我们就可以写一些基础的spark的应用了，但是如果需要对应用进行调优就需要了解spark的底层执行模型，理解job,stage,task等概念 ...

原文：如何在本地调试你的 Spark Job

相关推荐

相关标签