Spark向HDFS中存储数据

本文转载自查看原文 2015-11-28 19:13 4202 Spark

程序如下：

import org.apache.spark.sql.Row;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;


public class QueryAndStoreHDFSData {
    static SparkConf sparkConf = new SparkConf().setAppName("HDFSQuery").setMaster("local[2]");
    static JavaSparkContext sc = new JavaSparkContext(sparkConf);
    static SQLContext sqlContext = new SQLContext(sc);
    public static void main(String[] args){
//        JavaRDD<String> poi = sc.textFile("hdfs://node2:9000/user/flume/events/2015-11-27-21/events-.1448629506841");
        DataFrame df = sqlContext.read().json("hdfs://node2:9000/user/flume/events/2015-11-26-21/events-.1448543965316");
        // 打印模式
        df.printSchema();
        // 将数据框架注册成一个表
        df.registerTempTable("poi");
        // 使用sql语句从表中读取数据
        DataFrame poi = sqlContext.sql("SELECT * FROM poi WHERE cid=57425749418");
        JavaRDD<Row> row = poi.javaRDD();
        
        //将RDD中的数据存入HDFS（也可以指定其他目录和格式）
        row.saveAsTextFile("hdfs://node2:9000/user/poi.txt");
        
        row.foreach(new VoidFunction<Row>(){
            @Override
            public void call(Row r) throws Exception {
                System.out.println(r.mkString());        
            }
            
        });
    }
}

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 项目实战从0到1之Spark（2）Spark读取和存储HDFS上的数据 Spark之从hdfs读取数据 spark中操作hdfs HDFS数据存储流程 hdfs存储与数据同步 Spark 把RDD数据保存到hdfs单个文件中，而不是目录【solr】SolrCloud中索引数据存储于HDFS hdfs冷热数据分层存储 SolrCloud存储数据于HDFS的方法 spark读取hdfs上的文件和写入数据到hdfs上面