Spark 讀取Hadoop集群文件

本文轉載自查看原文 2020-06-24 21:31 1099 Spark 技術

1. 原因:

　　一般hadoop 集群是兩個或多個NameNode , 但是一個處於standby , 另一個active , 通過設置可以忽略不確定誰是active的情況

import org.apache.spark.sql.SparkSession
object Spark_HDFS {
  def main(args: Array[String]): Unit = {

    import org.apache.log4j.Logger
    import org.apache.log4j.Level
    Logger.getLogger("org").setLevel(Level.OFF)
    System.setProperty("spark.ui.showConsoleProgress","false")
    System.setProperty("HADOOP_USER_NAME", "abby")
    val ss = SparkSession
      .builder()
      .appName(" spark 3.0")
      .master("local")
      .getOrCreate()

    val sc = ss.sparkContext  //獲取socket
    sc.hadoopConfiguration.set("fs.defaultFS", "hdfs://cluster")
    sc.hadoopConfiguration.set("dfs.nameservices", "cluster")
    sc.hadoopConfiguration.set("dfs.ha.namenodes.cluster", "nn1,nn2")
    sc.hadoopConfiguration.set("dfs.namenode.rpc-address.cluster.nn1", "node1:8020")
    sc.hadoopConfiguration.set("dfs.namenode.rpc-address.cluster.nn2", "node2:8020")
    sc.hadoopConfiguration.set("dfs.client.failover.proxy.provider.cluster", "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider")


    val data = sc.textFile("hdfs://cluster/46062.txt",3)
   
  }

}

　　文中紅色部分就是設置兩個NameNode所需要改的 .具體cluster , 可以自己去看hadoop的配置里面所寫

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hadoop+spark集群搭建 spark集群安裝並集成到hadoop集群 Spark讀取parquet文件 spark讀取gz文件 spark讀取本地文件 Spark讀取文件 windows下通過idea連接hadoop和spark集群 hadoop+spark集群搭建入門 Hadoop+Spark:集群環境搭建 Mac OS下搭建Hadoop + Spark集群