項目實戰從0到1之Spark（5）Spark整合Elasticsearch-從ES讀取數據

本文轉載自查看原文 2020-09-08 17:34 1028 離線數據倉庫

由於ES集群在拉取數據時可以提供過濾功能，因此在采用ES集群作為spark運算時的數據來源時，
根據過濾條件在拉取的源頭就可以過濾了（ES提供過濾），就不必像從hdfs那樣必須全部加載進spark的內存根據filter算子過濾，費時費力。

代碼：

import org.apache.spark.{SparkConf, SparkContext}
import org.elasticsearch.spark._
object Spark2Elasticsearch {
def main(args: Array[String]): Unit = {
val conf =new SparkConf().setAppName("Spark2ES").setMaster("local[2]")
conf.set("es.nodes","hadoop1,hadoop2,hadoop3")
conf.set("es.port","9200")
conf.set("es.index.auto.create","true")
val sc =new SparkContext(conf)
val query:String =s"""{
"query" : {
"match_all" : {}
},
"filter" : {
"term" : {
"price" : 50.55
}
}
}"""
val rdd = sc.esRDD("store", query)
println(rdd.collect().toBuffer)
}
}

運行結果：

采坑點：
那個sc.esRDD方法其實是ES提供的jar包里的一個隱試轉換，在import org.elasticsearch.spark._這個包下，
配置mavin依賴時注意spark的配套版本，本文1.6的spark依賴如下：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 項目實戰從0到1之Spark（3）spark讀取hive數據 spark讀取es數據項目實戰從0到1之Spark（4）SparkSQL讀取HBase數據項目實戰從0到1之Spark（2）Spark讀取和存儲HDFS上的數據項目實戰從0到1之Spark（9）spark讀取Oracle數據到hive中 spark中讀取elasticsearch數據項目實戰從0到1之Spark（8）spark讀取mongodb數據寫入hive表中 Spark Streaming 讀取Kafka數據寫入ES Spark 整合ElasticSearch 項目實戰從0到1之Spark（10）Spark讀取HDFS寫入Hive