【spark】連接ClickHouse最優方案調研

本文轉載自查看原文 2021-03-11 11:46 659 spark

Spark JDBC方案

查詢下垂研究:

spark jdbc連接mysql:

context.sparkSession.read.format("jdbc").options(config.toSparkJDBCMap).load().selectExpr("title")
.filter("phone='13725848961'")
.filter(row=>row.getAs[String]("phone").startsWith("123"))

mysql生成的sql日志:

2021-03-11T03:34:52.019572Z    234927 Connect    root@180.167.157.90 on aut_house using SSL/TLS
2021-03-11T03:34:52.030608Z    234927 Query    /* mysql-connector-java-8.0.17 (Revision: 16a712ddb3f826a1933ab42b0039f7fb9eebc6ec) */SELECT  @@session.auto_increment_increment AS auto_increment_increment, @@character_set_client AS character_set_client, @@character_set_connection AS character_set_connection, @@character_set_results AS character_set_results, @@character_set_server AS character_set_server, @@collation_server AS collation_server, @@collation_connection AS collation_connection, @@init_connect AS init_connect, @@interactive_timeout AS interactive_timeout, @@license AS license, @@lower_case_table_names AS lower_case_table_names, @@max_allowed_packet AS max_allowed_packet, @@net_write_timeout AS net_write_timeout, @@performance_schema AS performance_schema, @@query_cache_size AS query_cache_size, @@query_cache_type AS query_cache_type, @@sql_mode AS sql_mode, @@system_time_zone AS system_time_zone, @@time_zone AS time_zone, @@tx_isolation AS transaction_isolation, @@wait_timeout AS wait_timeout
2021-03-11T03:34:52.047211Z    234927 Query    SET NAMES utf8mb4
2021-03-11T03:34:52.057985Z    234927 Query    SET character_set_results = NULL
2021-03-11T03:34:52.068195Z    234927 Query    SET autocommit=1
2021-03-11T03:34:52.079011Z    234927 Query    SELECT `title` FROM house WHERE (`phone` IS NOT NULL) AND (`phone` = '13725848961')

spark的執行計划:

== Physical Plan ==
*(1) Filter <function1>.apply
+- *(1) Scan JDBCRelation(house) [numPartitions=1] [title#1,phone#4] PushedFilters: [*IsNotNull(phone), *EqualTo(phone,13725848961)], ReadSchema: struct<title:string,phone:string>
root
 |-- title: string (nullable = true)
 |-- phone: string (nullable = true)

初步結論: spark jdbc是能夠支持查詢下沉的，對於filterExpr和selectExpr會下沉

ClickHouse

== Physical Plan ==
*(1) Project [service#0]
+- *(1) Scan JDBCRelation(tbtest) [numPartitions=1] [service#0] PushedFilters: [*IsNotNull(metric), *EqualTo(metric,CPU_Idle_Time_alan)], ReadSchema: struct<service:string>

實驗測出，Spark JDBC連接ClickHouse也會查詢下沉

未來優化方向:

ClickHouse 查詢是通過一個distribute view到每個節點拉數據，然后view進行merge。這個動作跟spark的driver側有點類似。所以未來考慮編寫一個spark source，partition去每個節點拉數據，driver側進行merge。跳過distribute view這個操作

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 clickhouse數倉：mysql數據到clickhouse的離線、實時與全量、增量的方案調研 ClickHouse調研1-使用文檔、介紹 Spark 通過 jdbc 寫入 Clickhouse ES多租戶方案調研 websocket方案調研及實踐 ClickHouse集群方案測評 clickhouse使用Spark導入數據 Angular 狀態管理方案調研 JDBC連接clickhouse cluster python連接clickhouse