spark-sql jdbc連接參數優化

本文轉載自查看原文 2022-03-29 17:26 738 spark

1，sparkSQK -jdbc

官方文檔 https://spark.apache.org/docs/3.2.1/sql-data-sources-jdbc.html

支持的數據庫
DB2
MariaDB
MS Sql
Oracle
PostgreSQL

訪問數據庫可通過
- spark.read().jdbc(driver,tableName,'分區規則（字符串數組）',properties)連接
- spark.format("jdbc")
  .option('url','連接地址')
  .option('driver','驅動名稱')
  .option('dbtable','表名稱')
  .option('driver','xxx')
  ...

可配置參數
- partitionColumn, lowerBound, upperBound ：分區字段，下界值，上界值，該三個值必須同時配置
- numPartitions ：分區數量，spark可以根據上界、下屆以及數量自己平均分配分區
- fetchsize ：讀一次讀多少條，適合大數據量配置
- batchSize : 寫一次寫多少數據，適合大數據量配置
- isolationLevel 數據庫隔離級別

代碼實例

  Dataset<Row> ds= spark.read()
                .option("partitionColumn", "出生年月日").option("lowerBound", "1921-01-01").option("upperBound", "2032-01-01").option("numPartitions", 20)
                .option("fetchsize", "1000")
                .jdbc(dbUrl, "tableName", properties);

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark-SQL連接Hive spark-sql cli 參數及使用 java通過SparkSession連接spark-sql 1、spark-sql配置導出spark-sql結果 Spark-SQL之DataFrame操作 spark-sql性能測試 spark-shell和spark-sql Spark(四): Spark-sql 讀hbase Spark(四): Spark-sql 讀hbase