關於datax的SqlServerReader 插件文檔讀取設置


SqlServerReader 插件文檔


1 快速介紹

SqlServerReader插件實現了從SqlServer讀取數據。在底層實現上,SqlServerReader通過JDBC連接遠程SqlServer數據庫,並執行相應的sql語句將數據從SqlServer庫中SELECT出來。

2 實現原理

簡而言之,SqlServerReader通過JDBC連接器連接到遠程的SqlServer數據庫,並根據用戶配置的信息生成查詢SELECT SQL語句並發送到遠程SqlServer數據庫,並將該SQL執行返回結果使用DataX自定義的數據類型拼裝為抽象的數據集,並傳遞給下游Writer處理。

對於用戶配置Table、Column、Where的信息,SqlServerReader將其拼接為SQL語句發送到SqlServer數據庫;對於用戶配置querySql信息,SqlServer直接將其發送到SqlServer數據庫。

3 功能說明

3.1 配置樣例

  • 配置一個從SqlServer數據庫同步抽取數據到本地的作業:
{
    "job": {
        "setting": {
            "speed": {
                 "byte": 1048576
            }
        },
        "content": [
            {
                "reader": {
                    "name": "sqlserverreader",
                    "parameter": {
                        // 數據庫連接用戶名
                        "username": "root",
                        // 數據庫連接密碼
                        "password": "root",
                        "column": [
                            "id"
                        ],
                        "splitPk": "db_id",
                        "connection": [
                            {
                                "table": [
                                    "table"
                                ],
                                "jdbcUrl": [
                                "jdbc:sqlserver://localhost:3433;DatabaseName=dbname"
                                ]
                            }
                        ]
                    }
                },
               "writer": {
                    "name": "streamwriter",
                    "parameter": {
                        "print": true,
                        "encoding": "UTF-8"
                    }
                }
            }
        ]
    }
}

  

  • 配置一個自定義SQL的數據庫同步任務到本地內容的作業:
{
    "job": {
        "setting": {
            "speed": 1048576
        },
        "content": [
            {
                "reader": {
                    "name": "sqlserverreader",
                    "parameter": {
                        "username": "root",
                        "password": "root",
                        "where": "",
                        "connection": [
                            {
                                "querySql": [
                                    "select db_id,on_line_flag from db_info where db_id < 10;"
                                ],
                                "jdbcUrl": [
                                    "jdbc:sqlserver://bad_ip:3433;DatabaseName=dbname",
                                    "jdbc:sqlserver://127.0.0.1:bad_port;DatabaseName=dbname",
                                    "jdbc:sqlserver://127.0.0.1:3306;DatabaseName=dbname"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "streamwriter",
                    "parameter": {
                        "visible": false,
                        "encoding": "UTF-8"
                    }
                }
            }
        ]
    }
}

  

3.2 參數說明

  • jdbcUrl

    • 描述:描述的是到對端數據庫的JDBC連接信息,使用JSON的數組描述,並支持一個庫填寫多個連接地址。之所以使用JSON數組描述連接信息,是因為阿里集團內部支持多個IP探測,如果配置了多個,SqlServerReader可以依次探測ip的可連接性,直到選擇一個合法的IP。如果全部連接失敗,SqlServerReader報錯。 注意,jdbcUrl必須包含在connection配置單元中。對於阿里集團外部使用情況,JSON數組填寫一個JDBC連接即可。

      jdbcUrl按照SqlServer官方規范,並可以填寫連接附件控制信息。具體請參看SqlServer官方文檔

    • 必選:是

    • 默認值:無

  • username

    • 描述:數據源的用戶名

    • 必選:是

    • 默認值:無

  • password

    • 描述:數據源指定用戶名的密碼

    • 必選:是

    • 默認值:無

  • table

    • 描述:所選取的需要同步的表。使用JSON的數組描述,因此支持多張表同時抽取。當配置為多張表時,用戶自己需保證多張表是同一schema結構,SqlServerReader不予檢查表是否同一邏輯表。注意,table必須包含在connection配置單元中。

    • 必選:是

    • 默認值:無

  • column

    • 描述:所配置的表中需要同步的列名集合,使用JSON的數組描述字段信息。用戶使用*代表默認使用所有列配置,例如["*"]。

      支持列裁剪,即列可以挑選部分列進行導出。

      支持列換序,即列可以不按照表schema信息進行導出。

      支持常量配置,用戶需要按照JSON格式: ["id", "[table]", "1", "'bazhen.csy'", "null", "COUNT(*)", "2.3" , "true"] id為普通列名,[table]為包含保留在的列名,1為整形數字常量,'bazhen.csy'為字符串常量,null為空指針,to_char(a + 1)為表達式,2.3為浮點數,true為布爾值。

      column必須用戶顯示指定同步的列集合,不允許為空!

    • 必選:是

    • 默認值:無

  • splitPk

    • 描述:SqlServerReader進行數據抽取時,如果指定splitPk,表示用戶希望使用splitPk代表的字段進行數據分片,DataX因此會啟動並發任務進行數據同步,這樣可以大大提供數據同步的效能。

      推薦splitPk用戶使用表主鍵,因為表主鍵通常情況下比較均勻,因此切分出來的分片也不容易出現數據熱點。

      目前splitPk僅支持整形型數據切分,不支持浮點、字符串、日期等其他類型。如果用戶指定其他非支持類型,SqlServerReader將報錯!

      splitPk設置為空,底層將視作用戶不允許對單表進行切分,因此使用單通道進行抽取。

    • 必選:否

    • 默認值:無

  • where

    • 描述:篩選條件,MysqlReader根據指定的column、table、where條件拼接SQL,並根據這個SQL進行數據抽取。在實際業務場景中,往往會選擇當天的數據進行同步,可以將where條件指定為gmt_create > $bizdate 。注意:不可以將where條件指定為limit 10,limit不是SQL的合法where子句。

      where條件可以有效地進行業務增量同步。如果該值為空,代表同步全表所有的信息。
      
    • 必選:否

    • 默認值:無

  • querySql

    • 描述:在有些業務場景下,where這一配置項不足以描述所篩選的條件,用戶可以通過該配置型來自定義篩選SQL。當用戶配置了這一項之后,DataX系統就會忽略table,column這些配置型,直接使用這個配置項的內容對數據進行篩選,例如需要進行多表join后同步數據,使用select a,b from table_a join table_b on table_a.id = table_b.id

    當用戶配置querySql時,SqlServerReader直接忽略table、column、where條件的配置

    • 必選:否

    • 默認值:無

  • fetchSize

    • 描述:該配置項定義了插件和數據庫服務器端每次批量數據獲取條數,該值決定了DataX和服務器端的網絡交互次數,能夠較大的提升數據抽取性能。

    注意,該值過大(>2048)可能造成DataX進程OOM。

    • 必選:否

    • 默認值:1024

3.3 類型轉換

目前SqlServerReader支持大部分SqlServer類型,但也存在部分個別類型沒有支持的情況,請注意檢查你的類型。

下面列出SqlServerReader針對SqlServer類型轉換列表:

DataX 內部類型 SqlServer 數據類型
Long bigint, int, smallint, tinyint
Double float, decimal, real, numeric
String char,nchar,ntext,nvarchar,text,varchar,nvarchar(MAX),varchar(MAX)
Date date, datetime, time
Boolean bit
Bytes binary,varbinary,varbinary(MAX),timestamp

請注意:

  • 除上述羅列字段類型外,其他類型均不支持
  • timestamp類型作為二進制類型

4 性能報告

暫無

5 約束限制

5.1 主備同步數據恢復問題

主備同步問題指SqlServer使用主從災備,備庫從主庫不間斷通過binlog恢復數據。由於主備數據同步存在一定的時間差,特別在於某些特定情況,例如網絡延遲等問題,導致備庫同步恢復的數據與主庫有較大差別,導致從備庫同步的數據不是一份當前時間的完整鏡像。

針對這個問題,我們提供了preSql功能,該功能待補充。

5.2 一致性約束

SqlServer在數據存儲划分中屬於RDBMS系統,對外可以提供強一致性數據查詢接口。例如當一次同步任務啟動運行過程中,當該庫存在其他數據寫入方寫入數據時,SqlServerReader完全不會獲取到寫入更新數據,這是由於數據庫本身的快照特性決定的。關於數據庫快照特性,請參看MVCC Wikipedia

上述是在SqlServerReader單線程模型下數據同步一致性的特性,由於SqlServerReader可以根據用戶配置信息使用了並發數據抽取,因此不能嚴格保證數據一致性:當SqlServerReader根據splitPk進行數據切分后,會先后啟動多個並發任務完成數據同步。由於多個並發任務相互之間不屬於同一個讀事務,同時多個並發任務存在時間間隔。因此這份數據並不是完整的一致的數據快照信息。

針對多線程的一致性快照需求,在技術上目前無法實現,只能從工程角度解決,工程化的方式存在取舍,我們提供幾個解決思路給用戶,用戶可以自行選擇:

  1. 使用單線程同步,即不再進行數據切片。缺點是速度比較慢,但是能夠很好保證一致性。

  2. 關閉其他數據寫入方,保證當前數據為靜態數據,例如,鎖表、關閉備庫同步等等。缺點是可能影響在線業務。

5.3 數據庫編碼問題

SqlServerReader底層使用JDBC進行數據抽取,JDBC天然適配各類編碼,並在底層進行了編碼轉換。因此SqlServerReader不需用戶指定編碼,可以自動識別編碼並轉碼。

5.4 增量數據同步

SqlServerReader使用JDBC SELECT語句完成數據抽取工作,因此可以使用SELECT...WHERE...進行增量數據抽取,方式有多種:

  • 數據庫在線應用寫入數據庫時,填充modify字段為更改時間戳,包括新增、更新、刪除(邏輯刪)。對於這類應用,SqlServerReader只需要WHERE條件跟上一同步階段時間戳即可。
  • 對於新增流水型數據,SqlServerReader可以WHERE條件后跟上一階段最大自增ID即可。

對於業務上無字段區分新增、修改數據情況,SqlServerReader也無法進行增量數據同步,只能同步全量數據。

5.5 Sql安全性

SqlServerReader提供querySql語句交給用戶自己實現SELECT抽取語句,SqlServerReader本身對querySql不做任何安全性校驗。這塊交由DataX用戶方自己保證。

6 FAQ


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM