下載頁面地址:https://pan.baidu.com/s/10J83j25_ohC4O3XHl9diDQ

提取碼: cq6n 

二:安裝

將下載后的壓縮包直接解壓安裝到電腦上就可以了

 三:測試

要想運行datax先要安裝python環境:

檢驗是否存在python環境在cmd中輸入python就會知道如果已經有python環境就如下所示出現版本等信息;

 

 

進入安裝好的datax目錄下bin目錄中,里面有datax.py文件,可以在cmd中測試(此處是我自己的目錄,具體根據自己的目錄來輸入命令):

python E:\大數據清洗工具\DataX\datax\bin\datax.py E:\大數據清洗工具\DataX\datax\job\job.json

 

 

下面是成功截圖

 

 

 

 

 

以上運行結果亂碼:在命令行輸入:

       CHCP  65001

 另外,如果你的python版本是3.x的話,則需要修改一下bin文件夾下的三個.py文件,參考鏈接地址為:https://github.com/HxYyWw/DatatX_python3/tree/master

四:應用(csv文件寫入mysql)

 csv文件

 

 數據庫建表

 

 test.json文件

{
    "job": {
        "setting": {
            "speed": {
                "channel": 3
            }
        },
        "content": [
            {
                 "reader": {
                    "name": "txtfilereader",
                    "parameter": {
                        "path":["C:/Users/ASUS/Desktop/test.csv"],
                        "encode":"gbk",
                        "column" : [
                            {
                                "index":0,
                                "type":"string"
                            },{
                                        "index":1,
                                "type":"string"
                            }
                        ],
                        "fieldDelimiter":","
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "writeMode": "insert",
                        "username": "root",
                        "password": "995893",
                        "column": [
                            "name",
                            "value"
                        ],
                        "preSql": [
                            "truncate table datax"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=utf-8",
                                "table": [
                                    "datax"
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}

其中test.json文件主要的兩部分:reader和writer兩部分。

    1,reader解讀

      “name”屬性對應着讀取對象的類型

      “parameter”中path屬性對應讀取對象的路徑、encode屬性對應讀取對象的編碼、column屬性對應讀取對象的表頭(其中index屬性對應表頭的字段順序,type對應字段的類型)、filedDelimiter屬性對應讀取對象的分隔符。

    2,writer解讀

      “name”屬性對應着讀取對象的類型

      “parameter”中writeMote屬性表示操作、username屬性對應MySQL的用戶名、password對應MySQL的密碼、column對應的是表頭字段(注:這里的字段順序需要和讀取對象的順序一樣)、preSql屬性表示寫入前進行的sql語句、connection屬性中jdbcUrl表示數據庫的連接路徑,table表示表名

 

cmd運行命令:

1 python E:\大數據清洗工具\DataX\datax\bin\datax.py E:\大數據清洗工具\DataX\datax\job\test.json

  運行結果:

 

 數據庫中

 

 如果連接數據庫失敗了,可能是沒有jar包,在lib里放上連接Mysql數據庫的jar包就好了。