一:DataX下載
下載頁面地址:https://pan.baidu.com/s/10J83j25_ohC4O3XHl9diDQ
提取碼: cq6n
二:安裝
將下載后的壓縮包直接解壓安裝到電腦上就可以了
三:測試
要想運行datax先要安裝python環境:
檢驗是否存在python環境在cmd中輸入python就會知道如果已經有python環境就如下所示出現版本等信息;
進入安裝好的datax目錄下bin目錄中,里面有datax.py文件,可以在cmd中測試(此處是我自己的目錄,具體根據自己的目錄來輸入命令):
python E:\大數據清洗工具\DataX\datax\bin\datax.py E:\大數據清洗工具\DataX\datax\job\job.json
下面是成功截圖
以上運行結果亂碼:在命令行輸入:
CHCP
65001
另外,如果你的python版本是3.x的話,則需要修改一下bin文件夾下的三個.py文件,參考鏈接地址為:https://github.com/HxYyWw/DatatX_python3/tree/master
四:應用(csv文件寫入mysql)
csv文件
數據庫建表
test.json文件
{ "job": { "setting": { "speed": { "channel": 3 } }, "content": [ { "reader": { "name": "txtfilereader", "parameter": { "path":["C:/Users/ASUS/Desktop/test.csv"], "encode":"gbk", "column" : [ { "index":0, "type":"string" },{ "index":1, "type":"string" } ], "fieldDelimiter":"," } }, "writer": { "name": "mysqlwriter", "parameter": { "writeMode": "insert", "username": "root", "password": "995893", "column": [ "name", "value" ], "preSql": [ "truncate table datax" ], "connection": [ { "jdbcUrl": "jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=utf-8", "table": [ "datax" ] } ] } } } ] } }
其中test.json文件主要的兩部分:reader和writer兩部分。
1,reader解讀
“name”屬性對應着讀取對象的類型
“parameter”中path屬性對應讀取對象的路徑、encode屬性對應讀取對象的編碼、column屬性對應讀取對象的表頭(其中index屬性對應表頭的字段順序,type對應字段的類型)、filedDelimiter屬性對應讀取對象的分隔符。
2,writer解讀
“name”屬性對應着讀取對象的類型
“parameter”中writeMote屬性表示操作、username屬性對應MySQL的用戶名、password對應MySQL的密碼、column對應的是表頭字段(注:這里的字段順序需要和讀取對象的順序一樣)、preSql屬性表示寫入前進行的sql語句、connection屬性中jdbcUrl表示數據庫的連接路徑,table表示表名
cmd運行命令:
1 python E:\大數據清洗工具\DataX\datax\bin\datax.py E:\大數據清洗工具\DataX\datax\job\test.json
運行結果:
數據庫中
如果連接數據庫失敗了,可能是沒有jar包,在lib里放上連接Mysql數據庫的jar包就好了。