序:
本文首先介紹DataX使用(編寫配置文件的方式)之MongoDB中的數據導出到HDFS上的一些注意事項,datax安裝沒有什么坑,所以本文不對此進行詳細介紹,詳細安裝過程請自行查看官網。
一、datax的基本使用
1、datax的目錄結構
目錄說明:
backup:本人自己創建的備份目錄
,因為后續使用過程中涉及到更改源碼,將原生的jar包備份到此文件夾中
bin:datax的命令
conf:datax的配置文件
job:任務編寫的json配置文件存放的位置,官方的demo也在這個目錄下
log:運行日志愛
plugin:reader/writer的源碼包,后續可以自己更改源碼上傳替換
script:沒啥用
tmp:臨時目錄
2、查看任務模板
python ./datax.py -r mongodbreader -w hdfswriter
{ "job": { "content": [ { "reader": { "name": "mongodbreader", "parameter": { "address": [], "collectionName": "", "column": [], "dbName": "", "userName": "", "userPassword": "" } }, "writer": { "name": "hdfswriter", "parameter": { "column": [], "compress": "", "defaultFS": "", "fieldDelimiter": "", "fileName": "", "fileType": "", "path": "", "writeMode": "" } } } ], "setting": { "speed": { "channel": "" } } } }
按照模板填寫對應的服務器地址,庫,表名,文件名,地址,並行度等即可使用
-----------------------寫不動了,困了,想起來再接着寫---------------------------