[大數據之Sqoop] —— Sqoop初探


Sqoop是一款用於把關系型數據庫中的數據導入到hdfs中或者hive中的工具,當然也支持把數據從hdfs或者hive導入到關系型數據庫中。

Sqoop也是基於Mapreduce來做的數據導入。

關於sqoop的原理

sqoop的原理比較簡單,就是根據用戶指定的sql或者字段參數,從數據庫中讀取數據導入到hive或者hdfs中。也支持基於數據庫導出工具導出,不過受限於數據庫的版本。

在導出的過程中,sqoop會自動切分mapreduce任務。比如某個字段的主鍵是從1到1000,那么當設置num-mappers為2時,第一個mr任務會讀取1-500的數據,第二個mr任務會讀取500-1000的數據。如果是字符串還有其他的划分方法.

關於架構

sqoop目前有兩個大版本,第一個版本比較簡單,只能使用命令行

第二個版本引入了sqoop server,統一處理連接等信息,並提供多種連接方式,還引入了權限控制,另外規范了連接的各項配置。

官方文檔

沒啥說的,學東西,還得閱讀官方文檔,鏈接參考這里


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM