而然偉大的雲計算公司cloudera.com也是Hadoop強力支持者推出了Sqoop,Sqoop顧名思義SQL-to-Hadoop,在 sqoop中通過 ManagerFactory 抽象類對多種數據庫類型進行了抽象,可以做到 Hsqldb、MySQL、Oracle、PostgreSQL 這些數據庫中的數據可以向Hive中寫入。
從導出/導入所有數據一條命令即可,而且可以對表和數據的篩選,開發的效率提升和配置的簡潔是這個工具的特色所在,同樣的機器配置、機器數量、數據量和數 據內容,但是換了不同的環境得到了不同的執行效率,通過對RMDBS到Hadoop的遷移,帶來了性能的提升,所以就體現了sqoop的價值。
在一次開發大會上提到的Sqoop主要功能
JDBC-based implementation
▪ Works with many popular database vendors
Auto-generation of tedious user-side code
▪ Write MapReduce applications to work with your data, faster
Integration with Hive
▪ Allows you to stay in a SQL-based environment
Extensible backend
▪ Database-specific code paths for better performance
具體操作手冊相見:
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html (官方)