MySQL向Hive/HBase的遷移工具


  Apache Hive是目前大型數據倉庫的免費首選產品之一,使用Apache Hive的人是不會期望在小數據量上做什么文章,例如把MySQL中的數據搬到Hive/HBase中去,那樣的話原先很快能執行完畢的SQL,估計在 Hive上運行跟原來相比時間延長10倍都不止。但如果你有MySQL數據可以把大量的數據向Hive導入,如果上億條的數據量再加上復雜的SQL查詢條 件對於MySQL來說是一件比較頭疼的事情,此時相比而言對於Hive來說還算比較easy沒有那么非常的頭痛,但是兩者之間缺少一個溝通的橋梁。

                                              http://public.bay.livefilestore.com/y1p60OKte_dOFw7ZYaJxmWbVsmeD9khYFhlFKAFPqOg1Tg1utFKgemKSCsvkBOkvJMnU73WqnN_HXypPGmLo6oJtw/mysql-sqoop-hive.png?psid=1

而然偉大的雲計算公司cloudera.com也是Hadoop強力支持者推出了Sqoop,Sqoop顧名思義SQL-to-Hadoop,在 sqoop中通過 ManagerFactory 抽象類對多種數據庫類型進行了抽象,可以做到 Hsqldb、MySQL、Oracle、PostgreSQL 這些數據庫中的數據可以向Hive中寫入。
http://public.bay.livefilestore.com/y1pKunc2kOxZ0w1tVFtqFGKBJhHLXyhqCi3OgRu4r_KCnGR4OEnxHeXiZHJwCLwnIwoeTV-yLxROi-2n_3mBiD0HA/mysql-sqoop-hive-2.png?psid=1

   從導出/導入所有數據一條命令即可,而且可以對表和數據的篩選,開發的效率提升和配置的簡潔是這個工具的特色所在,同樣的機器配置、機器數量、數據量和數 據內容,但是換了不同的環境得到了不同的執行效率,通過對RMDBS到Hadoop的遷移,帶來了性能的提升,所以就體現了sqoop的價值。

在一次開發大會上提到的Sqoop主要功能
    JDBC-based implementation
        ▪ Works with many popular database vendors
    Auto-generation of tedious user-side code
        ▪ Write MapReduce applications to work with your data, faster
    Integration with Hive
        ▪ Allows you to stay in a SQL-based environment
    Extensible backend
        ▪ Database-specific code paths for better performance

http://public.bay.livefilestore.com/y1pKunc2kOxZ0y2Pt8yOPnxCxLDqYhdKYcnyzq0g3mYjyyat1WZPHAyA4tWkH2DR7rYwENP9xdRVb8XTmOczMsx6Q/mysql-sqoop-hive-1.png

具體操作手冊相見:
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html (官方)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM