數據倉庫建模工具及ETL工具


建模工具,一般企業以Erwin、powerdesigner、visio,甚至Excel等為主。

PowerDesigner

是Sybase的企業建模和設計解決方案,是能進行數據庫設計的強大的軟件,是一款開發人員常用的數據庫建模工具。使用它可以分別從概念數據模型(Conceptual Data Model)和物理數據模型(Physical Data Model)兩個層次對數據庫進行設計。

ERWin 

全稱是ERwin Data Modeler,是CA公司的數據建模工具。ERwin提供數據庫結構,管理界面的容易簡單,圖形顯示對視覺復雜。

Visio 

Visio 是Office 軟件系列中的負責繪制流程圖和示意圖的軟件,是一款便於IT和商務人員就復雜信息、系統和流程進行可視化處理、分析和交流的軟件。同時它也可以用來數據庫建模。

打開visio 2010,文件—>新建—>數據庫—>數據庫模型圖。建立數據庫模型圖之后,菜單欄多出一個菜單項"數據庫"。

 

 ETL工具或類ETL的數據集成同步工具或語言,企業生產中工具也非常之多,主流的etl工具有Sqoop、DataX、Canal、flume、Logstash、kettle、DataStage、Informatica、Talend等,語言有強悍的SQL、Shell、Python、Java、Scala等。而數據源多為業務系統,埋點日志,離線文件,第三方數據等。

Sqoop,SQL-to-Hadoop 即 “SQL到Hadoop和Hadoop到SQL”。

是Apache開源的一款在Hadoop和關系數據庫服務器之間傳輸數據的工具。主要用於在Hadoop與關系型數據庫之間進行數據轉移,可以將一個關系型數據庫(MySQL ,Oracle等)中的數據導入到Hadoop的HDFS中,也可以將HDFS的數據導出到關系型數據庫中。

sqoop命令的本質是轉化為MapReduce程序。sqoop分為導入(import)和導出(export),策略分為table和query,模式分為增量和全量。

 

StreamSets

Streamsets是一個大數據實時采集ETL工具,可以實現不寫一行代碼完成數據的采集和流轉。通過拖拽式的可視化界面,實現數據管道(Pipelines)的設計和定時任務調度。

數據源支持MySQL、Oracle等結構化和半/非結構化,目標源支持HDFS、Hive、Hbase、Kudu、Solr、Elasticserach等。創建一個Pipelines管道需要配置數據源(Origins)、操作(Processors)、目的地(Destinations)三部分。

Streamsets的強大之處:

  • 拖拽式可視化界面操作,No coding required 可實現不寫一行代碼

  • 強大整合力,100+ Ready-to-Use Origins and Destinations,支持100+數據源和目標源

  • 可視化內置調度監控,實時觀測數據流和數據質量

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM