數據倉庫系列之關於數據倉庫自動化技術


  目前市面上的BI工具都在提及敏捷BI解決方案。敏捷BI解決方案所提供的自動化技術支持主要是從數據源取數到BI前端工具展現。這樣的敏捷BI解決方案在企業數據量不是很龐大的情況下,還是很好的支撐運行。PowerBI可以支持大量的數據處理,但是對於硬件設備的要求也是非常高的。但是數據量變得越來越龐大就會導致BI報表出現運行緩慢,大屏展現出現數據延遲等等現象。

  如果項目較小例如上圖中的動態銷售報告,只是為了展現EXCEL中少量的數據。使用PowerBI工具完全可以滿足大家的需要。真正要做到敏捷BI整體數倉解決方案,還是需要在數據源和BI前端工具的中間加入數據倉庫。在數據倉庫中處理數據對於源數據沒有任何侵入性,也不會對源數據系統造成影響。數據倉庫的搭建可能大家用過SSDT工具應該知道,搭建數據倉庫還是很繁瑣的。搭建數據倉庫還是需要借助數據倉庫自動化工具。

  數據倉庫自動化的工具正變得越來越主流,現在他們明顯的好處:

  1、  快速交付

  2、  開發成本較低

  3、  開發周期短對於一個商業智能項目完成,不再需要等待三至六個月。

  4、  維護成本低,無需投入大量的技術人員維護

  市面上已經有的ETL工具具有自動化技術,我在前面的ETL過程和ETL工具介紹已經提及了,這里就不再做過多的描述。有一些事情你應該知道,評估來自不同供應商的產品的維度。

  一、有些工具數據倉庫的自動化程度較低。

  一些數據倉庫自動化工具就存在不能夠自動化處理模型,大多數開發商在做示例都是使用一個簡單的星型模式報告。這是一個簡單的數據源,但是當你需要將數據從多個數據源整合,事情就變得復雜了。有些工具帶你通過一個錯綜復雜的過程,升級到數據生成星型模式之前結合。這是不是很自動化。數據倉庫的自動化工具應該可以處理70%的工作,而不需要額外的數據建模工作或ETL編程。除非客戶存在定制化的需求,再進行建模和編程。

 

  二、一些工具需要大量的咨詢工作實現結果。

  問問你的數據倉庫的自動化軟件供應商的這個簡單的問題: “你們實施BI項目有多少實施顧問,實施需要的周期?”一個健全的實施BI項目的團隊,如果已經做到了工具大部分自動化處理。實際具有成熟自動化技術的供應商,他們更多的是在做客戶報表指標的梳理,適配公司模型庫中的指標數據。更多的工作是在前期的需求調研確認模型階段,實施部署BI項目實際是非常快速的。

  三、雪花模型和星形模型

  如果您正計划建立自己的數據倉庫,那么你所選擇的數據倉庫自動化工具應該自動執行任何上述的部分或全部。一些數據倉庫的自動化工具仍需要您手動設計目標模型,並用自己的工具來填充它。這不是自動化,你還不如回去使用ETL工具。一個好的數據倉庫自動化工具將自動完成了模型設計和填充它的代碼 。讓你在雪花模型和星型模形之間進行選擇。

  四、目標數據庫的數據倉庫。

  許多數據倉庫的自動化工具限制你只是一個目標數據庫平台,而其他人將讓你在更多的創建數據倉庫。你可能希望,在未來,移動到不同的數據庫平台(例如,從S​​QL Server到Oracle,或從S​​QL Server到S​​QL Server其他版本),所以你可能需要一個數據倉庫的自動化工具,它為您提供了將來的遷移選項。

  五、調度依賴

  對於任何數據倉庫項目,需要數據在特定的時間,並在一定的順序進行裝載。例如,當來自多個來源的數據相結合,你可能需要有所有加載之前,首先你可以開始建立你表中的數據,而且他們必須更新之前,您可以更新您的星型模型的報告。一個企業級的數據倉庫的自動化工具將了解這些依賴關系,自動執行並自動完成所有必要的流程和正確的順序運行它們。

   六、數據倉庫自動化工具的功能

 

 

  數據倉庫自動化工具主要包括系統管理、業務總線管理、維度模型管理、作業管理、應用管理、元數據管理、數據標准管理和行業指標庫等模塊。 個人認為真正健全軟件應該具備上圖的功能特點或者實現維度建模工具箱中提及的34個子系統。

  系統管理:這個模塊主要管理各個系統的信息包括源系統信息、數據倉庫系統、作業調度系統、報表瀏覽系統。通過源系統信息可以自動導入源系統的元數據,為維度建模和檢查數據結構變化提供數據。

  業務總線管理:每個源系統都有多個業務過程,每個業務過程都會涉及多個維度實體。業務過程和維度實體組成總線結構,統一管理每個源系統的業務總線。

  維度模型管理:根據命名規范進行物理模型和映射關系設計,保證命名的統一。可以自動生成建表腳本,自動在數據倉庫執行腳本。

  作業管理:根據查詢腳本和程序模板自動生成ETL程序,自動生成作業的依賴關系。保證程序代碼的統一,規范。

  應用管理:統一管理報表、接口業務元數據信息。

  數據標准管理:統一管理代碼命名規范、數據類型映射關系、常用單詞庫、指標定義、ETL程序模板。

  元數據管理:在開發的過程中,會存儲各種元數據信息,可以根據這些元數據進行代碼規范檢查、數據影響分析、數據異常監控。

  項目文檔管理:可以在BI項目實施時進行自動生成數據處理過程的備注信息,可以詳細描述知道字段的轉換,抽取規則等等

  行業指標庫:通過公司積累的行業數據指標進行適配客戶數據,實現低成本敏捷交付BI項目。

  七、總結

  ETL工具引入了很多時間的延誤和風險到您的商業智能項目。更糟的是,他們期待您的業務用戶能夠學習掌握數據倉庫中的表和字段,真正業務用戶時不理解數據倉庫的,所以不可避免的變化將要花費很長的時間來解決。真正可以讓業務用戶理解的只有業務術語,利用語義模型才是解決該類問題的最好方法。你能用敏捷的ETL工具,來完成模型的設計。如果您估計傳統的數據倉庫項目,需要半年,同樣的項目在具有良好和高度配置化的數據倉庫自動化工具來完成只需要幾個星期處理好。時間對於任何公司和個體都是十分重要的,所以選型數據倉庫工具也是需要非常謹慎小心。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM