6步搭建企業的數據倉庫


歡迎訪問網易雲社區,了解更多網易技術產品運營經驗。


數據倉庫作為企業提供決策支持而構建的集成化數據環境,本身並不產生或者消費數據,基本架構包含的是數據流入流出的過程,首先放上一張數據倉庫的架構圖。數據倉庫作為中間集成化數據管理的一個平台,底層有多種數據來源,流入數據倉庫之后對上層應用開放。


1、分析業務需求,確定數據倉庫主題

數據模型的創建依賴數據倉庫主題的確定,在搭建數據倉庫之前,首先就是要充分了解業務部門的問題需求,明確我們所要創建的數據倉庫真正可以解決的問題,在多次溝通的前提下,可以准確的確定系統能夠實現的功能。在這個過程中,基於雙方理解問題的不同,還需要我們對需求做出一些原型的演示,避免理解上的分歧。


需要做到包括:從業務方需求中提取出重要的業務數據主題,並對業務數據主題進行詳細的解釋;對提取出的業務數據主題進行主題域的划分,並對主題域進行詳細的解釋;根據主題域的划分,對內部的組織結構和業務關系細節化,構建出主題域的概念模型。


2、構建邏輯模型

在概念模型的基礎上,對其進行進一步的細化和分解,通過實體和實體之間的關系描述業務的需求和系統實現的技術領域。邏輯模型的構建在數據倉庫的實施中最為重要,是業務需求人員和技術人員進行溝通的橋梁和平台,能夠直接反映業務部門實際的需求和對業務的規划,同時對下面物理模型的構建也具有指導意義。邏輯模型通過實體與實體之間的關系勾勒出了整個業務部門的數據藍圖和規划。


邏輯模型主要關注細節性的業務規則,同時也需要解決每個主題域包含的概念范疇和跨主題域的集成和共享問題,構建的步驟一般包括:分析需求,列出需要分析的主題,明確需求目標、維度指標、分析的指標、分析的方法、數據的來源以及需要關注的對象等;選擇用戶感興趣的數據,通過業務需求將需要分析的指標分離抽取出來,轉換為實體;在實體中增加時間戳屬性;考慮粒度層次的划分,粒度決定了數據倉庫的實現方式、性能、靈活性以及數據倉庫的數據量;在粒度層次划分的基礎上,進行關系模式的定義,關系模式一般采取第三范式的特點進行定義;同時在邏輯模型的基礎上對實體的屬性、屬性的值域等信息進行明確、完善和細化,保證真實的反映業務的邏輯關系和業務的規則。


3、邏輯模型轉換為物理模型

基於邏輯模型,接下來就是為應用環境選擇一個合適的物理結構,包括合適的存儲結構以及合適的存儲方法。將邏輯模型轉換為物理模型主要包括:實體名轉換為表名;屬性名轉換為列名,並且確定列的屬性;在物理模型的創建過程中,必須要對列的屬性進行明確,包括列名、數據類型、是否是空值以及長度等。確定物理模型之后,對於數據的存放位置和存儲空間的分配等也需要進行規划。


4、數據源接入

在數據倉庫的建立之前,需采集底層多種數據源數據,明確數據源中的數據種類,采用合適的工具。比如,Flume NG作為實時日志收集系統,支持在日志系統中定制各類數據發送方,用於收集數據,同時,對數據進行簡單處理,並寫到各種數據接收方;NDC,Netease Data Canal,直譯為網易數據運河系統,可以實現結構化數據庫的數據實時遷移;Sqoop可以將關系型數據庫中的數據導入到平台中;Logstash作為開源的服務端數據處理管道,也可以輕松的將日志、WEB應用等數據采集到平台中。


5、數據存儲清洗和轉換

對數據進行清洗和轉換,保證進入到數據倉庫中的數據的一致性。結合業務需求,采用合適的數據清洗轉換工具。


6、對接BI,數據展示

為業務部門選擇合適的工具實現對數據倉庫中的數據進行分析的目的,正確清晰的展現用戶的功能需求。

數據倉庫搭建成功之后,還需對其安全性、備份恢復等方面進行管理。


利益相關:網易雲打造的大數據平台,能夠提供更好的建設方案,歡迎免費試用

  • 網易猛獁是一個大數據應用開發與數據管理平台,覆蓋了數據傳輸、計算及作業流調度等多個環節,日處理數據量達到 PB 級。

  • 網易有數則定位於敏捷數據可視化分析平台,可便捷地嵌入企業經營的業務模塊,且面對不同客戶的需求提供定制化服務,數據分析效率最高提升80%。


相關文章:
【推薦】 后端接口遷移(從 webapi 到 openapi)前端經驗總結
【推薦】 網易雲瀚海一體機,雲計算“全棧”航母帶來了什么?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM