一、數據建模的定義
數據建模指的是對現實世界各類數據的抽象組織,確定數據庫需管轄的范圍、數據的組織形式等直至轉化成現實的數據庫。 將經過系統分析后抽象出來的概念模型轉化為物理模型后,在visio或erwin等工具建立數據庫實體以及各實體之間關系的過程(實體一般是表)。
二、數據建模的基本流程
1、確定數據及其相關過程,如實地銷售人員需要查看在線產品目錄並提交新客戶訂單。
2、定義數據,如數據類型、大小和默認值。
3、確保數據的完整性,使用業務規則和驗證檢查。
4、定義操作過程,如安全檢查和備份。
5、選擇數據存儲技術,如關系、分層或索引存儲技術。
6、一定要知道建模通常會以意想不到的方式涉及公司的管理。例如,當對哪些數據元素應由哪些組織來維護有新的見解時,數據所有權以及數據維護、准確性和及時性的隱含責任通常會遭到質疑。數據設計常常促使公司認識到企業數據系統是如何相互依存的,並且鼓勵公司抓住協調后的數據規划所帶來的效率提高、成本節約和戰略性機遇。
三、數據建模的類型
1、ER模型
OLAP中的ER模型,與OLTP中的有所區別。其本質差異是站在企業角度面向主題的抽象,而不是針對某個具體業務流程的實體對象關系的抽象。
2、星型模型
星型模型,是維度模型在關系型數據庫上的一種實現。該模型表示每個業務過程包含事實表,事實表存儲事件的數值化度量,圍繞事實表的多個維度表,維度表包含事件發生時實際存在的文本環境。這種類似於星狀的結構通常稱為"星型連接"。其重點關注用戶如何更快速地完成需求分析,同時具有較好的大規模復雜查詢的響應性能。在星型模型基礎上,在復雜場景下還可以進一步衍生出雪花模型。
3、多維模型
多維模型,是維度模型的另一種實現。當數據被加載到OLAP多維數據庫時,對這些數據的存儲的索引,采用了為維度數據涉及的格式和技術。性能聚集或預計算匯總表通常由多維數據庫引擎建立並管理。由於采用預計算、索引策略和其他優化方法,多維數據庫可實現高性能查詢。
四、數據建模案例
1、Smartbi大數據挖掘平台算法豐富,而且可擴展
數據挖掘平台支持多種高效實用的機器學習算法,包含了分類、回歸、聚類、預測、關聯,5大類機器學習的成熟算法。其中包含了多種可訓練的模型:邏輯回歸、決策樹、隨 機森林、朴素貝葉斯、支持向量機、線性回歸、K均值、DBSCAN、高斯混合模型。除提供主要算法和建模功能外,數據挖掘平台還提供了必不可少的數據預處理功能,包括字段拆分、行過濾與映射、列選擇、隨機采樣、過濾空值、合並列、合並行、JOIN、行選擇、去除重復值、排序、增加序列號、增加計算字段等。
2、Smartbi 大數據挖掘平台功能完備,無縫集成到企業BI應用
1)適合大型企業
分布式雲計算,線性擴展,保證性能,與BI平台無縫整合,一鍵發布挖掘模型,模型庫提高知識復用,減少重復投入,支持跨庫查詢,統一控制數據訪問權限,訓練自動化、模型自學習。
2)適合普通用戶
直觀的流式建模,極簡風格的節點配置界面,支持可視化探索,輕松理解數據質量和數據並聯,流程節點在線幫助,模型超參數自動調整。
3)專業算法能力
內置5大類機器學習成熟算法,支持文本分析處理,支持使用Python擴展挖掘算法, 支持使用SQL擴展數據處理能力。
三、Smartbi大數據挖掘平台易學易用,一站式完成數據處理和建模