1、設計和實現了一種基於 Spark 的分布式 ETL 系統,包括利用 Spark 抽取、
轉換清洗和加載數據的具體過程。
2、設計和實現了基於 Spark 的物流企業數據倉庫,包括物流企業數據倉庫
的分析主題、維度表和事實表確定以及數據倉庫的維度模型、架構、構建過程和
實現方法等內容。該數據倉庫利用 Hive 定義物流企業數據倉庫表,SparkSQL 對
表進行查詢分析操作,底層采用的 Spark 計算引擎,大大提高了查詢分析的效率;
1、設計和實現了一種基於 Spark 的分布式 ETL 系統,包括利用 Spark 抽取、
轉換清洗和加載數據的具體過程。
2、設計和實現了基於 Spark 的物流企業數據倉庫,包括物流企業數據倉庫
的分析主題、維度表和事實表確定以及數據倉庫的維度模型、架構、構建過程和
實現方法等內容。該數據倉庫利用 Hive 定義物流企業數據倉庫表,SparkSQL 對
表進行查詢分析操作,底層采用的 Spark 計算引擎,大大提高了查詢分析的效率;
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。