數倉工具介紹


隨着數據收集手段不斷豐富,行業數據大量積累,數據規模已增長到了傳統軟件行業無法承載的海量數據(百TB、PB、EB)級別。

1、種類

(1)Hive是基於Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。hive數據倉庫工具能將結構化的數據文件映射為一張數據庫表,並提供SQL查詢功能,能將SQL語句轉變成MapReduce任務來執行。Hive的優點是學習成本低,可以通過類似SQL語句實現快速MapReduce統計,使MapReduce變得更加簡單,而不必開發專門的MapReduce應用程序。hive是十分適合數據倉庫的統計分析和Windows注冊表文件。

(2)大數據計算服務(MaxCompute,原名ODPS)是一種快速、完全托管的EB級數據倉庫解決方案,阿里雲產品。  MaxCompute致力於批量結構化數據的存儲和計算,提供海量數據倉庫的解決方案及分析建模服務。  由於單台服務器的處理能力有限,海量數據的分析需要分布式的計算模型。分布式的計算模型對數據分析人員要求較高且不易維護。數據分析人員不僅需要了解業務需求,同時還需要熟悉底層分布式計算模型。MaxCompute為您提供完善的數據導入方案以及多種經典的分布式計算模型,您可以不必關心分布式計算和維護細節,便可輕松完成大數據分析。

 2、計算模型

(1)SQL:傳統的數據庫軟件操作功能。
(2)MapReduce:MaxCompute MapReduce是MaxCompute提供的Java MapReduce編程模型,它可以簡化開發流程,更為高效。使用MaxCompute MapReduce,需要對分布式計算概念有基本了解,並有相對應的編程經驗。MaxCompute MapReduce為您提供Java編程接口。

(3)Graph:MaxCompute提供的Graph功能是一套面向迭代的圖計算處理框架。圖計算作業使用圖進行建模,圖由點 (Vertex)和邊(Edge)組成,點和邊包含權值(Value)。通過迭代對圖進行編輯、演化,最終求解出結果,典型應用:PageRank單源最短距離算法 、K-均值聚類算法等。

(4)SDK:是MaxCompute提供給開發者的工具包,當前支持Java SDKPython SDK

(5)UDF:即用戶自定義函數。MaxCompute提供了很多內建函數來滿足您的計算需求,同時您還可以通過創建自定義函數來滿足不同的計算需求。

(6)Spark:Spark on MaxCompute:Spark on MaxCompute是阿里雲開發的大數據分析引擎,為您提供大數據處理能力。詳情請參見Spark概述

(7)Machine Learning機器學習

 

參考:https://helpcdn.aliyun.com/document_detail/27800.html?spm=a2c4g.11186623.6.547.182e6322ip3piL

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM