【大數據之數據倉庫】HAWQ versus GreenPlum


談到GreenPlum,肯定會有同事說HAWQ!是的,在本系列第一篇選型流水記里,也有提到。因為對HAWQ接觸有限,沒有深入具體了解,所以很多信息都是來自於博文,人雲亦雲,我把看過的資料簡要整理,希望對感興趣的同事有一些幫助^_^

  1. HAWQ的身世:https://www.pivotalguru.com/?p=1176,目前已經開源:http://hawq.incubator.apache.org/
  2. HAWQ和GreenPlum的比較:https://www.pivotalguru.com/?p=719,可以簡要歸納為:GreenPlum是存儲和計算合體的,標准的RDBMS系統;而HAWQ是存儲與計算分離的,它的存儲放在HDFS上,它的計算你可以理解成是被閹割了存儲模塊的“GreenPlum”,當然,它對Hadoop生態圈的結合度更高,支持對接各種組件:Hive/Hbase/avro等等。這里補充一點:存儲和計算分離有啥好處?或者解決了什么問題。大數據領域,影響數據分析的瓶頸就兩塊:一塊是數據掃描(磁盤IO),另一塊是數據計算(CPU+MEM)。想象一下,如果我們發現讀數據非常耗時(磁盤IO瓶頸),那么可以增加磁盤通過增加IO帶寬來解決問題,而如果發現計算耗時特別長,比如CPU一直100%或者MEM已經耗盡,那么可以增加計算資源(比如添加無窮無盡的雲主機)來解決。反過來,如果存儲和計算合體,那么意味着資源的有效利用率會很低,所以分離是趨勢。
  3. 我們怎么來定位HAWQ和GreenPlum或者怎么來選擇使用呢?答案是手拉手一起使用:https://www.pivotalguru.com/?p=642請注意博文底下的一幅圖;另外,在http://dbaplus.cn/news-21-341-1.html一文中也有提到使用MPP+HDFS的組合架構,來構建基礎數據倉庫,滿足不同業務需求;
  4. HAWQ當前發布版本暫不支持數據更新和刪除操作,不過3.0.0.0版本將會支持:https://issues.apache.org/jira/browse/HAWQ-304
  5. HAWQ性能指標怎么樣?這里有篇Pivotal自測的博文https://content.pivotal.io/blog/pivotal-hawq-benchmark-demonstrates-up-to-21x-faster-performance-on-hadoop-queries-than-sql-like-solutions,號稱壓倒impala,不過針對本篇博文的題目,我支持GreenPlum!
  6. 有公司基於HAWQ提供商業服務:http://www.hashdata.cn;也有公司基於GreenPlum提供商業服務:http://vitessedata.com/deepgreen-db
大家如果還有其他想要了解的,記得留言哦,回頭抽空補上:)

本文來自網易雲社區,經作者何李夫授權發布。

原文地址:【大數據之數據倉庫】HAWQ versus GreenPlum

更多網易研發、產品、運營經驗分享請訪問網易雲社區。 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM