Greenplum是一種基於postgresql的分布式數據庫。其采用shared nothing架構(MPP),主機,操作系統,內存,存儲都是自我控制的,不存在共享。也就是每個節點都是一個單獨的數據庫。節點之間的信息交互是通過 節點互聯網絡實現。通過將數據分布到多個節點上來實現規模數據的存儲,通過並行查詢處理來提高查詢性能。
這個怎么感覺就像是把小數據庫組織起來,聯合成一個大型數據庫。將數據分片,存儲在每個節點上。每個節點僅查詢自己的數據。所得到的結果再經過主節點處理得到最終結果。通過增加節點數目達到系統線性擴展。
總結—新型MPP數據庫的價值
技術:基於列存儲+MPP架構的新型數據庫在核心技術上跟傳統數據庫有巨大差別,是為面向結構化數據分析設計開發的,能夠有效處理PB級別的數據量。在技術上為很多行業用戶解決了數據處理性能問題。
用戶價值:新型數據庫是運行在x-86 PC服務器之上的,可以大大降低數據處理的成本(1個數量級)。
未來趨勢:新型數據庫將逐步與Hadoop生態系統結合混搭使用,用MPP處理PB級別的、高質量的結構化數據,同時為應用提供豐富的SQL和事務支持能力;用Hadoop實現半結構化、非結構化數據處理。這樣可同時滿足結構化、半結構化和非結構化數據的處理需求。
"大數據"關注的更多是用戶行為、群體趨勢、事件之間的相關性等,而不僅僅是過去的KPI,。這就對數據分析平台對數據的分析能力和性能提出了新的要求和挑戰。
MPP (Massively Parallel Processing),大規模並行處理系統,這樣的系統是由許多松耦合的處理單元組成的,要注意的是這里指的是處理單元而不是處理器。每個單元內的 CPU都有自己私有的資源,如總線,內存,硬盤等。在每個單元內都有操作系統和管理數據庫的實例復本。這種結構最大的特點在於不共享資源。
MPP架構數據庫應具有的特征:
● 任務並行執行;
● 數據分布式存儲(本地化);
● 分布式計算;
● 私有資源;
● 橫向擴展;
● Shared Nothing架構。
整理自網絡