PostgreSQL數據庫
介紹:PostgreSQL是一種運行在Unix和Linux操作系統(在NT平台借助Cygnus也可以運行)平台上的免費的開放源碼的關系數據庫。最早是由美國加州大學伯克利分校開發的,開始只是作為一個演示系統發表,但是隨着時間的推移,逐步分發,得到很多實際的應用,才逐步流行起來。
網址:https://www.postgresql.org/
特點:1.省錢,可以運行在Unix和Lunux操作系統上。
2.支持SQL。
3.有豐富的數據類型。許多數據類型是一些商業數據庫都沒有提供的。
4.面向對象,它包含了一些面向對象的技術,如繼承和類。
5.支持大數據,它不同於一般的桌面數據庫,能夠支持幾乎不受限制大小的數據庫,而且性能穩定。
描述:這個特點也是絕大多數考慮使用PostgreSQL數據庫的原因之一,當然這種場景應該是有要求的,比如一些並發不高,但涉及統計分析類業務的場景相對比較適合。
6.方便集成web,提供一些接口方便 PHP,Perl等語言操作數據庫。
7.事務處理。相對一些其他免費數據庫如MySQL,PostgreSQL提供了事務處理,可以滿足一些商業領域的數據需要。
描述:事務對數據庫來真的是太重要了。
8.PostgreSQL運行速度明顯低於MySQL。因為MySQL使用了線程,而PostgreSQL使用的是進程。在不同線程之間的環境轉換和訪問公用的存儲區域顯然要比在不同的進程之間要快得多。
9.PostgreSQL的Sql語法相對更加干凈和干練。
Greenplum數據庫
介紹:Greenplum(以下簡稱GPDB)是一款開源數據倉庫,基於開源的PostgreSQL改造而來,主要用來處理大規模數據分析任務。相比Hadoop,Greenplum更適合做大數據的存儲、計算和分析引擎。
網址:http://www.oschina.net/p/greenplum(開源社區介紹及引導頁)
特點:1.大規模並行處理架構
2.高性能加載,使用 MPP 技術,提供 Petabyte 級別數據量的加載性能(支持PB級別數據)。
描述:采取MPP架構的數據庫系統才能對海量數據進行管理。
Greenplum支持50PB(1PB=1000TB)級海量數據的存儲和處理,Greenplum將來自不同源系統的、不同部門、不同平台的數據集成到數據庫中集中存放,
並且存放詳盡歷史的數據軌跡,業務用戶不用再面對一個又一個信息孤島,也不再困惑於不同版本數據導致的偏差,同時對於IT人員也降低管理維護工作的復雜度。
3.大數據工作流查詢優化
描述:Greenplum提供資源管理功能(workload managemnt)來管理數據庫資源,利用資源隊列管理可實現按用戶組的進行資源分配,如Session同時激活數、最大資源值等。
通過資源管理功能,可以按用戶級別進行資源分配和管理用戶SQL查詢優先級別,同時也能防止低質量SQL(如沒有條件的多表join等)對系統資源的消耗。
4.線性擴展。在MPP架構中增加節點就可以線性提高系統的存儲容量和處理能力。
描述:Greenplum在擴展節點時操作簡單,在很短時間內就能完成數據的重新分布。
Greenplum線性擴展支持為數據分析系統將來的拓展給予了技術上的保障,用戶可根據實施需要進行容量和性能的擴展。
5.反應速度快。
描述:Greenplum通過准實時、實時的數據加載方式,實現數據倉庫的實時更新,進而實現動態數據倉庫(ADW)。
基於動態數據倉庫,業務用戶能對當前業務數據進行BI實時分析-“Just In Time BI”,能夠讓企業敏銳感知市場的變化,加快決策支持反應速度。
5.多態數據存儲和執行
6.基於Apache MADLib 的高級機器學習功能
應用場景:大數據量的統計分析類業務(這個也是目前統計分析業務結合考量后所出的選擇)。
GREENPLUM雖然是關系型數據庫產品,它的特點主要就是查詢速度快,數據裝載速度快,批量DML處理快。
而且性能可以隨着硬件的添加,呈線性增加,擁有非常良好的可擴展性。因此,它主要適用於面向分析的應用。比如構建企業級ODS/EDW,或者數據集市等等。
GREENPLUM運行在X86架構的硬件平台上,目前支持的操作系統包括32/64位的 LINUX(REDHAT/SUSE)/SOLARIS/MAC OS。
PostgreSQL和Greenplum的區別
GP是在開源的PostgreSQL基礎上開發的。GP不是開源的,是商業版的,PostgreSQL是開源的。
GP基於PostgreSQL開發而不是MySQL的原因請參考:https://read01.com/7JDQRP.html