Cassandra架構、設計（集群&表）和性能報告

本文轉載自查看原文 2019-08-06 15:01 538 Cassandra

系統架構：

Ｃａｓｓａｎｄｒａ是一套開源分布式Ｎｏ－ＳＱＬ數據庫系統，基於一致性哈希算法的Ｐ２Ｐ環形結構。這種結構各節點功能完全相同，可靈活添加節點來完成系統的擴充或刪除節點，且無需大規模轉移數據，同時徹底避免系統因單點故障

導致的不穩定性；每個節點通過Ｇｏｓｓｉｐ機制進行消息同步；每個數據項都會被復制到Ｎ個節點（Ｎ是通過參數配置的副本因子），系統利用數據

的復制機將存儲在各節點上的數據復制到其他節點上，實現了數據的高度可獲得性與安全性。

數據模型：

Ｃａｓｓａｎｄｒａ使用寬列存儲模型，每行數據記錄是以Ｋｅｙ－Ｖａｌｕｅ形式進行存儲，其中Ｋｅｙ為唯一標識。每個Ｋｅｙ－Ｖａｌｕｅ其中的Ｖａｌｕｅ也稱為Ｃｏｌｕｍｎ，作為一個三元組，包含有

ＣｏｌｕｍｎＮａｍｅ、Ｃｏｌｕｍｎ　Ｖａｌｕｅ與ｔｉｍｅｓｔａｍｐ；每個ＣＦ由一個Ｋｅｙ及其對應的若干個Ｃｏｌｕｍｎ標識組成。一個

ｋｅｙｓｐａｃｅ包含若干個ＣＦ，類似關系型數據庫中一個

ｄａｔａｂａｓｅ可有多個ｔａｂｌｅ。

下圖為一個Ｃｏｌｕｍｎ型數據模型。

CPA理論：

ＮｏＳＱＬ典型遵循由Ｅｒｉｃ　Ｂｒｅｗｅｒ提出的ＣＡＰ理論，依據此理論，在一個大規模的分布式數據系統中，有三個需求是彼此循環依賴的，一致性（ｃｏｎｓｉｓｔｅｎｃｙ）、可用性（ａｖａｉｌａｂｉｌｉｔｙ）、分區耐受性（ｐａｒｔｉｔｉｏｎ　ｔｏｌｅｒａｎｃｅ）。

一致性：對所有數據庫客戶端使用同樣查詢都可得到相同的數據；

可用性：所有數據庫客戶端都可讀寫數據；

分區耐受性：數據庫分散到多個服務器上，即使發生網絡故障，仍可提供服務。

ＣＡＰ理論可簡單描述為：

一個分布式系統不能同時滿足以上三個特性，最多只能同時滿足兩個。

Ｃａｓｓａｎｄｒａ主要支持可用性和分區耐受性。

在Ｃａｓｓａｎｄｒａ中，數據具備最終一致性，集群整體的完全

可用性。

存儲機制

Ｃａｓｓａｎｄｒａ依賴本地的文件系統通過內存與磁盤的雙重存儲機制來保證數據的持久性。

Ｃａｓｓａｎｄｒａ有三個重要的數據結構，記錄於內存

的Ｍｅｍｔａｂｌｅ，保存在磁盤中的Ｃｏｍｍｉｔ　Ｌｏｇ和

ＳＳＴａｂｌｅ。

Ｍｅｍｔａｂｌｅ記錄最近的修改，而ＳＳＴａｂｌｅ記錄着數據庫所承載的絕大部分數據。通常情況下，一個Ｃａｓｓａｎｄｒａ表會對應着一個

Ｍｅｍｔａｂｌｅ和多個ＳＳＴａｂｌｅ。

Ｃａｓｓａｎｄｒａ接收到客戶端發送來的數據，首先將寫操作記錄到位於磁

盤的ＣｏｍｍｉｔＬｏｇ中；上述操作成功后，更新位於內存中的Ｍｅｍｔａｂｌｅ數據結構。持續的寫入數據，使得Ｍｅｍｔａｂｌｅ逐漸增長，當其數據量到達某個閾值時，Ｃａｓｓａｎｄｒａ的數據遷移被觸發，一方面將

Ｍｅｍｔａｂｌｅ刷寫到本地磁盤上成為永久的ＳＳＴａｂｌｅ，另一方面將ＣｏｍｍｉｔＬｏｇ中的寫入記錄移除。對於讀操作，客戶端先查詢

Ｍｅｍｔａｂｌｅ中的數據，若無法獲取所需信息，則檢索本地磁盤。

Ｃａｓｓａｎｄｒａ會定期執行壓緊ｃｏｍｐａｃｔ操作，將同一條數據不同的版本進行合並，過時數據也會在此過程中被刪除；分層數據壓縮，有效減少數據體積

及磁盤Ｉ／Ｏ。

系統設置（集群）

針對實時氣象數據存儲系統，用戶對該系統讀取的性能需求遠遠高於寫入數據。通過對副本數進行合理設置，可分散讀取壓力。對於５節點集群，將副本數設置為３；

Ｒｏｗ分區模式：

采用自動分區方式，使不同的Ｒｏｗ　Ｋｅｙ均勻分布在各節點上，有利於數據讀取壓力的分散。

Ｃａｓｓａｎｄｒａ表設計

作為典型的非結構化數據，氣象數據可以由多維索引來確定一個唯一的數據。

業務用戶常見的操作包括“最新數據”“左右翻頁”“上下翻頁”等。

數據表

根據不同數據類型建立相應數據表，用於存儲數據內容，包括：

ＥＣＭＷＦＨＲ（高分辨率數值預報產品）、

ＳＡＴＥＬＬＩＴＥ（衛星資料）、

ＵＰＰＥＲＡＩＲ（高空站點資料）、

ＳＩＮＧＬＥＲＡＤＡＲ（雷達資料）等。

以“ Ｔ６３９ ”為例說明數據表結構（表１）。

建表語句：ＣＲＥＡＴＥ　ＴＡＢＬＥ "Ｔ６３９ "

（ "ｄａｔａＰａｔｈ " ｔｅｘｔ，ｃｏｌｕｍｎ１ｔｅｘｔ，

ｖａｌｕｅ　ｂｌｏｂ，ＰＲＩＭＡＲＹ　ＫＥＹ（" ｄａｔａＰａｔｈ " ，

ｃｏｌｕｍｎ１））；

層次表

用於存儲所有模式或實況的層次信息，表名為ｌｅｖｅｌ；用戶在客戶端進行上下翻頁操作，從ｌｅｖｅｌ表中獲取當前層次的上一層或下一層信息；利用層次表與數據表，可檢索到不同層次的數據（表２）。

建表語句：ＣＲＥＡＴＥ　ＴＡＢＬＥ　ｌｅｖｅｌ（

"ｄａｔａＰａｔｈ " ｔｅｘｔ，ｃｏｌｕｍｎ１ｉｎｔ，ｖａｌｕｅ　ｉｎｔ，ＰＲＩＭＡＲＹＫＥＹ（" ｄａｔａＰａｔｈ " ，ｃｏｌｕｍｎ１））；

最新時刻表

用於存儲各類數據的最新時刻信息，表名為ｌａｔｅｓｔｄａｔａｔｉｍｅ。利用最新時刻表，用戶能通過客戶端快速查找到最新數據文件名。用戶根據完整索引（文件路徑與最新數據文件名），例：Ｔ６３９／ＷＩＮＤ／５００／１７０３０１０８．０００，即可在“數據表”中獲取到對應數據（表３）。

建表語句：ＣＲＥＡＴＥ　ＴＡＢＬＥ　ｌａｔｅｓｔｄａｔａｔｉｍｅ

（ " ｄａｔａＰａｔｈ " ｔｅｘｔ，ｃｏｌｕｍｎ１ｔｅｘｔ，ｖａｌｕｅ　ｔｅｘｔ，ＰＲＩＭＡＲＹ　ＫＥＹ（" ｄａｔａＰａｔｈ " ，ｃｏｌｕｍｎ１））；

存儲系統性能測試

測試環境

選用５台相同配置的服務器用來搭建分布式存儲系統。服務器操作系統為Ｒｅｄ　Ｈａｔ　Ｅｎｔｅｒ－ｐｒｉｓｅ　Ｌｉｎｕｘ　Ｓｅｒｖｅｒ　ｒｅｌｅａｓｅ　７．１，處理器參數為Ｉｎｔｅｌ（Ｒ）Ｘｅｏｎ（Ｒ）ＣＰＵ　Ｅ５－２６２０ｖ２＠２．１０ＧＨｚ，主頻為２．１ＧＨｚ；內存大小為２５６ＧＢ；６塊４ＴＢ　ＳＡＴＡ硬盤；服務器間通過萬兆光纖連接。Ｃａｓｓａｎｄｒａ數據庫版本為２．２．５。

高可用性測試

由５個節點所組成分布式存儲系統，其結構上具有如下特點。

（１）服務器雙網卡綁定，即將兩個物理網卡虛擬成一個邏輯網卡；提升服務器之間的傳輸帶寬，實現網卡冗余。

（２）用於集群內部數據交換的兩台萬兆光纖交換機，采取級聯方式，可互為備份。

（３）６塊ＳＡＴＡ硬盤，其中２塊做ＲＡＩＤ１，安裝操作系統及軟件；另外４塊４ＴＢ用作兩個ＲＡＩＤ０，用於存儲數據。

（４）服務器集群為環形結構，沒有ｍａｓｔｅｒ節點，各節點功能完全一樣。

按照表４中內容，對系統的基礎設施層（包括網絡設備、存儲設備等）、軟件層（數據庫）進行測試，來驗證系統的高可用性；從表中結論可知，系統中用於內部數據交換的光纖或網卡、交換機及任一Ｃａｓｓａｎｄｒａ服務器故障，均不影響ＭＩＣＡＰＳ４客戶端調取數據。

讀取性能測試

通過讀取數據的腳本文件（可獲取數據字節數信息，表５中ＥＣＭＷＦ＿ＨＲ／ＴＭＰ／１００目錄下數據字節數為１３２６４２字節，ＳＡＴＥＬＬＩＴＥ／

ＦＹ２Ｅ／Ｌ１／ＩＲ３／ＥＱＵＡＬ下數據字節數為５５４９４４字節，

Ｔ６３９／ＷＩＮＤ／１００下數據字節數為１４４９０５２字節），模擬單用戶及５０用戶、１００用戶客戶端對同一類型數據進行讀取，共分３組，即對三種不同類型的數據進行測試，測試性能見表５，注意測試結果包含網絡傳輸時間。

從數據讀取的測試結果可以看出：

（１）５０用戶並發和１００用戶並發客戶端同時對同一類型數據進行讀取的時間與單用戶讀取時間相當。以Ｔ６３９／ＷＩＮＤ／１００為例，５０用戶並發和１００用戶並發與單用戶讀取相關數據所花費的平均時間均在２０ｍｓ左右。

（２）在１００用戶並發情況下，從數據庫中調取數據所消耗的時間均以ｍｓ量級為單位（包含網絡傳輸時間），時間遠遠小於在ｓａｍｂａ服務器上讀取數據的時間。

（３）數據讀取時間和單個數據的字節數近似成正比，即單個數據文件字節數越大，讀取數據所花費的時間則越長。

結語

利用Ｃａｓｓａｎｄｒａ分布式數據庫搭建的存儲環境，提高了實時氣象數據存儲效率與檢索速度，通過統一的數據平台，實現了運維人員對該系統“零”維護。通過在實際業務環境中進行測試，驗證了該分布式數據環境的高可用性；以毫秒級為單位的數據讀取時間，能很好地滿足業務對數據時效性的需求。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 高性能網站架構設計之緩存篇（5）- Redis 集群（上）高性能網站架構設計之緩存篇（6）- Redis 集群（中） cassandra集群環境搭建基於docker創建Cassandra集群 [譯]Cassandra 架構簡述 docker cassandra集群搭建 CASSANDRA集群部署心得 Cassandra修改集群名稱 Cassandra集群搭建 Cassandra讀寫性能測試