轉載:用sharding技術來擴展你的數據庫(一)sharding 介紹
轉載:MySQL架構方案 - Scale Out & Scale Up.
轉載: 數據表分區策略及實現(一)
轉載:開源數據庫 Sharding 技術 (Share Nothing)
轉載:https://blog.csdn.net/kingcat666/article/details/78324678
一、Sharding
Sharding 是把數據庫橫向擴展(Scale Out)到多個物理節點上的一種有效的方式,其主要目的是為突破單節點數據庫服務器的 I/O 能力限制,解決數據庫擴展性問題。Shard這個詞的意思是“碎片”。如果將一個數據庫當作一塊大玻璃,將這塊玻璃打碎,那么每一小塊都稱為數據庫的碎片(DatabaseShard)。將整個數據庫打碎的過程就叫做sharding,可以翻譯為分片。
形式上,Sharding可以簡單定義為將大數據庫分布到多個物理節點上的一個分區方案。每一個分區包含數據庫的某一部分,稱為一個shard,分區方式可以是任意的,並不局限於傳統的水平分區和垂直分區。一個shard可以包含多個表的內容甚至可以包含多個數據庫實例中的內容。每個shard被放置在一個數據庫服務器上。一個數據庫服務器可以處理一個或多個shard的數據。系統中需要有服務器進行查詢路由轉發,負責將查詢轉發到包含該查詢所訪問數據的shard或shards節點上去執行。
二、Scale Out/Scale Up 和 垂直切分/水平拆分
Mysql的擴展方案包括Scale Out和Scale Up兩種。
Scale Out(橫向擴展)是指Application可以在水平方向上擴展。一般對數據中心的應用而言,Scale out指的是當添加更多的機器時,應用仍然可以很好的利用這些機器的資源來提升自己的效率從而達到很好的擴展性。
Scale Up(縱向擴展)是指Application可以在垂直方向上擴展。一般對單台機器而言,Scale Up值得是當某個計算節點(機器)添加更多的CPU Cores,存儲設備,使用更大的內存時,應用可以很充分的利用這些資源來提升自己的效率從而達到很好的擴展性。
MySql的Sharding策略包括垂直切分和水平切分兩種。
垂直(縱向)拆分:是指按功能模塊拆分,以解決表與表之間的io競爭。比如分為訂單庫、商品庫、用戶庫...這種方式多個數據庫之間的表結構不同。
水平(橫向)拆分:將同一個表的數據進行分塊保存到不同的數據庫中,來解決單表中數據量增長出現的壓力。這些數據庫中的表結構完全相同。
表結構設計垂直切分。常見的一些場景包括
a). 大字段的垂直切分。單獨將大字段建在另外的表中,提高基礎表的訪問性能,原則上在性能關鍵的應用中應當避免數據庫的大字段
b). 按照使用用途垂直切分。例如企業物料屬性,可以按照基本屬性、銷售屬性、采購屬性、生產制造屬性、財務會計屬性等用途垂直切分
c). 按照訪問頻率垂直切分。例如電子商務、Web 2.0系統中,如果用戶屬性設置非常多,可以將基本、使用頻繁的屬性和不常用的屬性垂直切分開
表結構設計水平切分。常見的一些場景包括
a). 比如在線電子商務網站,訂單表數據量過大,按照年度、月度水平切分
b). Web 2.0網站注冊用戶、在線活躍用戶過多,按照用戶ID范圍等方式,將相關用戶以及該用戶緊密關聯的表做水平切分
c). 例如論壇的置頂帖子,因為涉及到分頁問題,每頁都需要顯示置頂貼,這種情況可以把置頂貼水平切分開來,避免取置頂帖子時從所有帖子的表中讀取
三、分表和分區
分表從表面意思說就是把一張表分成多個小表,分區則是把一張表的數據分成N多個區塊,這些區塊可以在同一個磁盤上,也可以在不同的磁盤上。
分表和分區的區別
1,實現方式上
mysql的分表是真正的分表,一張表分成很多表后,每一個小表都是完正的一張表,都對應三個文件(MyISAM引擎:一個.MYD數據文件,.MYI索引文件,.frm表結構文件)。
2,數據處理上
分表后數據都是存放在分表里,總表只是一個外殼,存取數據發生在一個一個的分表里面。分區則不存在分表的概念,分區只不過把存放數據的文件分成了許多小塊,分區后的表還是一張表,數據處理還是由自己來完成。
3,提高性能上
分表后,單表的並發能力提高了,磁盤I/O性能也提高了。分區突破了磁盤I/O瓶頸,想提高磁盤的讀寫能力,來增加mysql性能。
在這一點上,分區和分表的測重點不同,分表重點是存取數據時,如何提高mysql並發能力上;而分區呢,如何突破磁盤的讀寫能力,從而達到提高mysql性能的目的。
4,實現的難易度上
分表的方法有很多,用merge來分表,是最簡單的一種方式。這種方式和分區難易度差不多,並且對程序代碼來說可以做到透明的。如果是用其他分表方式就比分區麻煩了。 分區實現是比較簡單的,建立分區表,跟建平常的表沒什么區別,並且對代碼端來說是透明的。
分區的適用場景
1. 一張表的查詢速度已經慢到影響使用的時候。
2. 表中的數據是分段的
3. 對數據的操作往往只涉及一部分數據,而不是所有的數據
-
CREATE TABLE sales (
-
id INT AUTO_INCREMENT,
-
amount DOUBLE NOT NULL,
-
order_day DATETIME NOT NULL,
-
PRIMARY KEY(id, order_day)
-
) ENGINE=Innodb
-
PARTITION BY RANGE(YEAR(order_day)) (
-
PARTITION p_2010 VALUES LESS THAN (2010),
-
PARTITION p_2011 VALUES LESS THAN (2011),
-
PARTITION p_2012 VALUES LESS THAN (2012),
-
PARTITION p_catchall VALUES LESS THAN MAXVALUE);
分表的適用場景
1. 一張表的查詢速度已經慢到影響使用的時候。
2. 當頻繁插入或者聯合查詢時,速度變慢。
分表的實現需要業務結合實現和遷移,較為復雜。
四、分表和分庫
分表能夠解決單表數據量過大帶來的查詢效率下降的問題,但是,卻無法給數據庫的並發處理能力帶來質的提升。面對高並發的讀寫訪問,當數據庫master服務器無法承載寫操作壓力時,不管如何擴展slave服務器,此時都沒有意義了。因此,我們必須換一種思路,對數據庫進行拆分,從而提高數據庫寫入能力,這就是所謂的分庫。
與分表策略相似,分庫可以采用通過一個關鍵字取模的方式,來對數據訪問進行路由,如下圖所示

五、分庫分表存在的問題
1 事務問題。
在執行分庫分表之后,由於數據存儲到了不同的庫上,數據庫事務管理出現了困難。如果依賴數據庫本身的分布式事務管理功能去執行事務,將付出高昂的性能代價;如果由應用程序去協助控制,形成程序邏輯上的事務,又會造成編程方面的負擔。
2 跨庫跨表的join問題。
在執行了分庫分表之后,難以避免會將原本邏輯關聯性很強的數據划分到不同的表、不同的庫上,這時,表的關聯操作將受到限制,我們無法join位於不同分庫的表,也無法join分表粒度不同的表,結果原本一次查詢能夠完成的業務,可能需要多次查詢才能完成。
3 額外的數據管理負擔和數據運算壓力。
額外的數據管理負擔,最顯而易見的就是數據的定位問題和數據的增刪改查的重復執行問題,這些都可以通過應用程序解決,但必然引起額外的邏輯運算,例如,對於一個記錄用戶成績的用戶數據表userTable,業務要求查出成績最好的100位,在進行分表之前,只需一個order by語句就可以搞定,但是在進行分表之后,將需要n個order by語句,分別查出每一個分表的前100名用戶數據,然后再對這些數據進行合並計算,才能得出結果。
解決方案
1. 使用類似JTA提供的分布式事物機制
六、分片(Sharding)和分區(Partition)
sharding和partition的區別:

