mysql大數據解決方案--分表分庫（0）

本文轉載自查看原文 2019-05-31 19:08 461 Mysql

引言

對於一個大型的互聯網應用，海量數據的存儲和訪問成為了系統設計的瓶頸問題，對於系統的穩定性和擴展性造成了極大的問題。通過數據切分來提高網站性能，橫向擴展數據層已經成為架構研發人員首選的方式。

•水平切分數據庫：可以降低單台機器的負載，同時最大限度的降低了宕機造成的損失；

•負載均衡策略：可以降低單台機器的訪問負載，降低宕機的可能性；

•集群方案：解決了數據庫宕機帶來的單點數據庫不能訪問的問題；

•讀寫分離策略：最大限度了提高了應用中讀取數據的速度和並發量；

問題描述

1、單個表數據量越大，讀寫鎖，插入操作重新建立索引效率越低。

2、單個庫數據量太大（一個數據庫數據量到1T-2T就是極限）

3、單個數據庫服務器壓力過大

4、讀寫速度遇到瓶頸（並發量幾百）

解決問題的思路：根據自己的實際情況，當單表過大的時候進行分表，數據庫過大的時候進行分庫，高並發的情況考慮讀寫分離和集群。

數據拆分的方式有：分區、分表、分庫

•分區

•就是把一張表的數據分成N個區塊，在邏輯上看最終只是一張表，但底層是由N個物理區塊組成的

•分表

•就是把一張表按一定的規則分解成N個具有獨立存儲空間的實體表。系統讀寫時需要根據定義好的規則得到對應的字表明，然后操作它。

•分庫

一旦分表，一個庫中的表會越來越多

將整個數據庫比作圖書館，一張表就是一本書。當要在一本書中查找某項內容時，如果不分章節，查找的效率將會下降。而同理，在數據庫中就是分區。

分區

什么時候考慮使用分區？

•一張表的查詢速度已經慢到影響使用的時候。

•sql經過優化

•數據量大

•表中的數據是分段的

•對數據的操作往往只涉及一部分數據，而不是所有的數據

分區解決的問題

•主要可以提升查詢效率

分表

什么時候考慮分表？

•一張表的查詢速度已經慢到影響使用的時候。

•sql經過優化

•數據量大

•當頻繁插入或者聯合查詢時，速度變慢

分表解決的問題

•分表后，單表的並發能力提高了，磁盤I/O性能也提高了，寫操作效率提高了

•查詢一次的時間短了

•數據分布在不同的文件，磁盤I/O性能提高

•讀寫鎖影響的數據量變小

•插入數據庫需要重新建立索引的數據減少

分區和分表的區別與聯系

•分區和分表的目的都是減少數據庫的負擔，提高表的增刪改查效率。

•分區只是一張表中的數據的存儲位置發生改變，分表是將一張表分成多張表。

•當訪問量大，且表數據比較大時，兩種方式可以互相配合使用。

•當訪問量不大，但表數據比較多時，可以只進行分區。

常見分區分表的規則策略（類似）

•Range（范圍）

•Hash（哈希）

•按照時間拆分

•Hash之后按照分表個數取模

•在認證庫中保存數據庫配置，就是建立一個DB，這個DB單獨保存user_id到DB的映射關系

分庫

什么時候考慮使用分庫？

•單台DB的存儲空間不夠

•隨着查詢量的增加單台數據庫服務器已經沒辦法支撐

分庫解決的問題

•其主要目的是為突破單節點數據庫服務器的 I/O 能力限制，解決數據庫擴展性問題。

垂直拆分

•將系統中不存在關聯關系或者需要join的表可以放在不同的數據庫不同的服務器中。

•按照業務垂直划分。比如：可以按照業務分為資金、會員、訂單三個數據庫。

•需要解決的問題：跨數據庫的事務、jion查詢等問題。

水平拆分

•例如，大部分的站點。數據都是和用戶有關，那么可以根據用戶，將數據按照用戶水平拆分。

•按照規則划分，一般水平分庫是在垂直分庫之后的。比如每天處理的訂單數量是海量的，可以按照一定的規則水平划分。需要解決的問題：數據路由、組裝。

讀寫分離

•對於時效性不高的數據，可以通過讀寫分離緩解數據庫壓力。需要解決的問題：在業務上區分哪些業務上是允許一定時間延遲的，以及數據同步問題。

思路：

垂直分庫-->水平分庫-->讀寫分離

數據拆分以后面臨的問題

問題

•事務的支持，分庫分表，就變成了分布式事務、

分庫分表后，就成了分布式事務了。如果依賴數據庫本身的分布式事務管理功能去執行事務，將付出高昂的性能代價；如果由應用程序去協助控制，形成程序邏輯上的事務，又會造成編程方面的負擔。

•join時跨庫，跨表的問題

•分庫分表，讀寫分離使用了分布式，分布式為了保證強一致性，必然帶來延遲，導致性能降低，系統的復雜度變高。

分庫分表后表之間的關聯操作將受到限制，我們無法join位於不同分庫的表，也無法join分表粒度不同的表，結果原本一次查詢能夠完成的業務，可能需要多次查詢才能完成。粗略的解決方法：全局表：基礎數據，所有庫都拷貝一份。字段冗余：這樣有些字段就不用join去查詢了。系統層組裝：分別查詢出所有，然后組裝起來，較復雜。

常用的解決方案：

•對於不同的方式之間沒有嚴格的界限，特點不同，側重點不同。需要根據實際情況，結合每種方式的特點來進行處理。

•選用第三方的數據庫中間件（Atlas，Mycat，TDDL，DRDS），同時業務系統需要配合數據存儲的升級。

數據存儲的演進

單庫單表

•單庫單表是最常見的數據庫設計，例如，有一張用戶(user)表放在數據庫db中，所有的用戶都可以在db庫中的user表中查到。

單庫多表

•隨着用戶數量的增加，user表的數據量會越來越大，當數據量達到一定程度的時候對user表的查詢會漸漸的變慢，從而影響整個DB的性能。如果使用mysql, 還有一個更嚴重的問題是，當需要添加一列的時候，mysql會鎖表，期間所有的讀寫操作只能等待。

•可以通過某種方式將user進行水平的切分，產生兩個表結構完全一樣的user_0000,user_0001等表，user_0000 + user_0001 + …的數據剛好是一份完整的數據。

多庫多表

隨着數據量增加也許單台DB的存儲空間不夠，隨着查詢量的增加單台數據庫服務器已經沒辦法支撐。這個時候可以再對數據庫進行水平拆分。

總結

總的來說，優先考慮分區。當分區不能滿足需求時，開始考慮分表，合理的分表對效率的提升會優於分區。

垂直分庫-->水平分庫-->讀寫分離

實操

1、單庫多表

單庫多表是對數據的水平拆分，多張表的表結構完全相同，數據按照不同的規則進行拆分，存儲到對於的數據表中。

單庫多表-1

這是我安裝數據的年份進行拆分的數據表，數據存儲的時候根據數據的年份存到對於的表中，我們的查詢業務也都是按照年份進行，一般沒有跨年份的數據查詢，這樣就避免了多表查詢后數據的合並。

2、多庫單表

完全相同的數據庫，安裝不同規則存儲各自的數據，下面是我的spring boot多數據源配置：

#更多數據源

custom.datasource.names=jiangsu,anhui,shandong,hubei,hunan,fujian

custom.datasource.jiangsu.type=com.zaxxer.hikari.HikariDataSource

custom.datasource.jiangsu.driverClassName=com.mysql.jdbc.Driver

custom.datasource.jiangsu.url=jdbc:mysql://127.0.0.1:3306/nda_jiangsu?useUnicode=yes&characterEncoding=UTF-8

custom.datasource.jiangsu.username=root

custom.datasource.jiangsu.password=

custom.datasource.anhui.type=com.zaxxer.hikari.HikariDataSource

custom.datasource.anhui.driverClassName=com.mysql.jdbc.Driver

custom.datasource.anhui.url=jdbc:mysql://127.0.0.1:3306/nda_anhui?useUnicode=yes&characterEncoding=UTF-8

custom.datasource.anhui.username=root

custom.datasource.anhui.password=

custom.datasource.shandong.type=com.zaxxer.hikari.HikariDataSource

custom.datasource.shandong.driverClassName=com.mysql.jdbc.Driver

custom.datasource.shandong.url=jdbc:mysql://127.0.0.1:3306/nda_shandong?useUnicode=yes&characterEncoding=UTF-8

custom.datasource.shandong.username=root

custom.datasource.shandong.password=

custom.datasource.hubei.type=com.zaxxer.hikari.HikariDataSource

custom.datasource.hubei.driverClassName=com.mysql.jdbc.Driver

custom.datasource.hubei.url=jdbc:mysql://127.0.0.1:3306/nda_hubei?useUnicode=yes&characterEncoding=UTF-8

custom.datasource.hubei.username=root

custom.datasource.hubei.password=

custom.datasource.hunan.type=com.zaxxer.hikari.HikariDataSource

custom.datasource.hunan.driverClassName=com.mysql.jdbc.Driver

custom.datasource.hunan.url=jdbc:mysql://127.0.0.1:3306/nda_hunan?useUnicode=yes&characterEncoding=UTF-8

custom.datasource.hunan.username=root

custom.datasource.hunan.password=

custom.datasource.fujian.type=com.zaxxer.hikari.HikariDataSource

custom.datasource.fujian.driverClassName=com.mysql.jdbc.Driver

custom.datasource.fujian.url=jdbc:mysql://127.0.0.1:3306/nda_fujian?useUnicode=yes&characterEncoding=UTF-8

custom.datasource.fujian.username=root

custom.datasource.fujian.password=

這是按照省進行數據拆分，保證各個省的數據完整性

在相關業務操作的時候，根據用戶所在的省份查詢對應的數據庫：

DynamicDataSourceContextHolder.setDataSourceType(provincename);

3、多庫多表

在介紹多庫多表的時候，給大家介紹一個輕量級分庫分表工具，sharding-jdbc，這是當當網自己實現的基本JDBC的數據庫多庫多表解決方案。可以讓你在寫業務代碼的時候完全按照單庫單表進行，多庫多表的問題有sharding-jdbc幫你解決，需要自己實現分庫分表規則接口，配置分庫分表規則。

pom.xml配置

實現分庫規則接口

public class DemoDatabaseShardingAlgorithm implements PreciseShardingAlgorithm{ @Override

public String doSharding(Collectioncollection, PreciseShardingValue preciseShardingValue) {

for (String each : collection) {

System.out.println(each+"=="+preciseShardingValue.getValue());

if (each.endsWith(Long.parseLong(preciseShardingValue.getValue().toString()) % 2+"")) {

return each;

}

}

throw new IllegalArgumentException();

}

}

實現分表規則接口

public class DemoTableShardingAlgorithm implements PreciseShardingAlgorithm{

@Override

public String doSharding(Collectioncollection, PreciseShardingValue preciseShardingValue) {

for (String each : collection) {

System.out.println(each+"=2="+preciseShardingValue.getValue());

if (each.endsWith(Long.parseLong(preciseShardingValue.getValue().toString()) % 2+"")) {

return each;

}

}

throw new IllegalArgumentException();

}

}

調用規則

@Bean(name = "shardingDataSource")

DataSource getShardingDataSource() throws SQLException {

ShardingRuleConfiguration shardingRuleConfig;

shardingRuleConfig = new ShardingRuleConfiguration();

shardingRuleConfig.getTableRuleConfigs().add(getUserTableRuleConfiguration());

shardingRuleConfig.getBindingTableGroups().add("user_info");

shardingRuleConfig.setDefaultDatabaseShardingStrategyConfig(new StandardShardingStrategyConfiguration("user_id", DemoDatabaseShardingAlgorithm.class.getName()));

shardingRuleConfig.setDefaultTableShardingStrategyConfig(new StandardShardingStrategyConfiguration("user_id", DemoTableShardingAlgorithm.class.getName()));

return new ShardingDataSource(shardingRuleConfig.build(createDataSourceMap()));

}

這樣完成以后，業務代碼就可以完全按照單表就行書寫，Sharding-JDBC會自動幫你實現分庫分表的數據庫插入，以及查詢時候的多表數據合並。

Sharding-JDBC 采用在 JDBC 協議層擴展分庫分表，是一個以 jar 形式提供服務的輕量級組件，其核心思路是小而美地完成最核心的事情。

Sharding-JDBC 還提供了讀寫分離的能力，用於減輕寫庫的壓力。

此外，Sharding-JDBC 可以用在 JPA 場景中，如 JPA、Hibernate、Mybatis，Spring JDBC Template 等任何 Java 的 ORM 框架。

不過目前Sharding-JDBC僅支持mysql數據庫

然后還有一個第三方插件mycat也可以實現分庫分表的數據插入和查詢，不過mycat是基於 Proxy，它復寫了 MySQL 協議，將 Mycat Server 偽裝成一個 MySQL 數據庫，而 Sharding-JDBC 是基於 JDBC 接口的擴展，是以 jar 包的形式提供輕量級服務的。

在使用中將mycat查詢啟動，它自己就成為了一個虛擬數據庫，而業務程序是連接的mycat的虛擬數據庫的，然后mycat連接實際數據庫實現數據的分庫分表。

分庫分表方案產品介紹
目前市面上的分庫分表中間件相對較多，其中基於代理方式的有MySQL Proxy和Amoeba，基於Hibernate框架的是Hibernate Shards，基於jdbc的有當當sharding-jdbc，基於mybatis的類似maven插件式的有蘑菇街的蘑菇街TSharding，通過重寫spring的ibatis template類的Cobar Client。

還有一些大公司的開源產品：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 mysql大數據分庫和分表 php解決方案 CRL快速開發框架系列教程十一(大數據分庫分表解決方案) 訂單表的分庫分表方案設計(大數據) 訂單表的分庫分表方案設計(大數據) 數據庫分庫分表事務解決方案分庫分表的解決方案重磅來襲,使用CRL實現大數據分庫分表方案【解決方案】mysql大數據刪除醫療大數據解決方案 Mysql分庫分表方案