ClickHouse| 02 副本| 集群讀寫操作

本文轉載自查看原文 2021-01-18 10:54 1068 OLAP

1. 副本

副本的目的主要是保障數據的高可用性，即使一台ClickHouse節點宕機，那么也可以從其他服務器獲得相同的數據。

1.1 副本寫入流程

client從clickhouse-a節點寫數據，提交寫入日志給zookeeper，clickhouse-b有一個監聽器來監聽zookeeper接收到日志之后從clickhouse-a中下載數據。

1.2 副本的配置步驟

①

啟動zookeeper集群（hadoop102、 hadoop103、 hadoop104 三台機器）
在hadoop102的/etc/clickhouse-server/config.d目錄下創建一個名為metrika.xml的配置文件,內容如下：

<?xml version="1.0"?> <yandex> <zookeeper-servers> <node index="1"> <host>hadoop102</host> <port>2181</port> </node> <node index="2"> <host>hadoop103</host> <port>2181</port> </node> <node index="3"> <host>hadoop104</host> <port>2181</port> </node> </zookeeper-servers> </yandex>

② 在 hadoop02的/etc/clickhouse-server/config.xml中增加

　　<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>

③ 將metrika.xml和 config.xml 同步到hadoop103和hadoop104上

scp /etc/clickhouse-server/config.d/metrika.xml root@hadoop103:/etc/clickhouse-server/config.d/metrika.xml
scp /etc/clickhouse-server/config.d/metrika.xml root@hadoop104:/etc/clickhouse-server/config.d/metrika.xml
scp /etc/clickhouse-server/config.xml root@hadoop103:/etc/clickhouse-server/config.xml
scp /etc/clickhouse-server/config.xml root@hadoop104:/etc/clickhouse-server/config.xml

④ 分別在hadoop102、hadoop103 和hadoop104上啟動ClickHouse服務

注意：因為修改了配置文件，如果以前啟動了服務需要重啟

[kris@hadoop102 clickhouse]$ sudo systemctl start clickhouse-server [kris@hadoop102 clickhouse]$ ps -ef | grep clickhouse clickho+ 15120 1 2 16:55 ? 00:00:02 /usr/bin/clickhouse-server --config=/etc/clickhouse-server/config.xml --pid-file=/run/clickhouse-server/clickhouse-server.pid kris 15213 4745 0 16:56 pts/2 00:00:00 grep --color=auto clickhouse

副本只能同步數據，不能同步表結構，所以我們需要在每台機器上自己手動建表

###在hadoop102上創建如下表 create table t_order_rep ( id UInt32, sku_id String, total_amount Decimal(16,2), create_time Datetime ) engine =ReplicatedMergeTree('/clickhouse/tables/01/t_order_rep','rep_102') partition by toYYYYMMDD(create_time) primary key (id) order by (id,sku_id); ##在hadoop103上創建如下表 create table t_order_rep ( id UInt32, sku_id String, total_amount Decimal(16,2), create_time Datetime ) engine =ReplicatedMergeTree('/clickhouse/tables/01/t_order_rep','rep_103') partition by toYYYYMMDD(create_time) primary key (id) order by (id,sku_id); #在hadoop104上創建如下表 create table t_order_rep ( id UInt32, sku_id String, total_amount Decimal(16,2), create_time Datetime ) engine =ReplicatedMergeTree('/clickhouse/tables/01/t_order_rep','rep_104') partition by toYYYYMMDD(create_time) primary key (id) order by (id,sku_id); 參數解釋 ReplicatedMergeTree 中， 　　第一個參數是分片的zk_path一般按照： /clickhouse/table/{shard}/{table_name} 的格式寫，如果只有一個分片就寫01即可。 　　第二個參數是副本名稱，相同的分片副本名稱不能相同。 在hadoop102上執行insert語句 insert into t_order_rep values (101,'sku_001',1000.00,'2020-06-01 12:00:00'), (102,'sku_002',2000.00,'2020-06-01 12:00:00'), (103,'sku_004',2500.00,'2020-06-01 12:00:00'), (104,'sku_002',2000.00,'2020-06-01 12:00:00'), (105,'sku_003',600.00,'2020-06-02 12:00:00');

測試：

hadoop102 :) select * from t_order_rep; hadoop103 :) select * from t_order_rep; hadoop104 :) select * from t_order_rep; 都可以看到數據，查詢出結果，說明配置成功

2. 分片集群

副本雖然能夠提高數據的可用性，降低丟失風險，但是每台服務器實際上必須容納全量數據，對數據的橫向擴容沒有解決。

要解決數據水平切分的問題，需要引入分片的概念。通過分片把一份完整的數據進行切分，不同的分片分布到不同的節點上，再通過Distributed表引擎把數據拼接起來一同使用。

Distributed表引擎本身不存儲數據，有點類似於MyCat之於MySql，成為一種中間件，通過分布式邏輯表來寫入、分發、路由來操作多台節點不同分片的分布式數據。

注意：ClickHouse的集群是表級別的，實際企業中，大部分做了高可用，但是沒有用分片，避免降低查詢性能以及操作集群的復雜性。

2.1 集群寫入流程（3分片2副本共6個節點）

s1、 s2、 s3是三個分片，相當於是把表中的數據拆分成三份做三個分片；為了保證高可用性，每一個分片都對應一個副本；

s1分片的兩個副本r1、 r2...；distribute hdp1相當於是一個代理，來接收請求。

客戶端發送寫請求給distribute，有一個internal_replication的配置，false or true。

如果設置為true，只需要把數據寫入到第一個分片的第一個副本即可，數據的同步由第一個副本來做；
如果設置為false，這兩個副本的數據都是由distribute來發送。

2.2 集群讀取流程（3分片2副本共6個節點）

一份數據存儲了2份，有一個副本，當讀取數據時從哪里讀取數據呢？哪個副本中讀取呢。每個節點會記錄一個犯錯數；

當客戶端發送讀命令時，它會優先選擇errors_count小的副本，errors_count相同的有隨機、順序、隨機（優先第一順位）、host名稱近似等四種選擇方式。

2.3 集群配置（3分片2副本共6個節點）

配置的位置還是在之前的/etc/clickhouse-server/config.d/metrika.xml，內容如下

<yandex>
    <clickhouse_remote_servers>
        <gmall_cluster> <!-- 集群名稱--> 
            <shard>  <!--集群的第一個分片-->
                <internal_replication>true</internal_replication>
                <!--該分片的第一個副本-->
                <replica>    
                    <host>hadoop201</host>
                    <port>9000</port>
                 </replica>
                 <!--該分片的第二個副本-->
                 <replica> 
                    <host>hadoop202</host>
                    <port>9000</port>
                 </replica>
            </shard>

              <shard>  <!--集群的第二個分片-->
                 <internal_replication>true</internal_replication>
                 <replica>    <!--該分片的第一個副本-->
                    <host>hadoop203</host>
                     <port>9000</port>
                 </replica>
                 <replica>    <!--該分片的第二個副本-->
                    <host>hadoop204</host>
                    <port>9000</port>
                 </replica>
              </shard>

              <shard>  <!--集群的第三個分片-->
                 <internal_replication>true</internal_replication>
                 <replica>     <!--該分片的第一個副本-->
                    <host>hadoop205</host>
                    <port>9000</port>
                 </replica>
                 <replica>    <!--該分片的第二個副本-->
                    <host>hadoop206</host>
                    <port>9000</port>
                 </replica>
              </shard>
        </gmall_cluster>
    </clickhouse_remote_servers>
</yandex>

View Code

2.4 配置3節點版本集群及副本

集群及副本規划（2個分片，只有第一個分片有副本）

[root@hadoop102 config.d]# vim /etc/clickhouse-server/config.d/metrika-shard.xml

<?xml version="1.0"?>
<yandex>
    <clickhouse_remote_servers>
        <gmall_cluster> <!-- 集群名稱--> 
            <shard>         <!--集群的第一個分片-->
            <internal_replication>true</internal_replication>
                <replica>    <!--該分片的第一個副本-->
                    <host>hadoop102</host>
                    <port>9000</port>
                </replica>
                <replica>    <!--該分片的第二個副本-->
                    <host>hadoop103</host>
                    <port>9000</port>
                </replica>
            </shard>

            <shard>  <!--集群的第二個分片-->
                <internal_replication>true</internal_replication>
                <replica>    <!--該分片的第一個副本-->
                    <host>hadoop104</host>
                    <port>9000</port>
                </replica>
            </shard>
        </gmall_cluster>
    </clickhouse_remote_servers>

    <zookeeper-servers>
        <node index="1">
            <host>hadoop102</host>
             <port>2181</port>
        </node>
        <node index="2">
             <host>hadoop103</host>
              <port>2181</port>
        </node>
        <node index="3">
              <host>hadoop104</host>
              <port>2181</port>
        </node>
    </zookeeper-servers>

    <macros>
        <shard>01</shard>   <!--不同機器放的分片數不一樣-->
        <replica>rep_1_1</replica>  <!--不同機器放的副本數不一樣-->
    </macros>
</yandex>

View Code

(2) 將hadoop102的metrika-shard.xml同步到103和104

[root@hadoop102 config.d]# scp /etc/clickhouse-server/config.d/metrika-shard.xml root@hadoop103:/etc/clickhouse-server/config.d/metrika-shard.xml
[root@hadoop102 config.d]# scp /etc/clickhouse-server/config.d/metrika-shard.xml root@hadoop104:/etc/clickhouse-server/config.d/metrika-shard.xml

(3) 修改103和104中metrika-shard.xml宏的配置

##103 [root@hadoop103 ~]$ vim /etc/clickhouse-server/config.d/metrika-shard.xml <macros> <shard>01</shard> <!--不同機器放的分片數不一樣--> <replica>rep_1_2</replica> <!--不同機器放的副本數不一樣--> </macros> ##104 [root@hadoop104 ~]$ vim /etc/clickhouse-server/config.d/metrika-shard.xml <macros> <shard>02</shard> <!--不同機器放的分片數不一樣--> <replica>rep_2_1</replica> <!--不同機器放的副本數不一樣--> </macros>

(4) 在hadoop102上修改/etc/clickhouse-server/config.xml

(5) 同步/etc/clickhouse-server/config.xml到103和104

[root@hadoop102 config.d]# scp /etc/clickhouse-server/config.xml root@hadoop103:/etc/clickhouse-server/config.xml
[root@hadoop102 config.d]# scp /etc/clickhouse-server/config.xml root@hadoop104:/etc/clickhouse-server/config.xml

(6) 重啟三台服務器上的ClickHouse服務

sudo systemctl stop clickhouse-server
sudo systemctl start clickhouse-server
ps -ef |grep click

(7) 在hadoop102上執行建表語句

會自動同步到hadoop103和hadoop104上
集群名字要和配置文件中的一致
分片和副本名稱從配置文件的宏定義中獲取

#啟動客戶端，並創建表
clickhouse-client -m

create table st_order_mt on cluster gmall_cluster ( id UInt32, sku_id String, total_amount Decimal(16,2), create_time Datetime ) engine =ReplicatedMergeTree('/clickhouse/tables/{shard}/st_order_mt_0105','{replica}') partition by toYYYYMMDD(create_time) primary key (id) order by (id,sku_id);

可以到hadoop103和hadoop104上查看表是否創建成功

(8) 在hadoop102上創建Distribute 分布式表

create table st_order_mt_all on cluster gmall_cluster ( id UInt32, sku_id String, total_amount Decimal(16,2), create_time Datetime )engine = Distributed(gmall_cluster,default, st_order_mt,hiveHash(sku_id)); 參數含義 Distributed(集群名稱，庫名，本地表名，分片鍵) 分片鍵必須是整型數字，所以用hiveHash函數轉換，也可以rand()

(9) 在hadoop102上插入測試數據

insert into st_order_mt_all values (201,'sku_001',1000.00,'2020-06-01 12:00:00') , (202,'sku_002',2000.00,'2020-06-01 12:00:00'), (203,'sku_004',2500.00,'2020-06-01 12:00:00'), (204,'sku_002',2000.00,'2020-06-01 12:00:00'), (205,'sku_003',600.00,'2020-06-02 12:00:00');

(10)通過查詢分布式表和本地表觀察輸出結果

分布式表：SELECT * FROM st_order_mt_all;

本地表： select * from st_order_mt;

觀察數據的分布

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Docker快速搭建Clickhouse集群(3分片3副本) clickhouse兩分片兩副本集群部署 clickhouse（二）集群搭建-三分片兩副本模式 clickhouse三分片一副本集群部署【ClickHouse】5：clickhouse集群部署 ES集群、分片、副本 Clickhouse 3分片2副本 ClickHouse學習系列之四【副本&分片部署說明】 MongoDB——高性能、高可用之副本集、讀寫分離、分片、操作 (轉) ClickHouse集群方案測評