簡述

上一篇文章介紹了使用 CloudCanal 進行 MySQL 到 ElasticSearch 的寬表構建, 有蠻多朋友關注和嘗試使用，我們也在不斷迭代升級這個能力。

作為產品的通用功能，今天我們介紹下 MySQL -> ClickHouse 的寬表構建案例。

技術點

ClickHouse 表關聯之觴

ClickHouse 作為標准的列存數據庫，其特點相當鮮明，對於多維度數據聚合、篩選特別高效,對於列存面向計算的特點，用得相當不錯，包括但不限於以下特點

io 效率高
- 列壓縮
- 少數列數據存取io放大效應較小
極致計算優化
- 向量化
- 利用 SSE 等 SIMD 指令集加速
- 未來可選 AVX 512 等指令集優化
- 未來對於計算卸載到 FPGA、GPU 較便利

但是 ClickHouse 對於數據關聯（join）, 相比於其 多維聚合、篩選能力要弱一些。對於這個問題，我們覺得有必要通過 CloudCanal 的寬表能力，讓其適用性得到進一步提升。大寬表 + 突出的數據 多維聚合、篩選能力，幾乎等於交互式分析的殺手鐧。

操作示例

前置條件:

CloudCanal 社區版部署,參見社區版安裝文檔
准備好 MySQL 數據庫（本例使用 5.7 版本）和 ClickHouse 數據庫（本例使用 21.8.X 版本）

MySQL 上創建 1 張事實表(my_order)和 2 張維表 (user 、product)

 CREATE TABLE `my_order` (
   `id` bigint(19) NOT NULL AUTO_INCREMENT,
   `gmt_create` datetime NOT NULL,
  `gmt_modified` datetime NOT NULL,
  `product_id` bigint(20) NOT NULL,
  `user_id` bigint(20) NOT NULL,
  PRIMARY KEY (`id`)
 ) ENGINE=InnoDB AUTO_INCREMENT=1460 DEFAULT CHARSET=utf8;

CREATE TABLE `product` (
  `id` bigint(19) NOT NULL AUTO_INCREMENT,
  `gmt_create` datetime NOT NULL,
  `gmt_modified` datetime NOT NULL,
  `name` varchar(255) NOT NULL,
  `price` decimal(20,2) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2719 DEFAULT CHARSET=utf8;

CREATE TABLE `user` (
  `id` bigint(19) NOT NULL AUTO_INCREMENT,
  `gmt_create` datetime NOT NULL,
  `gmt_modified` datetime NOT NULL,
  `name` varchar(255) NOT NULL,
  `level` varchar(255) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2224 DEFAULT CHARSET=utf8

ClickHouse 上創建 1 張寬表 my_order , 並額外包含兩張維表相關數據

user_id (關聯user.id), user_name(對應user.name)
product_id(關聯product.id) ,product_name(對應product.name),product_price (對應product.price)

CREATE TABLE trade.my_order
(
   `id` Int64,
   `gmt_create` DateTime,
   `gmt_modified` DateTime,
   `product_id` Int64,
   `user_id` Int64,
   `user_name` Nullable(String),
   `product_name` Nullable(String),
   `product_price` Nullable(Decimal(20, 2))
 )
ENGINE = ReplacingMergeTree
ORDER BY id
SETTINGS index_granularity = 8192

開發寬表代碼

代碼工程 cloudcanal-data-process ，並找到代碼類 MySqlToChOnlyFact_one_fact_two_dim.java
修改必要信息

打包

進入工程目錄，使用命令進行打包

% pwd
/Users/zylicfc/source/product/cloudcanal/cloudcanal-data-process
% mvn -Dtest -DfailIfNoTests=false -Dmaven.javadoc.skip=true -Dmaven.compile.fork=true clean package