1. 場景描述
因兄弟項目中mysql有點扛不住了,要做sql優化,但是業務有點小復雜,優化起來有點麻煩(sql嵌套有點多),便想着用Mpp數據庫Greenplum測試下,看性能和復雜度怎么樣,趟趟水。
2.解決方案
初步的想法是:因為mysql和postgresql(Greenplum建立在postgresql之上,i'm 軟件老王)都是使用的標准sql,直接把mysql的建表語句在Greenplum建一邊,把數據導入過來測試一下就行了,應該半天內就能搞定。
2.1 Greenplum建表
將mysql的表結構通過navicat for mysql導出(navivat中只導出表結構,如下圖),但是發現導出的結構在
Greenplum中執行不了,mysql中的ddl語句:
`CONFIG_ID` varchar(36) COLLATE utf8_unicode_ci NOT NULL COMMENT '軟件老王'
解決辦法
(1)網上找了mysql轉postgresql的java代碼,寫的不是太全面,改了幾次還是有點問題,放棄。
(2)問了下dba,用的Navicat Premium 12 可以轉,網址:https://www.navicat.com.cn/
Navicat Premium可以同時操作多個數據庫,包括:mysql和greenplum(postgresql),以前使用navicat for mysql只能操作mysql數據庫,navicat for postgresql只能操作postgresql。
2.2 導出數據結構
使用Navicat Premium,如下圖:
左邊選擇mysql,右邊選擇greenplum,同時去掉選項中的創建記錄,就能在Greenplum中創建表了。(先創建所有表,數據量太大,我們只導幾張表的數據進行測試)
2.3 導入數據。
2.3.1 初步想法
初步想法是通過Navicat 直接導入,使用上面的Navicat Premium12就能直接從mysql導入Greenplum數據,但是導入了幾張小表后,碰到的一張30多萬的表,導了20多分鍾還不到40%,看了下greenplum的master節點cpu有點高,后面還有好幾張百萬級的數據,這樣的效率要導到猴年馬月了。
2.3.2 外部表方式
(1)首先需要在master節點啟動外部表程序fdisk,新建個目錄,存放從mysql中導出的文件,我導出的是csv格式。
[gpadmin@軟件老王 ~]$ mkdir script
[gpadmin@軟件老王 ~]$ nohup gpfdist -d /home/gpadmin/script/ -p 8081 -l /home/gpadmin/script/ruanjianlaowang.log &
(2)創建外部表
------------------------
CREATE EXTERNAL TABLE "public"."t_laowang_ex" (
"laowang_type" numeric(3),
"laowang_id" varchar(36)
)
location ('gpfdist://10.192.0.168:8081/laowang.csv') format 'csv' (DELIMITER ',') encoding 'utf8';
說明:
(a)可以直接將原表的ddl語句拿出來,名稱增加個_ex(新建外部表的時候,發現not null用不了要替換成空)
(b)其中ip地址是greenplum的master地址,laowang是csv文件名稱,csv文件是通過navicat右鍵導出的,i‘m 軟件老王。
gpfdist://10.192.0.168:8081/laowang.csv
(3)數據裝載到greenplum表中
insert into t_laowang select * from t_laowang_ex;
i'm 軟件老王
這樣就完成了數據從mysql遷移到了greenplum中,具體測試結果對比就不在這里多說了。
2.4 總體結論
方案執行比想象的復雜,一是兩個數據庫建表sql不一樣,后通過最新的Navicat Premium 12 解決;二是直接通過navicat導入,在效率上有問題,走不通,通過外部表的方式解決,外部表方式2-3秒就能導入完成;三是,新建外部表的時候,跟原表稍微有點差異,也的注意下。
I’m 「軟件老王」,如果覺得還可以的話,關注下唄,后續更新秒知!歡迎討論區、同名公眾號留言交流!