greenplum表的distributed key值查看

本文轉載自查看原文 2014-03-29 15:12 3756 greenplum & postgresql

　　greenplum屬於分布式的數據庫,MPP+Share nothing的體系,查詢的效率很快.不過,這是建立在數據分散均勻的基礎上的.如果DK值設置不合理的話,完全有可能出現所有數據落在單個節點上的情況,這就體現不出優勢來.因此,DK值的設置是否合適是建表的時候,需要考慮的重要因素之一.

查看表(table_name)的數據在節點的分布情況:

select gp_segment_id,count(*) from table_name group by gp_segment_id;

　　如果數據有嚴重傾斜的話,即某些節點的數據量過大,表示DK值需要重新調整.調整語句為alter table table_name set distirbuted by(col1,col2,...);

現在有個問題是:如何發現哪些DK值設置不合理的表呢?可以參照之前寫的文章:數據分布查看,執果索因調整

這里介紹的是如何把DK值展現出現，一般設置單列（該列為日期類型，每天一份的話）的表，就很有可能出現DK值不合理的情況。我們需要利用到三張表：

pg_class --object屬性表,relkind表示object屬性,'r'代表table

pg_attribute --展現詳細的列

gp_distribution_policy --存儲DK值

首先,創建一個類型,用來顯示function的結果集.

create type dk_table_type as
(
    table_name varchar,
    dk_cols varchar
);

然后,用上面三張表組合起來,得到相應的所需要的結果信息.


CREATE OR REPLACE FUNCTION get_table_dk()
  RETURNS SETOF dk_table_type AS
$BODY$
DECLARE
    v_cur_tb cursor for 
    select d.nspname||'.'||a.relname,b.attname
    from 
    pg_class  a
    inner join 
    pg_attribute b
    on a.oid=b.attrelid
    inner join 
    gp_distribution_policy c
    on a.oid=c.localoid
    inner join pg_namespace d
    on a.relnamespace=d.oid
    where a.relkind='r' and b.attnum=any(c.attrnums)
    order by d.nspname||'.'||a.relname,b.attname,b.attnum;
    v_tb varchar(500):='';
    v_tb_new varchar(500):='';
    v_dk_col varchar(100):='';
    v_dk_cols varchar(1000):='';
    v_record dk_table_type;
BEGIN
    open v_cur_tb;
    loop
            fetch v_cur_tb into v_tb_new,v_dk_col;
            if not found THEN
                exit;
            end if;
            if v_tb = '' and v_dk_cols = '' then
                v_tb := v_tb_new;
                v_dk_cols:=v_dk_col;
            ELSEIF v_tb <> v_tb_new THEN
                select v_tb,v_dk_cols into v_record;
                return next v_record;
                v_tb := v_tb_new;
                v_dk_cols:=v_dk_col;
            ELSE
                v_dk_cols:=v_dk_cols||','||v_dk_col;    
            end if;
    end loop;
                select v_tb,v_dk_cols into v_record;
                return next v_record;
    close v_cur_tb;
end;
$BODY$
  LANGUAGE plpgsql VOLATILE;

　　然后,執行select * from get_table_dk()就可以獲得表以及其對應的DK值(列),從而可以直觀的發現是否有些表需要調整,此時就用上面的gp_segment_id來驗證.如果是的話,就進行相應的調整.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 greenplum查看表的數據分布情況來調整dk值 GreenPlum查看庫及表占磁盤空間大小 greenplum分區表查看所占空間大小查看JSONObject中有沒有對應的key值 Greenplum table 之外部表 Greenplum獲取表結構 Greenplum獲取表結構 clickhouse的分布式Distributed表引擎 Redis 查看所有 key 的 value 值所占內存大小 Greenplum膨脹表問題分析