hive 學習系列六 hive 去重辦法的思考

本文轉載自查看原文 2018-08-14 16:45 2862 hive 學習系列---干貨經驗的總結

方法1，建立臨時表，利用hive的collect_set 進行去重。

create table if not exists tubutest (
    name1 string,
    name2 string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;


select * from ods.wdtest;
1	1
1	1
1	2
1	2
1	3
2	3
2	3
2	4


select name1,collect_set(name2) from tubutest group by name1;  
name1	_c1
1	["2","3"]
2	["2","4"]

create view ods.wdtestView as
select name1,collect_set(name2) as name2 from ods.wdtest  group by name1;

select * from ods.wdtestview;
name1	name2
1	["2","3"]
2	["2","4"]

select name1, name2 from tubuview  LATERAL VIEW explode(name2) tubuview as name2;

A，collect_set 完成把多行轉化成一行的功能。 
B，explode 完成把一行轉化成多列的功能。 而 lateral view 主要是輔助 explode 進行使用，來完成類似去重的功能。

2，方法2，利用row_number 去重

比如，我有一大堆的表格，

表格內容大多類似，只是有些許差別。
現在的需求是把我要統計所有的表格中，都有哪些字段，也就是把所有的表格整合成一張大表
則可以利用row_number 進行去重

最終的表格如下：

需要進行去重，
則可以利用row_number 進行去重（去蟲），方法如下

SELECT 
    name,
    type_name,
    comment_deatail
from 
    (SELECT 
    name,type_name,comment_deatail,
    row_number() OVER(PARTITION BY name ORDER BY type_name) as row_count
     from demo) t
where row_count=1;

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hadoop Hive概念學習系列之什么是Hive？ Hadoop Hive概念學習系列之hive里的分區（九） Hadoop Hive概念學習系列之hive里的視圖（十二） Hadoop Hive概念學習系列之hive里的索引（十三）【Hive】數據去重 hive 學習系列五（hive 和elasticsearch 的交互，很詳細哦，我又來吹liubi了） Hadoop Hive概念學習系列之hive的數據壓縮（七） Hadoop Hive概念學習系列之hive里的桶（十一） hive 學習系列之七 hive 常用數據清洗函數 Hive學習之六《Hive進階— —hive jdbc》詳解

hive 學習系列六 hive 去重辦法的思考

方法1，建立臨時表，利用hive的collect_set 進行去重。

2，方法2， 利用row_number 去重

免責聲明！

2，方法2，利用row_number 去重