Hive實現數據抽樣的三種方法

本文轉載自查看原文 2020-12-15 15:36 1884 hive

在大規模數據量的數據分析及建模任務中，往往針對全量數據進行挖掘分析時會十分耗時和占用集群資源，因此一般情況下只需要抽取一小部分數據進行分析及建模操作。Hive提供了數據取樣（SAMPLING）的功能，能夠根據一定的規則進行數據抽樣，目前支持數據塊抽樣，分桶抽樣和隨機抽樣，具體如下所示：

數據塊抽樣（tablesample()函數）
1） tablesample(n percent) 根據hive表數據的大小按比例抽取數據，並保存到新的hive表中。如：抽取原hive表中10%的數據
（注意：測試過程中發現，select語句不能帶where條件且不支持子查詢，可通過新建中間表或使用隨機抽樣解決）
create table xxx_new as select * from xxx tablesample(10 percent)
2）tablesample(n M) 指定抽樣數據的大小，單位為M。
3）tablesample(n rows) 指定抽樣數據的行數，其中n代表每個map任務均取n行數據，map數量可通過hive表的簡單查詢語句確認（關鍵詞：number of mappers: x)
分桶抽樣
hive中分桶其實就是根據某一個字段Hash取模，放入指定數據的桶中，比如將表table_1按照ID分成100個桶，其算法是hash(id) % 100，這樣，hash(id) % 100 = 0的數據被放到第一個桶中，hash(id) % 100 = 1的記錄被放到第二個桶中。創建分桶表的關鍵語句為：CLUSTER BY語句。
分桶抽樣語法：
TABLESAMPLE (BUCKET x OUT OF y [ON colname])
其中x是要抽樣的桶編號，桶編號從1開始，colname表示抽樣的列，y表示桶的數量。
例如：將表隨機分成10組，抽取其中的第一個桶的數據
select * from table_01 tablesample(bucket 1 out of 10 on rand())
隨機抽樣（rand()函數）
1）使用rand()函數進行隨機抽樣，limit關鍵字限制抽樣返回的數據，其中rand函數前的distribute和sort關鍵字可以保證數據在mapper和reducer階段是隨機分布的，案例如下：
select * from table_name where col=xxx distribute by rand() sort by rand() limit num;
2）使用order 關鍵詞
案例如下：
select * from table_name where col=xxx order by rand() limit num;
經測試對比，千萬級數據中進行隨機抽樣 order by方式耗時更長，大約多30秒左右。
參考資料：http://www.bubuko.com/infodetail-1022686.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hive設置參數的三種方法 Hive導入數據的四種方法 TensorFlow讀取數據的三種方法 mysql取出數據的三種方法 PHP實現遞歸的三種方法實現滾動定位的三種方法實現數據庫備份與還原[歸納三種方法] url地址數據參數轉化JSON對象（js三種方法實現）分布式鎖實現的三種方法 django實現web分頁的三種方法