1. 什么是hive? hive是基於Hadoop的一個數據倉庫工具,可以將結構化和半結構化的數據文件映射為一張數據庫表, 並提供簡單的sql查詢功能。 注意: (1)Hive本質是將HDFS轉換成MapReduce的任務進行運算,底層由HDFS來提供數據存儲。 (2)Hive的元數據存儲 ...
一 求單月訪問次數和總訪問次數 數據說明 數據字段說明 數據格式 數據准備 創建表 導入數據 驗證數據 結果需求 現要求出:每個用戶截止到每月為止的最大單月訪問次數和累計到該月的總訪問次數,結果數據格式如下 需求分析 此結果需要根據用戶 月份進行分組 先求出當月訪問次數 tmp access進行自連接視圖 進行比較統計 二 學生課程成績 說明 需求 求:所有數學課程成績 大於 語文課程成績的學生 ...
2019-05-24 10:38 0 605 推薦指數:
1. 什么是hive? hive是基於Hadoop的一個數據倉庫工具,可以將結構化和半結構化的數據文件映射為一張數據庫表, 並提供簡單的sql查詢功能。 注意: (1)Hive本質是將HDFS轉換成MapReduce的任務進行運算,底層由HDFS來提供數據存儲。 (2)Hive的元數據存儲 ...
對待像我這種2年開發經驗的同學 一般都會被問到。 在面試中,我們只要簡短的介紹就好了。 首先低調一波,我可能懂的比你少,我就簡單說說 1.在排序中,我們使用的是sortBy,它是基於索引,效率高於order by 2.我們在分區的時候采用靜態分區,靜態分區只是讀取配置文件,而動態分區需要 ...
1、Hive表關聯查詢,如何解決數據傾斜的問題?(☆☆☆☆☆) 1)傾斜原因:map輸出數據按key Hash的分配到reduce中,由於key分布不均勻、業務數據本身的特、建表時考慮不周、等原因造成的reduce 上的數據量差異過大。 (1)key分布不均勻; (2)業務數據 ...
面試題: hive 內部表和外部表的區別? hive 是如何實現分區的? Hive 有哪些方式保存元數據,各有哪些優缺點? hive中order by、distribute by、sort by和cluster by的區別和聯系 hive 中的壓縮格式 RCFile ...
點擊上方“藍字”關注我們 ...
第 1 題 連續問題 如下數據為螞蟻森林中用戶領取的減少碳排放量 找出連續 3 天及以上減少碳排放量在 100 以上的用戶 第 2 題 分組問題 如下為電商公司用戶訪 ...
Hive 最常見的幾個面試題 1.hive 的使用, 內外部表的區別,分區作用, UDF 和 Hive 優化(1)hive 使用:倉庫、工具(2)hive 內部表:加載數據到 hive 所在的 hdfs 目錄,刪除時,元數據和數據文件都刪除 外部表:不加載數據到 hive 所在的 hdfs ...
一、hive中實現方法 基表: 組表: gt gid gname 1001 g1 1002 g2 ...