Impala數據處理（加載和存儲）

本文轉載自查看原文 2017-04-29 17:48 3970 Cloudera Impala

　　不多說，直接上干貨！

Hive與Impala都是構建在Hadoop之上的數據查詢工具，那么在實際的應用中，它們是如何加載和存儲數據的呢？

Hive和Impala存儲和加載表，和所有的關系型數據庫一樣，有自己的數據管理結構，從它的Server到Database再到表和視圖。

　　在其他的數據庫中，表都是以自己特定的文件格式來存儲的，比如Oracle有自己的存儲格式，而對Hive而言，一個表就是包含一個或多個文件的HDFS目錄，這個文件是屬於表下面的內容，默認存儲路徑：/user/hive/warehouse/<table_name>，支持多種存儲格式。

　　以上就是數據的存儲，那么每一個表、每一個結構都有自己的列或者類型定義的信息，這些信息該如何去保存呢？它們存儲在Metastore里，而所有的數據都存儲在HDFS之上，所以我們想要獲得表結構信息，就需要知道hive的元數據中每個表的含義和結構。在hive中，有簡單的命令可以大概的查看表的結構信息：describe formatted tableName; hive metastore表結構如下：

　　因為Hive和Impala使用相同的數據，表在HDFS，元數據在Metastore，所以以上的存儲及結構介紹同樣適用於Impala。

數據加載及存儲示例：

　　在這里呢我們必須要區分兩個概念：數據和元數據。數據指的是你存儲和處理的信息，比如賬單記錄、傳感器讀數和服務日志等。而元數據用來描述數據的形態，比如字段名和順序等。

Hive與Impala都是構建在Hadoop之上的數據查詢工具，那么在實際的應用中，它們是如何加載和存儲數據的呢？

Hive和Impala存儲和加載表，和所有的關系型數據庫一樣，有自己的數據管理結構，從它的Server到Database再到表和視圖。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python數據處理（一） TFRecord數據處理數據處理隨筆-1 數據處理流程 AndroidJetpack數據處理之數據庫Room和懶加載Paging pandas之數據處理操作 pyspark數據處理分析 SpringBoot——json數據處理 python ----json數據處理 Unity之Json數據處理