Hive詳解(02) - Hive 3.1.2安裝

Error: Could not open client transport with JDBC Uri: jdbc:hive2://192.168.194.48:10000: Failed to open new session: java.lang.RuntimeException: RemoteException(AuthorizationException): User: hadoop is not allowed to impersonate hadoop (state=08S01,code=0)

解決辦法：通過httpfs協議訪問rest接口，以hadoop用戶包裝自己的方式操作HDFS

首先需要開啟rest接口，

在hdfs-site.xml文件中加入：

<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>

然后在core-site.xml文件中加入：

<name>hadoop.proxyuser.hadoop.hosts</name>

</property>

<name>hadoop.proxyuser.hadoop.groups</name>

</property>

綠色的hadoop是beeline> ! connect jdbc:hive2://192.168.194.48:10000登錄時的用戶名

當用不同的用戶通過rest接口訪問hdfs時可以配置多個用戶如下圖中同時配置了hue和hadoop用戶

編寫啟動metastore和hiveserver2腳本

前台啟動的方式導致需要打開多個shell窗口，且終端斷開鏈接后服務就停止運行，可以使用如下方式后台方式啟動

nohup hive --service metastore 2>&1 &

nohup hive --service hiveserver2 2>&1 &

編寫啟動腳本可以更方便的管理

[hadoop@hadoop102 ~]$ cd /opt/module/hive/bin/

[hadoop@hadoop102 bin]$ vi hiveservices.sh

文件中加入如下內容

#!/bin/bash

HIVE_LOG_DIR=/opt/module/hive/logs

if [ ! -d $HIVE_LOG_DIR ]

then

mkdir -p $HIVE_LOG_DIR

#檢查進程是否運行正常，參數1為進程名，參數2為進程端口

function check_process()

{

pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}')

ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut -d '/' -f 1)

echo $pid

[[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1

}

function hive_start()

{

metapid=$(check_process HiveMetastore 9083)

cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &"

cmd=$cmd" sleep 4; hdfs dfsadmin -safemode wait >/dev/null 2>&1"

[ -z "$metapid" ] && eval $cmd || echo "Metastroe服務已啟動"

server2pid=$(check_process HiveServer2 10000)

cmd="nohup hive --service hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &"

[ -z "$server2pid" ] && eval $cmd || echo "HiveServer2服務已啟動"

}

function hive_stop()

{

metapid=$(check_process HiveMetastore 9083)

[ "$metapid" ] && kill $metapid || echo "Metastore服務未啟動"

server2pid=$(check_process HiveServer2 10000)

[ "$server2pid" ] && kill $server2pid || echo "HiveServer2服務未啟動"

}

case $1 in

"start")

hive_start

;;

"stop")

hive_stop

;;

"restart")

hive_stop

sleep 2

hive_start

;;

"status")

check_process HiveMetastore 9083 >/dev/null && echo "Metastore服務運行正常" || echo "Metastore服務運行異常"

check_process HiveServer2 10000 >/dev/null && echo "HiveServer2服務運行正常" || echo "HiveServer2服務運行異常"

;;

echo Invalid Args!

echo 'Usage: '$(basename $0)' start|stop|restart|status'

;;

esac

添加執行權限

[hadoop@hadoop102 bin]$ chmod u+x hiveservices.sh

使用腳本

啟動：hiveservices.sh start

停止：hiveservices.sh stop

重啟：hiveservices.sh restart

查看狀態： hiveservices.sh status

Hive常用交互命令

[hadoop@hadoop102 hive]$ bin/hive -help

usage: hive

-d,--define <key=value> Variable subsitution to apply to hive

commands. e.g. -d A=B or --define A=B

--database <databasename> Specify the database to use

-e <quoted-query-string> SQL from command line

-f <filename> SQL from files

-H,--help Print help information

--hiveconf <property=value> Use value for given property

--hivevar <key=value> Variable subsitution to apply to hive

commands. e.g. --hivevar A=B

-i <filename> Initialization SQL file

-S,--silent Silent mode in interactive shell

-v,--verbose Verbose mode (echo executed SQL to the console)

"-e"不進入hive的交互窗口執行sql語句

bin/hive -e "select id from student;"

"-f"執行腳本中sql語句

在/opt/module/hive/下創建datas目錄並在datas目錄下創建hivef.sql文件

touch hivef.sql

文件中寫入正確的sql語句

select *from student;

執行文件中的sql語句

bin/hive -f /opt/module/hive/datas/hivef.sql

執行文件中的sql語句並將結果寫入文件中

bin/hive -f /opt/module/hive/datas/hivef.sql > /opt/module/datas/hive_result.txt

Hive其他命令操作

退出hive窗口：

hive(default)>exit;

hive(default)>quit;

在hive cli命令窗口中如何查看hdfs文件系統

hive(default)>dfs -ls /;

查看在hive中輸入的所有歷史命令

進入到當前用戶的根目錄/root或/home/atguigu

查看. hivehistory文件

cat .hivehistory

在Hive中配置Tez引擎

Hive運行引擎Tez

Tez是一個Hive的運行引擎，性能優於MR。

用Hive直接編寫MR程序，假設有四個有依賴關系的MR作業，上圖中，綠色是Reduce Task，雲狀表示寫屏蔽，需要將中間結果持久化寫到HDFS。Tez可以將多個有依賴的作業轉換為一個作業，這樣只需寫一次HDFS，且中間節點較少，從而大大提升作業的計算性能。

安裝准備

hadoop配置支持LZO壓縮，參考文檔《Hadoop詳解(07-1) - Hdfs支持LZO壓縮配置》

tez官網：https://tez.apache.org/

tez安裝包下載地址：https://downloads.apache.org/tez/0.10.1/apache-tez-0.10.1-bin.tar.gz

上傳解壓

[hadoop@hadoop102 software]$ tar -zxvf apache-tez-0.10.1-bin.tar.gz -C /opt/module/

修改名稱

[hadoop@hadoop102 software]$ cd /opt/module/

[hadoop@hadoop102 module]$ mv apache-tez-0.10.1-bin/ tez-0.10.1

在Hive中配置Tez

在hive-env.sh文件中添加tez環境變量配置和依賴包環境變量配置
[hadoop@hadoop102 module]$ cd /opt/module/hive/conf/
[hadoop@hadoop102 conf]$ vi hive-env.sh

在文件末尾添加如下配置

#tez的解壓目錄

export TEZ_HOME=/opt/module/tez-0.10.1

export TEZ_JARS=""

for jar in `ls $TEZ_HOME |grep jar`; do

export TEZ_JARS=$TEZ_JARS:$TEZ_HOME/$jar

done

for jar in `ls $TEZ_HOME/lib`; do

export TEZ_JARS=$TEZ_JARS:$TEZ_HOME/lib/$jar

done

#導入lzo壓縮jar包的環境變量

export HIVE_AUX_JARS_PATH=/opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.21-SNAPSHOT.jar$TEZ_JARS

在hive-site.xml文件中添加如下配置，更改hive計算引擎
<property>
<name>hive.execution.engine</name>
<value>tez</value>
</property>
配置tez-site.xml

在/opt/module/hive/conf下面創建tez-site.xml文件

[hadoop@hadoop102 conf]$ vi tez-site.xml

在tez-site.xml添加如下內容

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<value>${fs.defaultFS}/tez/tez-0.10.1,${fs.defaultFS}/tez/tez-0.10.1/lib</value>

</property>

<name>tez.lib.uris.classpath</name>

<value>${fs.defaultFS}/tez/tez-0.10.1,${fs.defaultFS}/tez/tez-0.10.1/lib</value>

</property>

<name>tez.use.cluster.hadoop-libs</name>

</property>

<name>tez.history.logging.service.class</name>

<value>org.apache.tez.dag.history.logging.ats.ATSHistoryLoggingService</value>

</property>

</configuration>

1）將tez安裝目錄/opt/module/tez-0.9.1上傳到HDFS的/tez路徑

[hadoop@hadoop102 conf]$ hadoop fs -mkdir /tez

[hadoop@hadoop102 conf]$ hadoop fs -put /opt/module/tez-0.10.1/ /tez

[hadoop@hadoop102 conf]$ hadoop fs -ls /tez

Found 1 items

drwxr-xr-x - hadoop supergroup 0 2022-01-14 01:40 /tez/tez-0.10.1

測試

啟動Hive

啟動hive過程不報錯，如果報錯說明tez引擎配置有問題

[hadoop@hadoop102 hive]$ bin/hive

普通表數據測試

創建LZO表

hive (default)> create table student(

id int,

name string);

向表中添加數據

hive (default)> insert into student values(1,"zhangjk");

查詢數據，如果沒有報錯就表示hive配置tez引擎成功

hive (default)> select * from student;

student.id student.name

1 zhangjk

Time taken: 0.187 seconds, Fetched: 1 row(s)

使用LZO壓縮的表測試

創建輸入數據是lzo輸出是text，支持json解析的分區表

hive (default)> drop table if exists log;

CREATE EXTERNAL TABLE log (`line` string)

PARTITIONED BY (`dt` string)

STORED AS

INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'

OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

LOCATION '/user/hive/warehouse/log';

在本地創建文本數據，添加測試數據並上傳到hdfs中

[hadoop@hadoop102 module]$ vi 1.log

hadoop fs -put /opt/module/1.log /user

加載數據

hive (gmall)> load data inpath '/user/1.log' into table log partition(dt='2022-01-01');

解決內存不足問題

如果在虛擬機上運行Tez時經常會出現內存不足道情況而被NodeManager殺死進程，如：

Caused by: org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown. Application application_1546781144082_0005 failed 2 times due to AM Container for appattempt_1546781144082_0005_000002 exited with exitCode: -103 For more detailed output, check application tracking page:http://hadoop103:8088/cluster/app/application_1546781144082_0005Then, click on links to logs of each attempt. Diagnostics: Container [pid=11116,containerID=container_1546781144082_0005_02_000001] is running beyond virtual memory limits. Current usage: 216.3 MB of 1 GB physical memory used; 2.6 GB of 2.1 GB virtual memory used. Killing container.

這種問題是從機上運行的Container試圖使用過多的內存，而被NodeManager kill掉了。

[摘錄] The NodeManager is killing your container. It sounds like you are trying to use hadoop streaming which is running as a child process of the map-reduce task. The NodeManager monitors the entire process tree of the task and if it eats up more memory than the maximum set in mapreduce.map.memory.mb or mapreduce.reduce.memory.mb respectively, we would expect the Nodemanager to kill the task, otherwise your task is stealing memory belonging to other containers, which you don't want.

[摘錄翻譯]節點管理器正在殺死您的容器。聽起來您正在嘗試使用hadoop流，它作為map reduce任務的子進程運行。NodeManager監視任務的整個進程樹，以及任務占用的內存是否超過mapreduce中設置的最大值。地圖記憶力mb或mapreduce。減少記憶力我們希望節點管理器殺死該任務，否則您的任務將竊取屬於其他容器的內存，這是您不想要的。

解決方法：

方案一：關掉虛擬內存檢查。

修改yarn-site.xml

<name>yarn.nodemanager.vmem-check-enabled</name>

<value>false</value>

</property>

方案二：mapred-site.xml中設置Map和Reduce任務的內存配置

value中實際配置的內存需要根據自己機器內存大小及應用情況進行修改

　　<name>mapreduce.map.memory.mb</name>

</property>

　　<name>mapreduce.map.java.opts</name>

</property>

　　<name>mapreduce.reduce.memory.mb</name>

</property>

　　<name>mapreduce.reduce.java.opts</name>

</property>

修改完后重新啟動hadoop集群和hive服務

常見錯誤及解決方案

如果更換Tez引擎后，執行任務卡住，可以嘗試調節容量調度器的資源調度策略

將$HADOOP_HOME/etc/hadoop/capacity-scheduler.xml文件中的

<name>yarn.scheduler.capacity.maximum-am-resource-percent</name>

Maximum percent of resources in the cluster which can be used to run

application masters i.e. controls number of concurrent running

<name>yarn.scheduler.capacity.maximum-am-resource-percent</name>

Maximum percent of resources in the cluster which can be used to run

application masters i.e. controls number of concurrent running

applications.

</description>

</property>

連接不上mysql數據庫

（1）導錯驅動包，應該把mysql-connector-java-5.1.27-bin.jar導入/opt/module/hive/lib的不是這個包。錯把mysql-connector-java-5.1.27.tar.gz導入hive/lib包下。

（2）修改user表中的主機名稱沒有都修改為%，而是修改為localhost

hive默認的輸入格式處理是CombineHiveInputFormat，會對小文件進行合並。
hive (default)> set hive.input.format;
hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

可以采用HiveInputFormat就會根據分區數輸出相應的文件。

hive (default)> set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

描述：java.lang.OutOfMemoryError: Java heap space

解決：在yarn-site.xml中加入如下代碼

<name>yarn.scheduler.maximum-allocation-mb</name>

</property>

<name>yarn.scheduler.minimum-allocation-mb</name>

</property>

<name>yarn.nodemanager.vmem-pmem-ratio</name>

</property>

<name>mapred.child.java.opts</name>

</property>

虛擬內存限制

在yarn-site.xml中添加如下配置:

<name>yarn.nodemanager.vmem-check-enabled</name>

<value>false</value>

</property>

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hadoop 3.1.2 + Hive 3.1.1 八、hive3.1.2 安裝及其配置（本地模式和遠程模式）基於Hadoop3.1.2集群的Hive3.1.2安裝(有不少坑) Hive安裝與配置詳解 Hive安裝與配置詳解【hive】centos7下apache-hive-3.1.2-bin的安裝測試 Hadoop 3.1.3偽分布式環境安裝Hive 3.1.2的異常總結 hive安裝以及hive on spark Hive3.1.2源碼編譯兼容Spark3.1.2 Hive on Spark Hive詳解