hadoop過程中遇到的錯誤與解決方法

本文轉載自查看原文 2019-04-11 11:30 811 大數據&流式計算

本文整理了在hadoop學習過程中遇到的各種問題。

windows下開發環境搭建

大部分情況下，我們都是在windows下開發，hadoop則一般部署於linux服務器（無論是CDH還是原生hadoop，也無論是單機偽分布式還是完全分布式）。很多教程的做法都是打成jar，然后上傳到linux服務器，再提交執行。這完全就是外行人教科書式的做法。實際開發不能這樣進行，就跟c++開發一樣，雖然是linux c++開發，我們同樣不會windows寫好到linux測試。

其安裝很簡單，下載hadoop發行版，並下載hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64-master.zip。解壓內容復制到HADOOP_HOME/bin下，這樣運行就不會找不到相關工具如winutils.exe，hadoop的版本不一定要和windows tools相同，例如HADOOP發行版2.8.x完全是可以的。

增加hadoop maven依賴：

            <dependency>
              <groupId>org.apache.hadoop</groupId>
              <artifactId>hadoop-hdfs</artifactId>
              <version>2.8.5</version>
          </dependency>
        
          <dependency>  
              <groupId>org.apache.hadoop</groupId>  
              <artifactId>hadoop-client</artifactId>  
              <version>2.8.5</version>  
          </dependency> 
        
          <dependency>
              <groupId>org.apache.hadoop</groupId>
              <artifactId>hadoop-common</artifactId>
              <version>2.8.5</version>
          </dependency>

然后只要將$HADOOP_HOME/conf中的core-site.xml和log4j.properties復制到resources目錄下即可。core-site.xml中添加HADOOP服務器HDFS地址即可：

    <property>
        <name>fs.defaultFS</name>
        <!--  這里的端口號可能是9000或8020，需要看服務器core-site.xml文件中的fs.default.name-->
        <value>hdfs://192.168.223.141:8020</value>
    </property>

這樣就可以本地提交執行（這也是實際的做法）了。

完整的手冊可以參考本博客windows eclipse直接訪問遠程linux hadoop開發環境配置（最標准的做法）。

org.apache.hadoop.ipc.RpcException: RPC response exceeds maximum data length（客戶端執行的時候，服務器端執行沒有報錯）

原因是目標Hadoop連接有誤，IP或端口，也就是上面 fs.defaultFS的設置以及FileInputFormat.addInputPath(job, new Path("hdfs://192.168.223.141:8020/user/cloudera/sample_data/tab1"));的值不正確，該值使用服務器core-site.xml文件中的fs.default.name的值，並確保對外開通。如下：

有些帖子說是ipc.maximum.data.length過小的問題，但是我們沒有修改過，所以134217728肯定足夠大了。

執行hadoop命令報"No FileSystem for scheme: hdfs"

一直好好的，不知道為啥突然出現“No FileSystem for scheme: hdfs”。如下：

重新登錄即可，原因未知。

`客戶端執行的時候報java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnRuntimeException`

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnRuntimeException
    at org.apache.hadoop.mapred.LocalDistributedCacheManager.setup(LocalDistributedCacheManager.java:93)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.<init>(LocalJobRunner.java:171)
    at org.apache.hadoop.mapred.LocalJobRunner.submitJob(LocalJobRunner.java:758)
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:242)
    at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1341)
    at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1338)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1844)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:1338)
    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1359)
    at hadoop.ParquetNewMR.main(ParquetNewMR.java:104)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.yarn.exceptions.YarnRuntimeException
    at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 12 more

服務器端執行的時候報警告`java.lang.NoClassDefFoundError: org/apache/parquet/format/CompressionCodec，但是運行成功了，文件內容為空`

hadoop-common包在maven依賴中，而且能找到（不知道是客戶端還是服務器端問題，看起來是服務器端的問題）。

原因：原來因為parquet相關依賴包下載不下載，改成了systemPath模式，所以有這個問題。直接從倉庫下載后，這個問題是沒有了。

java.lang.VerifyError: Bad return type location:org/apache/hadoop/hdfs/DFSClient.getQuotaUsage

    2018-02-19 10:11:49,328 [ERROR] [main] |app.DAGAppMaster|: Error starting DAGAppMaster
    java.lang.VerifyError: Bad return type
    Exception Details:
      Location:
        org/apache/hadoop/hdfs/DFSClient.getQuotaUsage(Ljava/lang/String;)Lorg/apache/hadoop/fs/QuotaUsage; @94: areturn
      Reason:
        Type 'org/apache/hadoop/fs/ContentSummary' (current frame, stack[0]) is not assignable to 'org/apache/hadoop/fs/QuotaUsage' (from method signature)

看起來像是hadoop的版本和hadoop maven客戶端版本不一致的問題，因為使用的是CDH-5.13的版本，將maven依賴版本調整為2.6.0之后，該錯誤沒有了。

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/htrace/core/Tracer$Builder，但是依賴已經有了，如下：

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/htrace/core/Tracer$Builder
    at org.apache.hadoop.fs.FsTracer.get(FsTracer.java:42)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2697)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:96)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2747)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2729)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:384)
    at com.abc.test.HdfsDAO.copyFile(HdfsDAO.java:96)
    at com.abc.test.HdfsDAO.main(HdfsDAO.java:34)
Caused by: java.lang.ClassNotFoundException: org.apache.htrace.core.Tracer$Builder
    at java.net.URLClassLoader.findClass(Unknown Source)
    at java.lang.ClassLoader.loadClass(Unknown Source)
    at sun.misc.Launcher$AppClassLoader.loadClass(Unknown Source)
    at java.lang.ClassLoader.loadClass(Unknown Source)
    ... 8 more

原因：htrace-core 3.0.4中的報名時org.htrace而不是org.apache.htrace包，前者為hadoop 2.6依賴，后者需要人工引入依賴。另外好像cdh 5.13不支持jdk 8，因為是1.8依賴了htrace-core4的會出現。調整為jdk 1.7、hadoop 2.6之后，問題就解決了。

提醒：hadoop開發，最好是服務器的版本和開發依賴的java庫版本一致，這樣不容易出問題。CDH的hadoop home是/var/lib/hadoop。

Hive執行命令非常慢（無論是hive客戶端還是hive2的beeline都是如此）

[root@quickstart ~]# beeline -u jdbc:hive2://localhost:10000/default
scan complete in 2ms
Connecting to jdbc:hive2://localhost:10000/default
Connected to: Apache Hive (version 1.1.0-cdh5.13.0)
Driver: Hive JDBC (version 1.1.0-cdh5.13.0)
Transaction isolation: TRANSACTION_REPEATABLE_READ
Beeline version 1.1.0-cdh5.13.0 by Apache Hive
0: jdbc:hive2://localhost:10000/default> show tables;
INFO  : Compiling command(queryId=hive_20190410202727_01c12a1b-1266-4019-a94f-b0cc8b743577): show tables
INFO  : Semantic Analysis Completed
INFO  : Returning Hive schema: Schema(fieldSchemas:[FieldSchema(name:tab_name, type:string, comment:from deserializer)], properties:null)
INFO  : Completed compiling command(queryId=hive_20190410202727_01c12a1b-1266-4019-a94f-b0cc8b743577); Time taken: 0.073 seconds
INFO  : Executing command(queryId=hive_20190410202727_01c12a1b-1266-4019-a94f-b0cc8b743577): show tables
INFO  : Starting task [Stage-0:DDL] in serial mode
INFO  : Completed executing command(queryId=hive_20190410202727_01c12a1b-1266-4019-a94f-b0cc8b743577); Time taken: 0.039 seconds
INFO  : OK
+-----------+--+
| tab_name  |
+-----------+--+
+-----------+--+
No rows selected (68.033 seconds)

0: jdbc:hive2://localhost:10000/default> create table parquet_xxx(name string,age int); -- 半天無響應，卡死

https://blog.csdn.net/yukuaifeng/article/details/78810450也是這個問題，但是參照之后也沒解決。

20190420最新更新，問題已經找到，quickstart vm存在這個問題，換成自己搭建的cdh hadoop環境后，就沒有這個問題了。

WARNING: Hive CLI is deprecated and migration to Beeline is recommended

hive2已經不推薦使用hive cli，而是beeline，參考：https://www.cnblogs.com/tomato0906/articles/6057333.html

HUE Web UI Error Impala Could not connect to localhost:21050

impala服務沒有啟動的原因。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MySQL安裝過程中遇到的錯誤代碼為1045的解決方法 Storm編譯打包過程中遇到的一些問題及解決方法蘑菇街TeamTalk編譯連接過程中遇到的問題及解決方法（iOS）使用quartus和NIOS過程中遇到的問題和解決方法 MGR搭建過程中遇到的錯誤以及解決辦法在使用Kafka過程中遇到的錯誤 Cypress-自動化測試-獲取元素過程中遇到的問題及解決方法 RK3288開發過程中遇到的問題點和解決方法之Packages 解決爬取網站過程中遇到的HTTP Error 302錯誤和中文亂碼問題將html代碼部署到阿里雲服務器，並進行域名解析，以及在部署過程中遇到的問題和解決方法