hadoop和hbase都差不多是第一次使用,所以在整個過程中難免遇到各種問題。我把我遇到過的所有解決了的錯誤,全部在這,遇到問題的增多文章再逐步增加。在hadoop和hbase使用過程中,日志分析是必不可少的一部分,對解決問題相當關鍵。
1、PC之間時間不同步(hbase)
FATAL org.apache.hadoop.hbase.regionserver.HRegionServer: Master rejected startup because clock is out of sync org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server suc-pc,60020,1363269953286 has been rejected; Reported time is too far out of sync with master. Time difference of 39375ms > max allowed of 30000ms
小問題,一看就知道錯誤發生在哪。在hbase中,允許小的時間偏差,但是上面39秒的時間偏差就有點大了。如果你是聯網的話,可以用ntpdate 219.158.14.130進行同步。219.158.14.130是網通北京的時間服務器,如果不行你可以用別的服務器進行同步。
2、zookeeper服務器未設置或者/etc/hosts設置有誤(hbase)
2013-03-11 19:41:08,263 INFO org.apache.zookeeper.ClientCnxn: Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error) 2013-03-11 19:41:08,266 WARN org.apache.zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect java.net.ConnectException: 拒絕連接 at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:692) at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:350) at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1068)
這個問題的出現,會伴隨一個非常奇怪的現象。在master所在的pc上啟動start-all時,內容提示所有的regionserver已經全部啟動。但是,如果你去查看masterIP:60010時會發現其他的regionserver並沒有啟動,regionserver的數量只有一台。因為已經有一台regionserver是活着的,所以hbase還是能繼續使用的,這會迷惑你。查看別的機器的日志后,你就會發現上述錯誤。zookeeper的定位居然定位到127.0.0.1去了,這個不科學。最后,查閱資料才發現hbase.zookeeper.quorum這個屬性設置時,默認本機即為zookeeper服務器(單機使用)。這就很簡單了,只需要增加這個屬性就可以了。
<property> <name>hbase.zookeeper.quorum</name> <value>10.82.58.213</value> </property>
同時,也發現如果/etc/hosts設置錯誤也會發生類似問題。/etc/hosts中,localhost和本機PC名都需要為127.0.0.1,因為本機PC名默認是127.0.1.1。