1、故障描述
這是運行在公有雲上的一套Hadoop集群,有一個公網IP將部分服務的端口映射出來供辦公室訪問。
數據分析師報告說:在HUE上面瀏覽HDFS文件,點擊"download"准備下載時,會被重定向到 http://10.0.34.11:4032/webhdfs/v1/xk/logs/prd/game/xxxxx 類似的內網IP並且瀏覽器報錯ERR_CONNECTION_TIMED_OUT,影響文件無法下載
2、思考與分析
從重定向的地址來看,是HUE調用了webhdfs的接口,但是這個地址被配置成了局域網IP,而辦公室是不能直接訪問服務的內網的,所以就會超時報錯。
3、解決方法
a)將webhdfs的IP、端口映射到公網,將設置安全組,只允許幾個辦公區的IP可以訪問
過程略……
b)修改HUE的配置文件,將參數webhdfs_url的值改成已映射的公網IP
cd /usr/local/service/hue/desktop/conf && cp pseudo-distributed.ini pseudo-distributed.ini.bak.20200114
vim pseudo-distributed.ini 將參數webhdfs_url的值改成已映射的公網IP
重啟HUE服務
4、擴展
通過HUE,一次只能下載一個文件,如果需要一次性下載多個文件的話,可以考慮使用hdfs命令將文件/目錄下載到Linux服務器上,例如:
hadoop dfs -get /xk/logs/prd/game/xxxx/xxxx/11 ~/tmp_dir/