CDH 5.12.0 默認spark使用1.6.0,雖然spark 1.6.0支持DataFrame,但顯得有點版本過舊。需要在cdh 5.12中使用spark 2.X版本,網上搜索了一圈,基本都是都是通過parcels方式進行安裝,官方也推薦這種方式。本人比較懶,所以就想Apache spark原生版本是否直接支持CDH呢?經過測試完美支持。簡單記錄一下步驟:
1、下載原生apache spark 2.4.2版本,直接解壓即可。
2、設置環境變量HADOOP_CONF_DIR和YARN_CONF_DIR,建議在/etc/profile.d/目錄下創建文件,如spark.sh。source /etc/profile.d/spark.sh直接生效。
3、為了支持對hive進行讀寫,復制hive-site.xml到conf目錄。cp /etc/hive/conf/hive-site.xml /usr/local/spark-2.4.2/conf/。
4、驗證是否成功執行。