Mahout 0.10.1安裝(Hadoop2.6.0)及Kmeans測試


1.版本和安裝路徑

Ubuntu 14.04

Mahout_Home=/opt/mahout-0.10.1

Hadoop_Home=/usr/local/hadoop

Mavent_Home=/opt/apache-mavent-3.3.3

Hadoop version=2.6.0

Mahout version=0.10.1

Mavent version=3.3.3

2.Mahout重新編譯

Mahout下載:http://archive.apache.org/dist/mahout/

在2.0版本以上的hadoop上使用時, 需要重新編譯

$ git clone https://github.com/apache/mahout.git
$ mvn clean package -Dhadoop2 -Dhadoop2.version=2.6.0 -DskipTests=true
 
編譯完成后將編譯出來的
\mahout\examples\target\mahout-examples-SNAPSHOT-0.10.1.jar
\mahout\examples\target\mahout-examples-SNAPSHOT-0.10.1-job.jar
替換mahout目錄中的mahout-examples-0.10.1.jar, mahout-examples-0.10.1-job.jar兩個文件

3.環境變量

sudo gedit ~/.bashrc

  

#Mahout
HADOOP_HOME=/usr/local/hadoop
HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

MAHOUT_HOME=/opt/mahout-0.10.1
MAHOUT_CONF_DIR=$MAHOUT_HOME/conf

PATH=$PATH:$HADOOP_HOME/bin:$MAHOUT_HOME/bin

#Maven
MAVEN_HOME=/opt/apache-maven-3.3.3
export MAVEN_HOME
export PATH=${PATH}:${MAVEN_HOME}/bin

安裝路徑要跟自己的要一致

環境變量更改立即生效:

source ~/.bashrc

在Mahout安裝路徑下運行命令:mahout,安裝成功。

4.kmeans簡單運行

下載測試數據集synthetic_control.data

http://archive.ics.uci.edu/ml/databases/synthetic_control/

在HDFS中創建testdata目錄,必須是testdata目錄!並且每次運行hadoop都要刪掉原來的output目錄!

bin/hadoop fs -mkdir -p testdata

上傳到HDFS中testdata目錄中

hadoop fs -copyFromLocal /home/hadoop/桌面/synthetic_control.data testdata

在Mahout安裝目錄下啟動kmeans

mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

結果:

查看output目錄:

eclipse下

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM