在Hadoop運行spectralkmeans算法時,出現錯誤信息如下,但用mahout0.6卻可以運行。
java.lang.RuntimeException: java.lang.ClassNotFoundException: org.apache.mahout.clustering.spectral.common.AffinityMatrixInputMapper
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:866)
at org.apache.hadoop.mapreduce.JobContext.getMapperClass(JobContext.java:195)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:718)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:369)
at org.apache.hadoop.mapred.Child$4.run(Child.java:259)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
仔細觀察運行的日志信息,發現這么一句:
12/07/12 15:53:59 WARN mapred.JobClient: No job jar file set. User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
網上一查,原來是在job提交時沒有調用setJarByClass方法導致的,對照mahout0.5與0.6的源碼,果然是0.5中每個job在提交時都沒有調用setJarByClass
解決辦法:在每個Job調用job.waitForCompletion(true);之前加入job.setJarByClass(對應的Job.class);重新編譯即可。