今天犯了一個致命理解錯誤,Spark中的RDD Map操作只是一個計算式的傳遞,並不是Action,也就是在for循環中不會產生真正的計算。
因此,如果for循環中出現了RDD的Map類似操作,都會引起異常,例如棧溢出等等,屬於相互引用錯誤。
把我的錯誤代碼貼在下面,加深理解。
List<String> list = new ArrayList<>(); list.add("OK1"); JavaRDD<String> temp = jsc.parallelize(list); for (int i=0; i<num; i++) { for (int j=i+1; j<num; j++) { List<String> list2 = new ArrayList<>(); list2.add("OK2"); temp = temp.union(jsc.parallelize(list2)); } } List<String> list3 = temp.collect();