For循環中不可以嵌套RDD操作


今天犯了一個致命理解錯誤,Spark中的RDD Map操作只是一個計算式的傳遞,並不是Action,也就是在for循環中不會產生真正的計算。

 

因此,如果for循環中出現了RDD的Map類似操作,都會引起異常,例如棧溢出等等,屬於相互引用錯誤。

 

把我的錯誤代碼貼在下面,加深理解。

 

        List<String> list = new ArrayList<>();
        list.add("OK1");

        JavaRDD<String> temp = jsc.parallelize(list);
        for (int i=0; i<num; i++) {
            for (int j=i+1; j<num; j++) {
                List<String> list2 = new ArrayList<>();
                list2.add("OK2");
                temp = temp.union(jsc.parallelize(list2));
            }
        }
        List<String> list3 = temp.collect();

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM