在集群上運行spark程序時,rdd的操作都在worker機上,因此輸出rdd的元素將在worker機的標准輸出上進行,驅動節點上不會運行,故直接才程序中寫如下代碼
rdd.foreach(println(_))
並不能產生期望的結果。此時應該先收集數據,再進行打印,即可得到預期結果
rdd.collect().foreach(println(_))
在集群上運行spark程序時,rdd的操作都在worker機上,因此輸出rdd的元素將在worker機的標准輸出上進行,驅動節點上不會運行,故直接才程序中寫如下代碼
rdd.foreach(println(_))
並不能產生期望的結果。此時應該先收集數據,再進行打印,即可得到預期結果
rdd.collect().foreach(println(_))
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。