spark分區數,task數目,core數,worker節點個數,excutor數量梳理

本文轉載自查看原文 2017-11-07 20:04 1244 BigData-Hadoop/ Hadoop+Spark

作者：王燚光
鏈接：https://www.zhihu.com/question/33270495/answer/93424104
來源：知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

梳理一下Spark中關於並發度涉及的幾個概念File，Block，Split，Task，Partition，RDD以及節點數、Executor數、core數目的關系。

輸入可能以多個文件的形式存儲在HDFS上，每個File都包含了很多塊，稱為 Block。
當Spark讀取這些文件作為輸入時，會根據具體數據格式對應的InputFormat進行解析，一般是將若干個Block合並成一個輸入分片，稱為 InputSplit，注意InputSplit不能跨越文件。
隨后將為這些輸入分片生成具體的 Task。InputSplit與Task是 一一對應的關系。
隨后這些具體的Task每個都會被分配到集群上的某個節點的某個 Executor去執行。

每個節點可以起一個或多個Executor。
每個Executor由若干core組成，每個Executor的每個core一次只能執行一個Task。
每個Task執行的結果就是生成了目標RDD的一個partiton。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark分區數,task數目,core數,worker節點個數,excutor數量梳理 spark分區數,task數目,core數,worker節點個數,excutor數量梳理任務中如何確定spark分區數、task數目、core個數、worker節點個數、excutor數量 Spark：任務中如何確定spark分區數、task數目、core個數、worker節點個數、excutor數量 Spark中Task，Partition，RDD、節點數、Executor數、core數目（線程池）、mem數 Spark executor中task的數量與最大並發數 Spark RDD的默認分區數：（spark 2.1.0） Spark：RDD分區數和分區器 Kafka分區數與消費者個數 spark內核篇-task數與並行度