原文:Apache Spark源碼走讀之24 -- Sort-based Shuffle的設計與實現

歡迎轉載,轉載請注明出處。 概要 Spark . 中對spark core的一個重大改進就是引入了sort based shuffle處理機制,本文就該處理機制的實現進行初步的分析。 Sort based Shuffle之初體驗 通過一個小的實驗來直觀的感受一下sort based shuffle算法會產生哪些中間文件,具體實驗步驟如下所述。 步驟 : 修改conf spark default.c ...

2014-09-19 10:22 2 3954 推薦指數:

查看詳情

Spark源碼分析之Sort-Based Shuffle讀寫流程

一 、概述 我們知道Spark Shuffle機制總共有三種: 1.未優化的Hash Shuffle:每一個ShuffleMapTask都會為每一個ReducerTask創建一個單獨的文件,總的文件數是S * R,不僅文件數量很多,造成頻繁的磁盤和網絡I/O,而且內存負擔也很大,GC頻繁 ...

Sun Dec 17 06:33:00 CST 2017 1 1914
Apache Spark源碼走讀之16 -- spark repl實現詳解

歡迎轉載,轉載請注明出處,徽滬一郎。 概要 之所以對spark shell的內部實現產生興趣全部緣於好奇代碼的編譯加載過程,scala是需要編譯才能執行的語言,但提供的scala repl可以實現代碼的實時交互式執行,這是為什么呢? 既然scala已經提供了repl,為什么spark還要 ...

Sat Jun 28 17:21:00 CST 2014 0 4351
Apache Spark源碼走讀之13 -- hiveql on spark實現詳解

歡迎轉載,轉載請注明出處,徽滬一郎 概要 在新近發布的spark 1.0中新加了sql的模塊,更為引人注意的是對hive中的hiveql也提供了良好的支持,作為一個源碼分析控,了解一下spark是如何完成對hql的支持是一件非常有趣的事情。 Hive簡介 Hive的由來 以下部分摘自 ...

Wed Jun 04 19:19:00 CST 2014 1 5075
Apache Spark源碼走讀之9 -- Spark源碼編譯

歡迎轉載,轉載請注明出處,徽滬一郎。 概要 本來源碼編譯沒有什么可說的,對於java項目來說,只要會點maven或ant的簡單命令,依葫蘆畫瓢,一下子就ok了。但到了Spark上面,事情似乎不這么簡單,按照spark officical document上的來做,總會出現這樣或那樣的編譯 ...

Sat May 17 00:44:00 CST 2014 4 5352
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM