【文章推薦】Apache Spark源碼走讀之14 -- Graphx實現剖析

原文：Apache Spark源碼走讀之14 -- Graphx實現剖析

歡迎轉載，轉載請注明出處，徽滬一郎。概要圖的並行化處理一直是一個非常熱門的話題，這里頭的重點有兩個，一是如何將圖的算法並行化，二是找到一個合適的並行化處理框架。Spark作為一個非常優秀的並行處理框架，將一些並行化的算法移到其上面就成了一個很自然的事情。 Graphx是一些圖的常用算法在Spark上的並行化實現，同時提供了豐富的API接口。本文就Graphx的代碼架構及pagerank在gra ...

2014-06-11 11:01 0 5681 推薦指數：

查看詳情

Apache Spark源碼走讀之13 -- hiveql on spark實現詳解

歡迎轉載，轉載請注明出處，徽滬一郎概要在新近發布的spark 1.0中新加了sql的模塊，更為引人注意的是對hive中的hiveql也提供了良好的支持，作為一個源碼分析控，了解一下spark是如何完成對hql的支持是一件非常有趣的事情。 Hive簡介 Hive的由來以下部分摘自 ...

Apache Spark源碼走讀之16 -- spark repl實現詳解

歡迎轉載，轉載請注明出處,徽滬一郎。概要之所以對spark shell的內部實現產生興趣全部緣於好奇代碼的編譯加載過程，scala是需要編譯才能執行的語言，但提供的scala repl可以實現代碼的實時交互式執行，這是為什么呢？既然scala已經提供了repl，為什么spark還要 ...

Apache Spark源碼走讀之9 -- Spark源碼編譯

歡迎轉載，轉載請注明出處，徽滬一郎。概要本來源碼編譯沒有什么可說的，對於java項目來說，只要會點maven或ant的簡單命令，依葫蘆畫瓢，一下子就ok了。但到了Spark上面，事情似乎不這么簡單，按照spark officical document上的來做，總會出現這樣或那樣的編譯 ...

Apache Spark源碼走讀之8 -- Spark on Yarn

歡迎轉載，轉載請注明出處，徽滬一郎。概要 Hadoop2中的Yarn是一個分布式計算資源的管理平台，由於其有極好的模型抽象，非常有可能成為分布式計算資源管理的事實標准。其主要職責將是分布式計算集群的管理，集群中計算資源的管理與分配。 Yarn為應用程序開發提供了比較好的實現標准，Spark ...

Apache Spark源碼走讀之23 -- Spark MLLib中擬牛頓法L-BFGS的源碼實現

歡迎轉載，轉載請注明出處，徽滬一郎。概要本文就擬牛頓法L-BFGS的由來做一個簡要的回顧，然后就其在spark mllib中的實現進行源碼走讀。擬牛頓法數學原理代碼實現 L-BFGS算法中使用到的正則化方法 ...

Apache Spark源碼走讀之1 -- Spark論文閱讀筆記

歡迎轉載，轉載請注明出處，徽滬一郎。楔子源碼閱讀是一件非常容易的事，也是一件非常難的事。容易的是代碼就在那里，一打開就可以看到。難的是要通過代碼明白作者當初為什么要這樣設計，設計之初要解決的主要問題是什么。在對Spark的源碼進行具體的走讀之前，如果想要快速對Spark的有一個整體性 ...

Apache Spark源碼走讀之12 -- Hive on Spark運行環境搭建

的模塊是執行模塊，這一部分是用Hadoop中MapReduce計算框架來實現，因而在處理速度上不是非常 ...

Apache Spark源碼走讀之24 -- Sort-based Shuffle的設計與實現

歡迎轉載，轉載請注明出處。概要 Spark 1.1中對spark core的一個重大改進就是引入了sort-based shuffle處理機制，本文就該處理機制的實現進行初步的分析。 Sort-based Shuffle之初體驗通過一個小的實驗來直觀的感受一下sort-based ...

原文：Apache Spark源碼走讀之14 -- Graphx實現剖析

相關推薦

相關標簽