歡迎轉載,轉載請注明出處,徽滬一郎 概要 在新近發布的spark 1.0中新加了sql的模塊,更為引人注意的是對hive中的hiveql也提供了良好的支持,作為一個源碼分析控,了解一下spark是如何完成對hql的支持是一件非常有趣的事情。 Hive簡介 Hive的由來 以下部分摘自 ...
歡迎轉載,轉載請注明出處,徽滬一郎。 概要 圖的並行化處理一直是一個非常熱門的話題,這里頭的重點有兩個,一是如何將圖的算法並行化,二是找到一個合適的並行化處理框架。Spark作為一個非常優秀的並行處理框架,將一些並行化的算法移到其上面就成了一個很自然的事情。 Graphx是一些圖的常用算法在Spark上的並行化實現,同時提供了豐富的API接口。本文就Graphx的代碼架構及pagerank在gra ...
2014-06-11 11:01 0 5681 推薦指數:
歡迎轉載,轉載請注明出處,徽滬一郎 概要 在新近發布的spark 1.0中新加了sql的模塊,更為引人注意的是對hive中的hiveql也提供了良好的支持,作為一個源碼分析控,了解一下spark是如何完成對hql的支持是一件非常有趣的事情。 Hive簡介 Hive的由來 以下部分摘自 ...
歡迎轉載,轉載請注明出處,徽滬一郎。 概要 之所以對spark shell的內部實現產生興趣全部緣於好奇代碼的編譯加載過程,scala是需要編譯才能執行的語言,但提供的scala repl可以實現代碼的實時交互式執行,這是為什么呢? 既然scala已經提供了repl,為什么spark還要 ...
歡迎轉載,轉載請注明出處,徽滬一郎。 概要 本來源碼編譯沒有什么可說的,對於java項目來說,只要會點maven或ant的簡單命令,依葫蘆畫瓢,一下子就ok了。但到了Spark上面,事情似乎不這么簡單,按照spark officical document上的來做,總會出現這樣或那樣的編譯 ...
歡迎轉載,轉載請注明出處,徽滬一郎。 概要 Hadoop2中的Yarn是一個分布式計算資源的管理平台,由於其有極好的模型抽象,非常有可能成為分布式計算資源管理的事實標准。其主要職責將是分布式計算集群的管理,集群中計算資源的管理與分配。 Yarn為應用程序開發提供了比較好的實現標准,Spark ...
歡迎轉載,轉載請注明出處,徽滬一郎。 概要 本文就擬牛頓法L-BFGS的由來做一個簡要的回顧,然后就其在spark mllib中的實現進行源碼走讀。 擬牛頓法 數學原理 代碼實現 L-BFGS算法中使用到的正則化方法 ...
歡迎轉載,轉載請注明出處,徽滬一郎。 楔子 源碼閱讀是一件非常容易的事,也是一件非常難的事。容易的是代碼就在那里,一打開就可以看到。難的是要通過代碼明白作者當初為什么要這樣設計,設計之初要解決的主要問題是什么。 在對Spark的源碼進行具體的走讀之前,如果想要快速對Spark的有一個整體性 ...
的模塊是執行模塊,這一部分是用Hadoop中MapReduce計算框架來實現,因而在處理速度上不是非常 ...
歡迎轉載,轉載請注明出處。 概要 Spark 1.1中對spark core的一個重大改進就是引入了sort-based shuffle處理機制,本文就該處理機制的實現進行初步的分析。 Sort-based Shuffle之初體驗 通過一個小的實驗來直觀的感受一下sort-based ...