歡迎轉載,轉載請注明出處,徽滬一郎。 概要 本來源碼編譯沒有什么可說的,對於java項目來說,只要會點maven或ant的簡單命令,依葫蘆畫瓢,一下子就ok了。但到了Spark上面,事情似乎不這么簡單,按照spark officical document上的來做,總會出現這樣或那樣的編譯 ...
歡迎轉載,轉載請注明出處,徽滬一郎。 概要 上篇博文講述了如何通過修改源碼來查看調用堆棧,盡管也很實用,但每修改一次都需要編譯,花費的時間不少,效率不高,而且屬於侵入性的修改,不優雅。本篇講述如何使用intellij idea來跟蹤調試spark源碼。 前提 本文假設開發環境是在Linux平台,並且已經安裝下列軟件,我個人使用的是arch linux。 jdk scala sbt intellij ...
2014-07-17 13:47 4 10048 推薦指數:
歡迎轉載,轉載請注明出處,徽滬一郎。 概要 本來源碼編譯沒有什么可說的,對於java項目來說,只要會點maven或ant的簡單命令,依葫蘆畫瓢,一下子就ok了。但到了Spark上面,事情似乎不這么簡單,按照spark officical document上的來做,總會出現這樣或那樣的編譯 ...
歡迎轉載,轉載請注明出處,徽滬一郎。 概要 Hadoop2中的Yarn是一個分布式計算資源的管理平台,由於其有極好的模型抽象,非常有可能成為分布式計算資源管理的事實標准。其主要職責將是分布式計算集群的管理,集群中計算資源的管理與分配。 Yarn為應用程序開發提供了比較好的實現標准,Spark ...
歡迎轉載,轉載請注明出處,徽滬一郎。 楔子 源碼閱讀是一件非常容易的事,也是一件非常難的事。容易的是代碼就在那里,一打開就可以看到。難的是要通過代碼明白作者當初為什么要這樣設計,設計之初要解決的主要問題是什么。 在對Spark的源碼進行具體的走讀之前,如果想要快速對Spark的有一個整體性 ...
歡迎轉載,轉載請注明出處,徽滬一郎 概要 在新近發布的spark 1.0中新加了sql的模塊,更為引人注意的是對hive中的hiveql也提供了良好的支持,作為一個源碼分析控,了解一下spark是如何完成對hql的支持是一件非常有趣的事情。 Hive簡介 Hive的由來 以下部分摘自 ...
歡迎轉載,轉載請注明出處,徽滬一郎。 楔子 Hive是基於Hadoop的開源數據倉庫工具,提供了類似於SQL的HiveQL語言,使得上層的數據分析人員不用知道太多MapReduce的知識就能對存 ...
歡迎轉載,轉載請注明出處,徽滬一郎。 概要 之所以對spark shell的內部實現產生興趣全部緣於好奇代碼的編譯加載過程,scala是需要編譯才能執行的語言,但提供的scala repl可以實現代碼的實時交互式執行,這是為什么呢? 既然scala已經提供了repl,為什么spark還要 ...
各位工程師累了嗎? 推薦一篇可以讓你技術能力達到出神入化的網站"宅男門診" 1. 准備工作 首先你的系統中需要安裝了 JDK 1.6+,並且安裝了 Scala。之后下載最新版的 IntelliJ IDEA 后,首先安裝(第一次打開會推薦你安裝)Scala 插件,相關方法就不多說了。至此 ...
歡迎轉載,轉載請注明出處,徽滬一郎。 Spark Streaming能夠對流數據進行近乎實時的速度進行數據處理。采用了不同於一般的流式數據處理模型,該模型使得Spark Streaming有非常高的處理速度,與storm相比擁有更高的吞能力。 本篇簡要分析Spark Streaming的處理 ...