【文章推薦】撰寫的《大數據處理框架Apache Spark設計與實現》出版了

原文：撰寫的《大數據處理框架Apache Spark設計與實現》出版了

拖拖拉拉寫了很久的書大數據處理框架Apache Spark設計與實現終於出版了。書的內容是以Apache Spark為主，系統總結了大數據處理框架的一些基本問題設計原理實現方案以及性能和可靠性。相比之前在github上寫的 SparkInternals ，內容更完善專業深入，書中大概有一半的頁配有全彩插圖。感謝孫學瑛編輯及團隊的付出感謝朋友們提出的審閱意見以及實驗室和親朋好友的大力 ...

2020-07-21 11:52 6 1730 推薦指數：

查看詳情

我的《海量數據處理與大數據技術實戰》出版啦！

我是如何持續寫作的？其實，關於寫作，我也沒多想，就是想着總結自己學習和工作中遇到的一些問題。我最開始寫文章並不是在CSDN或者其他的一些博客平台，而是在QQ空間。那時的我還在上學，在QQ空間里 ...

Spark大數據處理 之從WordCount看Spark大數據處理的核心機制（2）

在上一篇文章中，我們講了Spark大數據處理的可擴展性和負載均衡，今天要講的是更為重點的容錯處理，這涉及到Spark的應用場景和RDD的設計來源。 Spark的應用場景 Spark主要針對兩種場景：機器學習，數據挖掘，圖應用中常用的迭代算法（每一次迭代對數據執行相似的函數 ...

Spark大數據處理 之從WordCount看Spark大數據處理的核心機制（1）

大數據處理肯定是分布式的了，那就面臨着幾個核心問題：可擴展性，負載均衡，容錯處理。Spark是如何處理這些問題的呢？接着上一篇的“動手寫WordCount”，今天要做的就是透過這個大數據界的HelloWorld來看看Spark隱藏了哪些魔法。請各位看官，帶着分布式的問題往下看。分布式架構 ...

大數據處理框架

說起大數據處理啊，一切都起源於Google公司的經典論文。在當時（2000年左右），由於網頁數量急劇增加，Google公司內部平時要編寫很多的程序來處理大量的原始數據：爬蟲爬到的網頁、網頁請求日志；計算各種類型的派生數據：倒排索引、網頁的各種圖結構等等。這些計算在概念上很容易理解，但由於輸入 ...

三個大數據處理框架：Storm，Spark和Samza 介紹比較

轉自：http://www.open-open.com/lib/view/open1426065900123.html 許多分布式計算系統都可以實時或接近實時地處理大數據流。本文將對三種Apache框架分別進行簡單介紹，然后嘗試快速、高度概述其異同 ...

Spark大數據處理框架入門(單機版)

導讀引言環境准備安裝步驟 1.下載地址 2.開始下載 3.解壓spark 4.配置環境變量 5.配置 spark-env.sh 6.啟動spark服務 7.測試spark 感謝您的閱讀 ...

Storm，Spark和Flink三種流式大數據處理框架對比

storm、spark streaming、flink都是開源的分布式系統，具有低延遲、可擴展和容錯性諸多優點，允許你在運行數據流代碼時，將任務分配到一系列具有容錯能力的計算機上並行運行,都提供了簡單的API來簡化底層實現的復雜程度。 Apache Storm 在Storm中，先要設計一個用於 ...

《Spark大數據處理》—— 讀后總結

前幾章工作機制 ...

原文：撰寫的《大數據處理框架Apache Spark設計與實現》出版了

相關推薦

相關標簽