spark工作原理

本文轉載自查看原文 2020-05-03 18:43 877 spark集群/ spark工作原理

1、分布式

2、基於內存

3、迭代式計算

每一批節點上的每一批數據就是一個RDD

RDD是spark的核心抽象

1、RDD是Spark提供的核心抽象，全稱為Resillient Distributed Dataset，即彈性分布式數據集。
2、RDD在抽象上來說是一種元素集合，包含了數據。它是被分區的，分為多個分區，每個分區分布在集群中的不同節點上，從而讓RDD中的數據可以被並行操作。（分布式數據集）
3、RDD通常通過Hadoop上的文件，即HDFS文件或者Hive表，來進行創建；有時也可以通過應用程序中的集合來創建。
4、RDD最重要的特性就是，提供了容錯性，可以自動從節點失敗中恢復過來。即如果某個節點上的RDD partition，因為節點故障，導致數據丟了，那么RDD會自動通過自己的數據來源重新計算該partition。這一切對使用者是透明的。
5、RDD的數據默認情況下存放在內存中的，但是在內存資源不足時，Spark會自動將RDD數據寫入磁盤。（彈性）

什么是spark開發

1、離線批處理/延遲交互式數據處理

2、SQL查詢

3、實時計算

核心編程就是

第一定義RDD從哪里來，讀取文件，hdfs，linux本地文件，程序中的集合

第二定義RDD的計算操作，在spark中稱為算子，map，reduce，flatmap，groupbykey，比mapreduce中的map和reduce強大太多

第三循環往復，第一次計算完成就會到新的節點上，變成新的RDD,定義新的算子

第四獲取最終數據，將數據保存起來

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark專題(一)：Spark工作原理圖 Spark Streaming筆記整理（一）：基本工作原理介紹【Spark工作原理】Spark任務調度理解 Spark（四） -- Spark工作機制【原】Learning Spark (Python版) 學習筆記(三)----工作原理、調優與Spark SQL Spark基本工作流程及YARN cluster模式原理(讀書筆記) Spark工作機制簡述 nginx的工作原理和工作模式 SpringMVC是怎么工作的,SpringMVC的工作原理