spark工作原理


1、分布式

2、基於內存

3、迭代式計算

每一批節點上的每一批數據就是一個RDD

 

 RDD是spark的核心抽象

1、RDD是Spark提供的核心抽象,全稱為Resillient Distributed Dataset,即彈性分布式數據集。
2、RDD在抽象上來說是一種元素集合,包含了數據。它是被分區的,分為多個分區,每個分區分布在集群中的不同節點上,從而讓RDD中的數據可以被並行操作。(分布式數據集)
3、RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進行創建;有時也可以通過應用程序中的集合來創建。
4、RDD最重要的特性就是,提供了容錯性,可以自動從節點失敗中恢復過來。即如果某個節點上的RDD partition,因為節點故障,導致數據丟了,那么RDD會自動通過自己的數據來源重新計算該partition。這一切對使用者是透明的。
5、RDD的數據默認情況下存放在內存中的,但是在內存資源不足時,Spark會自動將RDD數據寫入磁盤。(彈性)

 

 

 

 什么是spark開發

1、離線批處理/延遲交互式數據處理

2、SQL查詢

3、實時計算

核心編程就是

第一定義RDD從哪里來,讀取文件,hdfs,linux本地文件,程序中的集合

第二定義RDD的計算操作,在spark中稱為算子,map,reduce,flatmap,groupbykey,比mapreduce中的map和reduce強大太多

第三循環往復,第一次計算完成就會到新的節點上,變成新的RDD,定義新的算子

第四獲取最終數據,將數據保存起來


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM