花費 12 ms
Spark之RDD的定義及五大特性

  RDD是分布式內存的一個抽象概念,是一種高度受限的共享內存模型,即RDD是只讀的記錄分區的集合,能橫跨集群所有節點並行計算,是一種基於工作集的應用抽象。   RDD底層存儲原理:其數據分布存儲於 ...

Wed Jun 05 03:44:00 CST 2019 0 2760
Spark之RDD容錯原理及四大核心要點

一、Spark RDD容錯原理   RDD不同的依賴關系導致Spark對不同的依賴關系有不同的處理方式。   對於寬依賴而言,由於寬依賴實質是指父RDD的一個分區會對應一個子RDD的多個分區,在此 ...

Sun Jun 23 05:57:00 CST 2019 0 843
Spark學習之數據讀取與保存總結(一)

一、動機   我們已經學了很多在 Spark 中對已分發的數據執行的操作。到目前為止,所展示的示例都是從本地集合或者普通文件中進行數據讀取和保存的。但有時候,數據量可能大到無法放在一台機器中,這時就 ...

Tue Apr 16 02:24:00 CST 2019 0 929
Spark之RDD彈性特性

  RDD作為彈性分布式數據集,它的彈性具體體現在以下七個方面。 1.自動進行內存和磁盤數據存儲的切換   Spark會優先把數據放到內存中,如果內存實在放不下,會放到磁盤里面,不但能計算內存放下 ...

Wed Jun 05 04:48:00 CST 2019 0 602
Spark之RDD依賴關系及DAG邏輯視圖

  RDD依賴關系為成兩種:窄依賴(Narrow Dependency)、寬依賴(Shuffle Dependency)。窄依賴表示每個父RDD中的Partition最多被子RDD的一個Partiti ...

Tue Jun 18 01:11:00 CST 2019 0 581
Spark學習之RDD編程總結

  Spark 對數據的核心抽象——彈性分布式數據集(Resilient Distributed Dataset,簡稱 RDD)。RDD 其實就是分布式的元素集合。在 Spark 中,對數據的所有操作 ...

Sun Mar 31 04:18:00 CST 2019 0 575
Spark實戰電影點評系統(一)

一、通過RDD實戰電影點評系統   日常的數據來源有很多渠道,如網絡爬蟲、網頁埋點、系統日志等。下面的案例中使用的是用戶觀看電影和點評電影的行為數據,數據來源於網絡上的公開數據,共有3個數據文件:u ...

Mon May 13 22:11:00 CST 2019 0 455

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM