SPARK 組成模塊


  • Spark Core

    • 實現了Spark的基本功能,包含任務調度、內存管理、錯誤恢復、與存儲系統交互等模塊。Spark Core中還包含了對彈性分布式數據集(Resilient Distributed DataSet,簡稱RDD)的API定義

  • Spark SQL

    • 是Spark用來操作結構化數據的程序包。通過Spark SQL,我們可以使用 SQL或者Hive SQL來查詢數據。Spark SQL支持多種數據源,比如Hive表、Parquet以及JSON等

  • Spark Streaming

    • 是Spark提供的對實時數據進行流式計算的組件。提供了用來操作數據流的API,並且與Spark Core中的 RDD API高度對應

  • Spark MLlib

    • 提供常見的機器學習(ML)功能的程序庫。包括分類、回歸、聚類、協同過濾等,還提供了模型評估、數據 導入等額外的支持功能

  • 集群管理器

    • Spark 設計為可以高效地在一個計算節點到數千個計算節點之間伸縮計 算。為了實現這樣的要求,同時獲得最大靈活性,Spark支持在各種集群管理器(Cluster Manager)上運行,包括Hadoop YARN、Apache Mesos,以及Spark自帶的一個簡易調度 器,叫作獨立調度器(Standalone)


  • 免責聲明!

    本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



     
    粵ICP備18138465號   © 2018-2025 CODEPRJ.COM