-
實現了Spark的基本功能,包含任務調度、內存管理、錯誤恢復、與存儲系統交互等模塊。Spark Core中還包含了對彈性分布式數據集(Resilient Distributed DataSet,簡稱RDD)的API定義
Spark SQL
-
是Spark用來操作結構化數據的程序包。通過Spark SQL,我們可以使用 SQL或者Hive SQL來查詢數據。Spark SQL支持多種數據源,比如Hive表、Parquet以及JSON等
Spark Streaming
-
是Spark提供的對實時數據進行流式計算的組件。提供了用來操作數據流的API,並且與Spark Core中的 RDD API高度對應
Spark MLlib
-
提供常見的機器學習(ML)功能的程序庫。包括分類、回歸、聚類、協同過濾等,還提供了模型評估、數據 導入等額外的支持功能
集群管理器
-
Spark 設計為可以高效地在一個計算節點到數千個計算節點之間伸縮計 算。為了實現這樣的要求,同時獲得最大靈活性,Spark支持在各種集群管理器(Cluster Manager)上運行,包括Hadoop YARN、Apache Mesos,以及Spark自帶的一個簡易調度 器,叫作獨立調度器(Standalone)