Spark簡介 --大數據

本文轉載自查看原文 2019-05-09 21:18 1515 Spark/ 大數據

快速且通用的集群計算平台

包含基本功能，包括任務調度、內存管理、容錯機制。內部定義了RDDS（彈性分布式數據集），提供了很多APIs來創建和操作這些RDDs。
應用場景：為其它組件提供底層的服務。

Spark處理結構化數據的庫，像Hive SQL、MySQL一樣。
應用場景：企業中用來做報表統計

實時數據流處理組件，類似Storm。Spark Streaming提供API來操作實時流數據。
應用場景：企業中用來從Kafka接收數據做實時統計

一個包含通用機器學習功能的包，Machine learning lib。包含分類、聚類、回歸等，還包括模型評估和數據導入。MLlib提供的上面這些方法，都支持集群上的橫向擴展。

處理圖的庫（例如社交網絡圖），並進行圖的並行計算，像Spark Streaming,Spark SQL一樣，它繼承了RDD API。提供了各種圖的操作，和常用的圖算法，例如RangeRank算法
應用場景：圖計算

集群管理，Spark自帶一個集群管理是單獨調度器。常見的集群管理包括：Hadoop YARN、Apache Mesos

Spark底層優化，基於Spark底層的組件，也得到相應的優化。緊密集成，節省了各個組件使用時的部署，測試時間。向Spark增加新的組件時，其它組件可立即享用新組件的功能。

Hadoop應用場景：離線處理、對及時性要求不高
Spark應用場景：時效性要求高、機器學習等領域

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據--Spark原理 Azure HDInsight 和 Spark 大數據實戰(一) 大數據hadoop與spark的區別 Spark 大數據文本統計大數據軟件比較MapReduce和Spark 大數據Hadoop之——計算引擎Spark 【原創】大數據基礎之Kudu（4）spark讀寫kudu spark + cassandra +postgres +codis 大數據方案大數據框架對比：Hadoop、Storm、Samza、Spark和Flink Spark快速大數據分析之RDD基礎