一 快速性
如果在內存中運行MapRaduce,要比Hadoop快100倍
如果在磁盤中運行,要比Hadoop快10倍
Spark使用先進的有向無環圖執行引擎來支持非循環的數據流在內存中計算
二 易用性
Spark提供超過80個高階算子,這些算子使其很容易構建並行應用
這些算子支持多種語言 按照切合度排序為 Scala, Python, R
三 通用性
Spark有一個強大的堆庫,包括SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming
你可以在同一個應用中無縫的組合使用這些庫
四 跨平台性(可運行在任何地方)
Spark可以運行在Hadoop, Mesos, standalone, or in the cloud
他可以訪問不同的數據源包括HDFS, Cassandra, HBase, and S3.