一 快速性
如果在内存中运行MapRaduce,要比Hadoop快100倍
如果在磁盘中运行,要比Hadoop快10倍
Spark使用先进的有向无环图执行引擎来支持非循环的数据流在内存中计算
二 易用性
Spark提供超过80个高阶算子,这些算子使其很容易构建并行应用
这些算子支持多种语言 按照切合度排序为 Scala, Python, R
三 通用性
Spark有一个强大的堆库,包括SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming
你可以在同一个应用中无缝的组合使用这些库
四 跨平台性(可运行在任何地方)
Spark可以运行在Hadoop, Mesos, standalone, or in the cloud
他可以访问不同的数据源包括HDFS, Cassandra, HBase, and S3.