Hadoop和Spark的区别解决问题的出发点不一样,Hadoop用普通硬件解决存储和计算问题。 Spark用于构建大型的、低延迟的数据分析应用程序,不实现存储。Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark中间数据放到内存中,迭代运算效率高。
Spark引进了弹性分布式数据集的抽象,数据对象既可以放在内存,也可以放在磁盘,容错性高,可用自动重建,RDD计算时可以通过CheckPoint来实现容错。
Hadoop只提供了Map和Reduce操作。而Spark更加通用,提供的数据集操作类型有很多种,主要分为: Transformations和Actions两大类。