你好,这两个大数据组件都接触了一段时间,非常荣幸来交流这个问题。
首先要明确Spark比Hadoop的性能好,我个人认为只是说Spark的运算性能要比MapReduce强百倍。
而Hadoop有三大组件HDFS分布式文件系统
Yarn是一个通用资源调度平台
为程序提供运算资源(CPU、RAM等)
相当于一个分布式的操作系统平台
MapReduce
分布式运算框架,分map和reduce来处理数据
Spark程序经常也是运行在yarn上
Spark做离线处理经常也是处理hdfs的数据
Hadoop未来的发展
1.MapReduce的余热也就是运行hive
目前来看hive仍是SQL处理大数据的第一选择
2.HDFS仍是分布式文件系统的不二之选,为Hbase等提供支持
3.yarn作为通用的资源调度平台,以后的运算框架都还将依赖yarn
4.MapReduce必定会有性能和架构上的提升
总的来说Hadoop开启了大数据大门,奠定了大数据的基本运算模型,随着它的不断革新,必定还将大放异彩。
上述就是我对spark和hadoop的一点拙见,欢迎大家进行评论指教,也麻烦大家关注、点赞。
学习是人充实,祝大家出任CTO、迎娶白富美 !!!O(∩_∩)O