其实这两个工具之间一般并不存在取舍关系。
业界一般会结合试用这两个工具。
hadoop基于集群存储和分析调度的工具包,大家常用的有hdfs,mapreduce,yarn,属于平台基础设施,主要负责海量数据存储和并行计算调度。
而spark是个大数据快速分析工具,一般实在hadoop基础上运行(虽然也可独立运行),通过hadoop的yarn调度,实现海量数据的流式处理。
另外,spark也包含一个机器学习的库mllib,用来进行机器学习。
其实这两个工具之间一般并不存在取舍关系。
业界一般会结合试用这两个工具。
hadoop基于集群存储和分析调度的工具包,大家常用的有hdfs,mapreduce,yarn,属于平台基础设施,主要负责海量数据存储和并行计算调度。
而spark是个大数据快速分析工具,一般实在hadoop基础上运行(虽然也可独立运行),通过hadoop的yarn调度,实现海量数据的流式处理。
另外,spark也包含一个机器学习的库mllib,用来进行机器学习。