大数据与Hadoop之间是什么关系？_linux系统

谢谢邀请！

大数据是一系列技术的统称，经过多年的发展，大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节，这些环节涉及到诸多大数据工作岗位，这些工作岗位与物联网、云计算也都有密切的联系。

大数据自身的岗位包括大数据平台研发、大数据应用开发、大数据分析、大数据运维等，不同的工作岗位有不同的任务要求。比如大数据平台研发主要从事大数据基础性的开发任务，解决大数据分布式存储和分布式计算机的系统级问题，另外还需要考虑并发、安全、事务等内容。

Hadoop本身就是大数据平台研发人员的工作成果，Hadoop是目前比较常见的大数据支撑性平台，Hadoop平台提供了分布式存储（HDFS）、分布式计算（MapReduce）、任务调度（YARN）、对象存储（Ozone）和组件支撑服务（Common）。

大数据开发人员可以通过Hadoop提供的系统级服务支持从而帮助企业完成大数据改造，对于开发人员来说，只需要关注于具体的服务实现就可以了，系统级功能已经由Hadoop提供了实现。所以，Hadoop是大数据开发人员的重要基础。

随着Hadoop的不断发展，基于Hadoop的大数据生态越发完善，目前包括Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Spark、Tez、Zookeeper等组件陆续被开发出来，这些组件极大的丰富了Hadoop自身的应用。随着组件的增多，Hadoop自身也越来越重，因此目前很多大数据工程师更愿意使用Spark，因为Spark更轻，速度也更快一些（基于内存）。