本人从事大数据相关行业,可以谈谈关于hadoop生态系统认识!Hadoop 是 Apache 旗下的一套开源软件平台H它提供的功能有:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
Hadoop 的核心组件有
Common(基础功能组件)(工具包,RPC 框架)JNDI 和 RPC
HDFS(Hadoop Distributed File System 分布式文件系统)
YARN(Yet Another Resources Negotiator 运算资源调度系统)
MapReduce(Map 和 Reduce 分布式运算编程框架)
在广义上来说,Hadoop 通常是指一个更广泛的概念--Hadoop 生态圈,官网介绍: 软件库是一个允许跨集群用简单的模型对于大数据的分布式处理的框架。它的目的是扩大从单一服务器到成千上万的机器,提供每个本地计算和存储。而不是依靠硬件来实现高可用性,库本身的是检测和处理在应用程序层的故障,所以提供高可用性服务除了计算机集群,每一种都可能导致故障。该项目包括很多模块下面简单介绍一些常用的
Hadoop Common:基础功能类库支持其他Hadoop 模块
Hadoop Distributed File System:一个分布式文件系统,它提供了高通量访问应用程序数据
Hadoop YARN:一个集群作业调度和资源管理的框架
Hadoop MapReduce:YARN-based 系统并行处理大型数据集。(版本升级以 YARN 做资源管理器的 Hadoop
Ambari™:一个基于 web 的工具配置,管理和监视 Apache Hadoop 集群,包括支持
Hadoop 的 Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie, Pig and Sqoop。Ambari 还提供了一个仪表板查看集群健康,如热图和能够有效看到 MapReduce,Pig 和 Hive 应用的特性来诊断性能特征以用户友好的方式。
Avro™: 数据序列化系统。
Cassandra™:一个没有单点故障可伸缩的多主机数据库。
Chukwa™:一个管理大型分布式系统的数据采集系统。
HBase™:一个可扩展的分布式数据库,支持大型表的结构化数据存储。
Hive™:一个数据仓库基础设施,提供了数据总结和特别查询。
Mahout™:一个可扩展的机器学习和数据挖掘库。
Pig™:一个高级数据流语言和并行计算的执行框架。
Spark™:Hadoop 数据的快速、通用的计算引擎。Spark 提供了一个简单的和丰富的编
程模型,支持广泛的应用程序,包括 ETL、机器学习、流处理和图计算。
Tez™:一个广义数据流编程框架,基于 Hadoop 的 YARN,它提供了一个功能强大且灵
活的引擎来执行任意 DAG(有向无环图)的任务来处理批处理和交互用例的数据。Tez
正在被 Hive™, Pig™ 和其他框架 Hadoop 生态系统,以及其他商业软件(例如 ETL 工
具),以取代 Hadoop MapReduce™作为底层执行引擎。
ZooKeeper™:一个高性能的分布式应用程序的协调服务!
如果只看文字确实感觉一头雾水,现在放几张图,可以比较直观清晰的帮助我们去理解!
欢迎关注,讨论