当前位置：Web开发网 » 操作系统 » linux系统 » 正文

Hadoop一般用在哪些业务场景？

2021年10月14日7440Web开发网百度已收录

Hadoop可以做大数据量存储，它是分布式，可以存储离线的数据，不需要实时性的数据，就像云盘，网盘那样，你用的时候，可以直接读取就行。你也可以将历史数据存储在Hadoop上，通过整体来分析数据，比抽样的数据要全，更可靠。还可以处理大型文件，比如PB级别的，因为它的HDFS是分布式存储数据的，它会将数据按块来进行存储，一般是128M，现在3.0是256M。Hadoop可以做日志处理: 通过MapReduce编程可以抽取想要的内容，也可以结合Flume来收集想要的数据，并通过Hive将数据保存到表，实际上数据底层还是存储在Hadoop上，进行日志分析。Hadoop支持并行计算，因为它是分布式的，数据是存储在不同的机器上，如果你的需求满足分布式计算，那你就可以用MR来就行海量计算。我曾经用MR做过算法，那是2年前啦。Hadoop还可以将数据从oracle、mysql、DB2、mongdb等的数据进行ETL处理后，存储在HDFS上进行保存。它有三个副本，非常可靠。Hadoop还可以通过使用HBase做数据分析，因为HBase是基于Hadoop的数据库，可以实现实时性，高效和随机读写。

上一篇: 学习大数据Hadoop需要哪些基础？

下一篇: Spark和Hadoop对于大数据的关系？

Hadoop

文章来源：Web开发网，欢迎分享，转载请保留出处
原文地址：https://kaifa5.com/7039.html

阅读延展

给大家分享一个大数据hadoop streaming编程的实例

属于 Hadoop 的大数据时代已结束

Hadoop 2.X以上版本提供了安全认证功能，建议开启Kerberos认证

spark真的要取代hadoop了么，还有阿里的flink未来会是一种趋势么？

大数据Spark技术是否可以替代Hadoop？

6年资深架构师：如何2月搞定hadoop？

评论列表暂无评论

发表评论取消回复: 好顶踩