百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Apache Hadoop的核心组成及其架构

ccwgpt 2024-10-23 09:22 20 浏览 0 评论

核心组成

Apache Hadoop 是一个开源的分布式存储与计算框架,它主要由以下几个核心组件组成:

  1. Hadoop Distributed File System (HDFS): HDFS 是 Hadoop 的分布式文件系统,它设计用于存储大量数据,并提供 高吞吐率的数据访问,通过将数据分块存储在多个节点上,实现数据的冗余存储和容错。
  2. Hadoop YARN (Yet Another Resource Negotiator): YARN 是 Hadoop 的资源管理层,负责管理计算资源(如 CPU 和内存),并为运行在 Hadoop 集群上的应用程序分配资源。YARN 引入了资源调度和作业管理的概念,使得 Hadoop 能够运行多种数据处理框架。
  3. Hadoop MapReduce: MapReduce 是 Hadoop 的编程模型,用于并行处理大规模数据集。MapReduce 工作流程分为两个阶段:Map 阶段和 Reduce 阶段,通过 Map 函数处理输入数据,然后通过 Reduce 函数聚合处理结果。

Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块

除了这三个核心组件,Hadoop 生态系统还包含许多其他的项目和工具,如:

  • Hadoop Common:提供了 Hadoop 运行所需的公共库和工具。
  • Hive:一个建立在 Hadoop 之上的数据仓库基础设施,提供 SQL 查询语言 SQL(HiveQL)来查询存储在 Hadoop 文件系统中的数据。
  • Pig:一个高级的平台,用于创建 MapReduce 程序,使用 Pig Latin 脚本语言。
  • HBase:一个分布式、可扩展的大数据存储系统,运行在 Hadoop 之上,提供类似 Google Bigtable 的功能。
  • Sqoop:一个用于在 Hadoop 和关系型数据库之间传输数据的工具。
  • Flume:一个分布式、可靠且可用的系统,用于高效地收集、聚合和移动大量日志数据。
  • Spark:一个快速通用的大数据处理引擎,可以用于大规模数据处理和分析,与 Hadoop 生态系统紧密集成。

Hadoop 生态系统的这些组件共同提供了一个完整的大数据解决方案,使得用户可以在单一平台上进行数据存储、管理、处理和分析。

HDFS架构



图中涉及到几个角色,

NameNode(nn):存储文件的元数据,比如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

SecondaryNameNode(2nn):辅助NameNode更好的工作,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照。

DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验

MapReduce思想

Hadoop MapReduce 是一个软件框架,用于在 Hadoop 分布式存储系统上进行大规模数据处理。它允许开发者编写应用程序来并行处理大量数据集分布在计算机集群中。MapReduce 编程模型基于两个主要的处理阶段:Map(映射)和 Reduce(归约)。核心思想是分而治之,并行处理。


  1. Map(映射)阶段:

在 Map 阶段,输入数据被拆分成多个小块(chunks),然后每个块被分配给一个 Map 任务进行处理。

Map 函数接收键值对数据作为输入,并对每一对键值对数据进行转换,产生一系列中间键值对。

Map 任务的输出被排序,并根据键值对的键进行分组,为 Reduce 阶段做准备。

  1. Shuffle(洗牌)阶段:

Shuffle 阶段是 Map 和 Reduce 之间的过渡阶段,它负责将 Map 阶段的输出传输到相应的 Reduce 任务。

在这个阶段,相同键的中间键值对被发送到同一个 Reduce 任务。

  1. Reduce(归约)阶段:

在 Reduce 阶段,每个 Reduce 任务接收到所有具有相同键的值的集合。

Reduce 函数对这些值进行处理,产生最终的输出结果。

Reduce 任务的输出被写入磁盘,形成最终的处理结果。

Hadoop MapReduce 提供了高度的可扩展性和容错性,它可以处理PB级别的数据,并且在节点故障时能够自动恢复数据和任务。MapReduce 的编程模型虽然相对简单,但它在处理大规模数据集时非常有效。

Hadoop MapReduce 的优势在于其能够利用集群中的所有计算资源,以及其对故障的鲁棒性(Fault Tolerance)。然而,它也有一些局限性,如对实时处理的支持不足,以及对复杂数据处理流程的管理不够灵活。随着大数据技术的发展,一些新的框架如 Apache Spark、Flink等 已经出现,它们提供了更高效的数据处理方式,特别是在迭代算法和交互式数据分析方面。

Hadoop YARN

YARN(Yet Another Resource Negotiator)是 Hadoop 2.x 版本引入的资源管理层,它负责管理计算资源在集群中的分配和调度。YARN 的设计目标是提高 Hadoop 的扩展性和灵活性,使其能够运行多种数据处理框架,而不仅仅是 MapReduce。



YARN 的主要组件:

  1. ResourceManager (RM)

ResourceManager 是 YARN 的中心管理节点,负责全局的资源管理和任务调度。

它包含两个主要组件:调度器(Scheduler)和应用程序管理器(ApplicationManager)。

  1. NodeManager (NM)

NodeManager 运行在每个集群节点上,负责管理该节点上的资源(CPU、内存等),以及运行在该节点上的容器(Container)。

它监控节点的健康状况,并向 ResourceManager 报告资源使用情况。

  1. Container

Container 是 YARN 中的资源抽象,代表分配给应用程序的计算资源,包括 CPU、内存和磁盘空间。

应用程序通过容器来执行任务。

  1. ApplicationMaster (AM)

ApplicationMaster 是每个 YARN 应用程序的控制节点,负责协调应用程序的执行。

AM 向 ResourceManager 申请资源(即容器),并监控容器的生命周期。

YARN 的工作流程:

  1. 提交应用程序

用户提交一个应用程序到 YARN,ApplicationMaster 被启动并注册到 ResourceManager。

  1. 资源请求

ApplicationMaster 向 ResourceManager 请求所需的资源(容器)。

  1. 资源分配

ResourceManager 根据当前的资源情况和调度策略,分配容器给 ApplicationMaster。

  1. 任务调度

ApplicationMaster 在获取到容器后,将应用程序分解为多个任务,并将任务调度到相应的容器上执行。

  1. 监控和恢复
  • ApplicationMaster 监控其管理的任务执行情况,并在任务失败时尝试重新调度。
  1. 完成应用程序

当所有任务成功完成后,ApplicationMaster 向 ResourceManager 注销,并释放所有资源。

YARN 的优势:

  • 资源隔离:YARN 通过容器机制实现了资源的隔离,允许多个应用程序共享集群资源,而不会互相干扰。
  • 扩展性:YARN 可以轻松扩展,支持更多的计算节点和更大的数据集。
  • 兼容性:YARN 支持多种数据处理框架,不仅限于 MapReduce,还可以运行如 Spark、Storm 等。
  • 高可用性:YARN 设计了高可用性特性,如 ResourceManager 的 Hot Standby 机制,以减少单点故障的影响。

YARN 的引入极大地增强了 Hadoop 的能力,使其成为一个更加通用和强大的大数据处理平台。

相关推荐

5 分钟搭建 Node.js 微服务原型(node 微服务架构)

微服务已成为在Node.js中构建可扩展且强大的云应用的主流方法。同时也存在一些门槛,其中一些难点需要你在以下方面做出决策:组织项目结构。将自定义服务连接到第三方服务(数据库,消息代理等)处理微服...

当前的前端,真的不配叫程序员吗?

今天看到一个比较令人震惊的帖子,说前端不配叫程序员,令我很吃鲸,是谁我就不说了,帖子出处是一个大龄程序员组里面的,想想也不觉得奇怪了,毕竟对于年龄比较大的程序员来说,前端起步比较晚,最开始就是一个切图...

聊聊asp.net中Web Api的使用(asp.net core web api教程)

扯淡随着app应用的崛起,后端服务开发的也越来越多,除了很多优秀的nodejs框架之外,微软当然也会在这个方面提供更便捷的开发方式。这是微软一贯的作风,如果从开发的便捷性来说的话微软是当之无愧的老大哥...

NodeJS中,listen Access:permission denied解决办法

错误描述:Win10系统,NodeJS程序。使用express框架开发的http服务器,启动时出现错误提示“listenAccess:permissiondenied"。错误原因:这是由于...

Hono — 下一代高性能web框架(天融信下一代vnp)

最近公司可能要有变革,要统计我们的技能。真的是很无语,但是有没有办法。哎,问豆包吧提起Hono大家可能很陌生,这是什么?但是我提到Expressjs、nodejs想必前端小伙伴很熟悉啊。那么Hon...

生活例子说明线程,简单明了(列举一个日常生活中的例子以程序的形式表示)

1.程序设计的目标在我看来单从程序的角度来看,一个好的程序的目标应该是性能与用户体验的平衡。当然一个程序是否能够满足用户的需求暂且不谈,这是业务层面的问题,我们仅仅讨论程序本身。围绕两点来展开,性能...

Node实战006:自定义模块的创建和使用详解

Node的应用是由模块组成的,每个文件的定义都是一个模块(module变量代表当前模块)并有自己的作用域。Node遵循commonjs的模块规范,用来隔离每个模块的作用域,使每一个模块在自身的命名空间...

Node.js基本内容和知识点(node.js的概念)

简单的说Node.js就是运行在服务端的JavaScript,起初段定位是后端开发语言,由于技术的不够成熟,一般小型项目会完全使用node.js作为后台支撑,大项目中,运行不够稳定,不会轻易使用...

干货 | 如何利用Node.js 构建分布式集群

引言在软件定义的世界里,企业通过Web应用和移动应用程序来提供大部分的服务,Node.js迅速成为时下最为流行的一个平台之一,就和它可以搭建响应速度快、易于扩展的web应用和移动应用有很大关系,并凭...

nodejs mongodb 实现简易留言板(node.js留言板)

一个朋友问了一下mongodb的一些操作问题我就做了下面这个简单的留言板给他做一个实例希望能帮助到他express的框架就不说了express的问题请移步nodejs之expressht...

nodejs mqtt 智能售货机系统物联网控制系统源码分享

智能售货机系统(Moleintelligentvendingmachinesystem)是一套物联网控制系统性的解决方案。主要涉及到的语言和库有c,c++,js,nodejs,vue.js,...

为什么 Node.js 这么火,而同样异步模式 Python 框架 Twisted 却十几年一直不温不火?

说nodejs只是靠营销的是否太天真了些?当初nodejs出来的时候各种BUG,我简单的测试其大文件传输都会出现各种问题。而同時期的其他阵营早就甩其几条街了。但是为什么却能一直不断发展壮大?...

2020年14个最有用的NodeJS库(node用什么数据库)

Express快速,简单,极简的节点Web框架对…有好处·易于处理多种类型的请求,例如GET,PUT,POST和DELETE请求·快速构建单页,多页和混合Web应用程序每周下载1100万Lice...

连载:2016年最好的JS框架和库(下)

继续上一期的介绍:Agility.jsAgility.js是专为JS服务的MVC库,你可以免费编写可再用和可维护的浏览器代码,Agility支持Js,样式(CSS)、内容(HTML)和行为(JS)。C...

awesome-nodejs 终极资源库:60K+星标的开发者宝藏

Node.js终极资源库:60K+星标的开发者宝藏引言在GitHub上,有一个备受瞩目的Node.js资源仓库,以其惊人的60.6k星标量和6kfork量,成为了Node.js开发者的必备参考。这个...

取消回复欢迎 发表评论: