百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

深入浅出Hadoop(part 4)YARN框架(hadoop框架结构详解)

ccwgpt 2024-10-23 09:22 25 浏览 0 评论

YARN产生的背景:

一、直接源于MRv1的缺陷:

1、扩展性受限。

2、单点故障。

3、难以支持MR以外的计算

二、多个计算框架各自为战,数据共享困难

1、MR:离线计算框架:高延迟,高吞吐量

2、Storm:实时计算框架。

3、Spark:内存计算框架


MR用来处理海量数据,HDFS用来存储海量数据,NN:NameNode;HA:两个NameNode



客户端需要运行一个job,提交一个请求给resource manager,resource manager收到请求后,会告诉Node Manager有新的请求,需要准备资源,同时会生成一个APP Master(管理整个任务的运行和监控),再生成一个container,封装CPU、内存。

YARN各个模块:

1、resource manager

A、处理客户端请求。

B、启动、监控APP master。如果任务失败,可以通过APP Master查看日志,分析失败原因。

C、监控Node Manager。监控集群资源,方便统一管理。

D、资源的分配与调度。

2、Node Manager(小弟)

A、单个节点上的资源管理。

B、处理resource manager上的命令。

C、处理app master上的命令。

3、APP master:

A、数据切分。把数据分片,用于并行处理。

B、为应用程序申请资源,并分配给内部任务。

C、任务的监控与容错。如果任务出错,可以自动运行,但次数有限。

YARN容错:

1、resource manager

A、Hadoop1.x版本存在单点故障问题

B、2.x版本通过zookeeper选举机制,实现HA

2、Node Manager

A、Node Manager运行任务失败后,RM将失败的任务汇报给APP master,然后通过APP master重新运行任务。

B、APP master有决定权,决定如何处理失败的任务。

3、APP master

A、APP master失败后,由resource manager负责重启,APP master只负责内部任务的容错问题。

YARN调度框架

1、双层调度框架:

A、resource manager将资源分配给APP master

B、再有APP master进行统一分配给各个任务

2、基于资源预留的调度策略

A、当资源不够时,YARN会预留资源,直到资源充足时才会释放。

B、与Apache Mesos(all or nothing:集群任务要么全部成功,要么全部失败)不同

YARN资源调度器

1、多类型的资源调度:

A、采用DRF算法。

B、目前只支持CPU和内存两种资源。

2、提供多种资源调度器。

A、FIFO,先进先出。按照优先级高低调度;如果优先级相同,则按照提交时间先后顺序;如果提交时间也相同,则按照名称。

B、fair scheduler,公平调度器,按照内存资源使用率来调度。比如一个队列有两个任务同时运行,则两个任务都会得到二分之一的资源;如果是三个任务则是三分之一。

C、capacity scheduler,容量调度器,根据容量的剩余情况来调度任务。

D、多租户资源调度器:支持资源按比例分配,也支持层级队列划分方式,支持资源抢占。

YARN资源隔离方案:

1、支持内存和CPU两种资源隔离:

A、内存是“决定生死”的资源,如果集群资源不够,则会报出内存溢出错误,整个任务直接崩掉。

B、CPU是一种“影响快慢”的资源。

2、内存隔离:

A、基于线程监控方案。启动多个线程,每个线程占用一定内存,互相不受影响。

B、基于Cgroups方案。Linux内核提供的机制,可以限制、记录、隔离进程组所使用的的物理资源,比如CPU、内存、网络IO等。

3、CPU隔离:

A、默认不隔离CPU。

B、基于Cgroups方案。

YARN资源调度语义:

1、支持的语义:

A、支持请求某个特定节点的资源。

B、支持黑名单,将某个节点加入或移除黑名单,这是YARN不会再为这个节点分配资源。

C、请求归还资源,YARN可以回收资源

2、不支持的语义

A、请求任意任意节点的资源(只能请求指定节点)

B、请求一组或者几组符合某种特质的资源

C、超细粒度的资源

D、动态调整container的资源


运行在YARN上的计算框架

1、MapReduce:离线计算框架。

2、Tez:DAG计算框架。

3、Storm:流式计算框架。

4、Spark:内存计算框架。

5、Giraph、GraphLib:图计算框架。


1.x版本:Input输入数据,接着通过map任务处理数据,接着输出数据。

2.x版本:Input输入数据,接着通过map任务处理数据,接着通过reduce进行数据的汇总,接着输出数据。

Spark:input输入数据,然后将数据分成多个stage,然后进行处理,然后输出数据。

YARN程序类型:

1、长应用类型:一直启动YARN,比如HTTP Server。

2、短应用程序:MR任务,spark任务。


离线计算框架MapReduce

1、将计算过程分成两个阶段:Map和Reduce。Map阶段会并行处理输入的数据,比如需要处理200M的数据,Map会分成两部分来处理,一份128M,一份72M,这两份数据会同时并行处理,这样效率会提高。Reduce阶段会汇总数据,写入HDFS中。

2、Shuffle连接Map和Reduce两个阶段。Shuffle会将Map输出的数据写入本地, 然后Reduce再去读取。因为数据量大,所以写入本地而不是内存。

3、只适合离线批处理程序。具有良好的扩展性和容错性、适合简单的批处理任务。

4、缺陷明显:启动开销过大,过多使用磁盘导致效率低下。


客户端提交任务给resource manager,resource manager收到任务会生成一个APP manager,然后找到一个子节点,子节点生成一个MR APP master,生成好之后,会汇报给resource manager,同时也向resource manager申请资源,申请完成后,通知Node manager运行任务,然后分配资源container,最后运行map任务和reduce任务。

相关推荐

5 分钟搭建 Node.js 微服务原型(node 微服务架构)

微服务已成为在Node.js中构建可扩展且强大的云应用的主流方法。同时也存在一些门槛,其中一些难点需要你在以下方面做出决策:组织项目结构。将自定义服务连接到第三方服务(数据库,消息代理等)处理微服...

当前的前端,真的不配叫程序员吗?

今天看到一个比较令人震惊的帖子,说前端不配叫程序员,令我很吃鲸,是谁我就不说了,帖子出处是一个大龄程序员组里面的,想想也不觉得奇怪了,毕竟对于年龄比较大的程序员来说,前端起步比较晚,最开始就是一个切图...

聊聊asp.net中Web Api的使用(asp.net core web api教程)

扯淡随着app应用的崛起,后端服务开发的也越来越多,除了很多优秀的nodejs框架之外,微软当然也会在这个方面提供更便捷的开发方式。这是微软一贯的作风,如果从开发的便捷性来说的话微软是当之无愧的老大哥...

NodeJS中,listen Access:permission denied解决办法

错误描述:Win10系统,NodeJS程序。使用express框架开发的http服务器,启动时出现错误提示“listenAccess:permissiondenied"。错误原因:这是由于...

Hono — 下一代高性能web框架(天融信下一代vnp)

最近公司可能要有变革,要统计我们的技能。真的是很无语,但是有没有办法。哎,问豆包吧提起Hono大家可能很陌生,这是什么?但是我提到Expressjs、nodejs想必前端小伙伴很熟悉啊。那么Hon...

生活例子说明线程,简单明了(列举一个日常生活中的例子以程序的形式表示)

1.程序设计的目标在我看来单从程序的角度来看,一个好的程序的目标应该是性能与用户体验的平衡。当然一个程序是否能够满足用户的需求暂且不谈,这是业务层面的问题,我们仅仅讨论程序本身。围绕两点来展开,性能...

Node实战006:自定义模块的创建和使用详解

Node的应用是由模块组成的,每个文件的定义都是一个模块(module变量代表当前模块)并有自己的作用域。Node遵循commonjs的模块规范,用来隔离每个模块的作用域,使每一个模块在自身的命名空间...

Node.js基本内容和知识点(node.js的概念)

简单的说Node.js就是运行在服务端的JavaScript,起初段定位是后端开发语言,由于技术的不够成熟,一般小型项目会完全使用node.js作为后台支撑,大项目中,运行不够稳定,不会轻易使用...

干货 | 如何利用Node.js 构建分布式集群

引言在软件定义的世界里,企业通过Web应用和移动应用程序来提供大部分的服务,Node.js迅速成为时下最为流行的一个平台之一,就和它可以搭建响应速度快、易于扩展的web应用和移动应用有很大关系,并凭...

nodejs mongodb 实现简易留言板(node.js留言板)

一个朋友问了一下mongodb的一些操作问题我就做了下面这个简单的留言板给他做一个实例希望能帮助到他express的框架就不说了express的问题请移步nodejs之expressht...

nodejs mqtt 智能售货机系统物联网控制系统源码分享

智能售货机系统(Moleintelligentvendingmachinesystem)是一套物联网控制系统性的解决方案。主要涉及到的语言和库有c,c++,js,nodejs,vue.js,...

为什么 Node.js 这么火,而同样异步模式 Python 框架 Twisted 却十几年一直不温不火?

说nodejs只是靠营销的是否太天真了些?当初nodejs出来的时候各种BUG,我简单的测试其大文件传输都会出现各种问题。而同時期的其他阵营早就甩其几条街了。但是为什么却能一直不断发展壮大?...

2020年14个最有用的NodeJS库(node用什么数据库)

Express快速,简单,极简的节点Web框架对…有好处·易于处理多种类型的请求,例如GET,PUT,POST和DELETE请求·快速构建单页,多页和混合Web应用程序每周下载1100万Lice...

连载:2016年最好的JS框架和库(下)

继续上一期的介绍:Agility.jsAgility.js是专为JS服务的MVC库,你可以免费编写可再用和可维护的浏览器代码,Agility支持Js,样式(CSS)、内容(HTML)和行为(JS)。C...

awesome-nodejs 终极资源库:60K+星标的开发者宝藏

Node.js终极资源库:60K+星标的开发者宝藏引言在GitHub上,有一个备受瞩目的Node.js资源仓库,以其惊人的60.6k星标量和6kfork量,成为了Node.js开发者的必备参考。这个...

取消回复欢迎 发表评论: