面试系列:深入理解hadoop架构体系
ccwgpt 2024-10-23 09:22 23 浏览 0 评论
hadoop组件简介
官方文档组织的非常清晰,主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-common
HDFS
分布式文件存储系统,主要特点是:
- 可以运行在普通低成本硬件之上
- 并且具备高容错性(硬件容错)
- 适合高吞吐量的大数据存储,但并不强调低延迟
- 适合一次写,多次读的场景,不支持随机读写;
map-reduce
map-reduce是一个计算框架,绝大部分的数据处理都可以转化为map、reduce组合,然后利用map-reduce框架进行计算、处理;
yarn
资源管理器,核心的思想时将资源的调度管理与资源监控分割为两个进程,其中一个是ResourceManager,另一个是NodeManager,前者负责资源的分配、后者负责资源监控;
common
hdfs、map-reduce所需要的公共库;
面试题
HDFS的进程构成及其作用;
nameNode进程:负责对外展示文件的层级结构、管理客户端对文件的访问(如:打开、关闭、重命名等)、决定文件block与dataNode的对应关系;
secondNameNode进程:从名字来看,应该是nameNode的back up,然而并不是,其主要作用是协助nameNode管理editLog;
dataNode:主要负责数据存储以及客户端的读写请求以及block的创建、删除等;
详细解释map过程的细节:
map过程主要是实现key-value集合到key-value集合的映射,可以实一对一、一对多、多对多映射;
详细过程是:map -> group -> sorted -> partitioned
group:相同的key放到一起;
sorted:按照key进行排序
partition:对key进行分区,最终分区数量一般等于task数量;
详细解释reduce过程细节:
首先是shuffle,即从map端拉取数据到reducer端;
之后是group,也就是相同的key可能来自于不同的map,所以需要group
之后是sort过程(再map阶段排序的基础之上,进行归并排序即可)
最后是second sort(用户自定义,如果没有自定义则不执行)
最后是reduce过程。
setCombinerClass的作用:
在map端先进行一部分reduce工作,主要优点是减少shuffle成本;但也有一定的局限性,仅仅适用于reduce的输入和输出数据类型相同时;
简单介绍Federation架构:
Federation架构通过多个独立的NameNode实现集群的横向扩展,主要解决了HDFS的吞吐量及承载量受限于单个nameNode,并且无法根据namespace做隔离的弊端。
在存储层,各个nameNode共用统一的DataNode
相关推荐
- 5 分钟搭建 Node.js 微服务原型(node 微服务架构)
-
微服务已成为在Node.js中构建可扩展且强大的云应用的主流方法。同时也存在一些门槛,其中一些难点需要你在以下方面做出决策:组织项目结构。将自定义服务连接到第三方服务(数据库,消息代理等)处理微服...
- 当前的前端,真的不配叫程序员吗?
-
今天看到一个比较令人震惊的帖子,说前端不配叫程序员,令我很吃鲸,是谁我就不说了,帖子出处是一个大龄程序员组里面的,想想也不觉得奇怪了,毕竟对于年龄比较大的程序员来说,前端起步比较晚,最开始就是一个切图...
- 聊聊asp.net中Web Api的使用(asp.net core web api教程)
-
扯淡随着app应用的崛起,后端服务开发的也越来越多,除了很多优秀的nodejs框架之外,微软当然也会在这个方面提供更便捷的开发方式。这是微软一贯的作风,如果从开发的便捷性来说的话微软是当之无愧的老大哥...
- NodeJS中,listen Access:permission denied解决办法
-
错误描述:Win10系统,NodeJS程序。使用express框架开发的http服务器,启动时出现错误提示“listenAccess:permissiondenied"。错误原因:这是由于...
- Hono — 下一代高性能web框架(天融信下一代vnp)
-
最近公司可能要有变革,要统计我们的技能。真的是很无语,但是有没有办法。哎,问豆包吧提起Hono大家可能很陌生,这是什么?但是我提到Expressjs、nodejs想必前端小伙伴很熟悉啊。那么Hon...
- 生活例子说明线程,简单明了(列举一个日常生活中的例子以程序的形式表示)
-
1.程序设计的目标在我看来单从程序的角度来看,一个好的程序的目标应该是性能与用户体验的平衡。当然一个程序是否能够满足用户的需求暂且不谈,这是业务层面的问题,我们仅仅讨论程序本身。围绕两点来展开,性能...
- Node实战006:自定义模块的创建和使用详解
-
Node的应用是由模块组成的,每个文件的定义都是一个模块(module变量代表当前模块)并有自己的作用域。Node遵循commonjs的模块规范,用来隔离每个模块的作用域,使每一个模块在自身的命名空间...
- Node.js基本内容和知识点(node.js的概念)
-
简单的说Node.js就是运行在服务端的JavaScript,起初段定位是后端开发语言,由于技术的不够成熟,一般小型项目会完全使用node.js作为后台支撑,大项目中,运行不够稳定,不会轻易使用...
- 干货 | 如何利用Node.js 构建分布式集群
-
引言在软件定义的世界里,企业通过Web应用和移动应用程序来提供大部分的服务,Node.js迅速成为时下最为流行的一个平台之一,就和它可以搭建响应速度快、易于扩展的web应用和移动应用有很大关系,并凭...
- nodejs mongodb 实现简易留言板(node.js留言板)
-
一个朋友问了一下mongodb的一些操作问题我就做了下面这个简单的留言板给他做一个实例希望能帮助到他express的框架就不说了express的问题请移步nodejs之expressht...
- nodejs mqtt 智能售货机系统物联网控制系统源码分享
-
智能售货机系统(Moleintelligentvendingmachinesystem)是一套物联网控制系统性的解决方案。主要涉及到的语言和库有c,c++,js,nodejs,vue.js,...
- 为什么 Node.js 这么火,而同样异步模式 Python 框架 Twisted 却十几年一直不温不火?
-
说nodejs只是靠营销的是否太天真了些?当初nodejs出来的时候各种BUG,我简单的测试其大文件传输都会出现各种问题。而同時期的其他阵营早就甩其几条街了。但是为什么却能一直不断发展壮大?...
- 2020年14个最有用的NodeJS库(node用什么数据库)
-
Express快速,简单,极简的节点Web框架对…有好处·易于处理多种类型的请求,例如GET,PUT,POST和DELETE请求·快速构建单页,多页和混合Web应用程序每周下载1100万Lice...
- 连载:2016年最好的JS框架和库(下)
-
继续上一期的介绍:Agility.jsAgility.js是专为JS服务的MVC库,你可以免费编写可再用和可维护的浏览器代码,Agility支持Js,样式(CSS)、内容(HTML)和行为(JS)。C...
- awesome-nodejs 终极资源库:60K+星标的开发者宝藏
-
Node.js终极资源库:60K+星标的开发者宝藏引言在GitHub上,有一个备受瞩目的Node.js资源仓库,以其惊人的60.6k星标量和6kfork量,成为了Node.js开发者的必备参考。这个...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- 5 分钟搭建 Node.js 微服务原型(node 微服务架构)
- 当前的前端,真的不配叫程序员吗?
- 聊聊asp.net中Web Api的使用(asp.net core web api教程)
- NodeJS中,listen Access:permission denied解决办法
- Hono — 下一代高性能web框架(天融信下一代vnp)
- 生活例子说明线程,简单明了(列举一个日常生活中的例子以程序的形式表示)
- Node实战006:自定义模块的创建和使用详解
- Node.js基本内容和知识点(node.js的概念)
- 干货 | 如何利用Node.js 构建分布式集群
- nodejs mongodb 实现简易留言板(node.js留言板)
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- bootstrap框架 (43)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- express框架 (43)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- java框架spring (43)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)