Hadoop RPC 源码详解(hadoop开源)
ccwgpt 2024-10-23 09:23 36 浏览 0 评论
一、什么是RPC
RPC,即Remote Procdure Call,中文名:远程过程调用,
rpc远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。
通俗的说就是:两台不同的服务器(不受操作系统限制),一个应用部署在Linux-A上,一个应用部署在Windows-B或Linux-B上,若A想要调用B上的某个方法method(),由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语意和传达调用的参数。
如图:
二、基础技术
1、java动态代理和反射:通过实现InvocationHandler接口实现。
2、Java NIO:底层通过多路复用实现的IO。
3、网络编程:Reactor(反应器)设计模式,一种为处理并发服务请求,并将请求提交到一个或者多个服务处理程序的事件设计模式
三、hadoop Rpc三要素
1、交互协议 :org.apache.hadoop.ipc.VersionedProtocol
不同版本与签名的协议,就算同一个类名也无法通信
2、客户端: Client,封装请求数据,并接收Response
3、服务端: RPC.Server 处理客户端的连接请求,并处理相关业务,最后返回结果
四、 rpc客户端
1、RPC.getProxy:
客户端拿到协议对象,RPC.getProxy就是得到协议对象的方法,它默认先得到一个RpcEngine(默认实现是WritableRpcEngine)
2、WritableRpcEngine:
生成代理对象
其实就实例化2个成员变量:
ConnectionID:
保存目标地址(remoteAddress,protocol)和用户ticket,这三者可以唯一确定一个Connection。
Client:
主要完成的功能是发送远程调用信息并接收返回结果。
3、invoke
当我们调用客户端本地方法的时候,执行代理对象里面的invoke。client.call
就是网络通讯了。
rpc请求客户端(org.apache.hadoop.ipc.Client.Connection)的几个配置:
ipc.client.connection.maxidletime=10000 毫秒,最大时间,超过后客户端会断开和服务器的连接
ipc.client.connect.max.retries.on.timeouts=45 在连接超时后,客户端连接重试次数:
ipc.client.tcpnodelay=true 客户端参数。或许可以考虑关闭Nagle算法,增加客户端响应速度
ipc.client.ping=true 当为true时,如果读取响应超时,则向服务器发送ping命令。
ipc.ping.interval=60000 等待服务器响应的超时时间,单位为毫秒。当ipc.client.ping属性为true时,客户端将在不接收字节的情况下发送Ping命令。
五、 rpc服务端
Server端涉及到多个客户端的调用,所以使用了如下的设计,统称为Reactor设计模式。Reactor主要是基于多路复用的非阻塞IO实现的基于事件驱动的IO框架。Hadoop RPC底层使用的是Java NIO,而Java NIO正好就是一种多路复用的非阻塞IO,Java NIO的重点就是在Selector。
架构设计图
1)Listener
监听类,用以监听客户端发来的请求。同时Listener下面还有一个静态类,Listener.Reader,当监听器监听到用户请求,便用让Reader读取用户请求。
Listener主要负责Socket的监听以及Connection的建立,同时监控ClientSocket的数据可读事件,通知Connection进行processData,收到完成请求包以后,封装为一个Call对象(包含Connection对象,从网络流中读取的参数信息,调用方法信息),将其放入队列
2)Call
用以存储客户端发来的请求,这个请求会放入一个BlockQueue中;
每个call存放到callQueue队列
模型对象
3)Handler
请求(blockQueueCall)处理类,会循环阻塞读取callQueue中的call对象,并对其进行操作。
4)Responder
响应RPC请求类,请求处理完毕,由Responder发送给请求客户端。
它不断地检查响应队列中是否有调用信息,如果有的话,就把调用的结果返回给客户端
rpc请服务端可优化的配置
ipc.server.listen.queue.size=128 接受客户端连接的服务器的侦听队列的长度。
ipc.maximum.data.length=67108864 服务器可以接受的最大IPC消息长度(字节)64M
ipc.server.max.response.size=1024*1024 响应ipc请求消息的最大长度;再大的消息量,消息会被记录到log里
ipc.server.handler.queue.size=100 handler最大线程数据
ipc.server.read.threadpool.size=1 reader最新线程数据
入口类 org.apache.hadoop.ipc.Server
疑问:Listener在创建Reader线程的时候为什么不用线程池而是根据配置的线程数直接创建线程???
六、 总结
核心主要流程
相关推荐
- Python Scrapy 项目实战(python scripy)
-
爬虫编写流程首先明确Python爬虫代码编写的流程:先直接打开网页,找到你想要的数据,就是走一遍流程。比如这个项目我要爬取历史某一天所有比赛的赔率数据、每场比赛的比赛结果等。那么我就先打开这个网址...
- 为何大厂后端开发更青睐 Python 而非 Java 进行爬虫开发?
-
在互联网大厂的后端开发领域,爬虫技术广泛应用于数据收集、竞品分析、内容监测等诸多场景。然而,一个有趣的现象是,相较于Java,Python成为了爬虫开发的首选语言。这背后究竟隐藏着怎样的原因呢?让...
- 爬虫小知识,scrapy爬虫框架中爬虫名词的含义
-
在上一篇文章当中学记给大家展示了Scrapy爬虫框架在爬取之前的框架文件该如何设置。在上一篇文章当中,是直接以代码的形式进行描述的,在这篇文章当中学记会解释一下上一篇文章当中爬虫代码当中的一些名词...
- python爬虫神器--Scrapy(python爬虫详细教程)
-
什么是爬虫,爬虫能用来做什么?文章中给你答案。*_*今天我们就开发一个简单的项目,来爬取一下itcast.cn中c/c++教师的职位以及名称等信息。网站链接:http://www.itcast.cn...
- Gradio:从UI库到强大AI框架的蜕变
-
Gradio,这个曾经被简单视为PythonUI库的工具,如今已华丽转身,成为AI应用开发的强大框架。它不仅能让开发者用极少的代码构建交互式界面,更通过一系列独特功能,彻底改变了机器学习应用的开发和...
- 研究人员提出AI模型无损压缩框架,压缩率达70%
-
大模型被压缩30%性能仍与原模型一致,既能兼容GPU推理、又能减少内存和GPU开销、并且比英伟达nvCOMP解压缩快15倍。这便是美国莱斯大学博士生张天一和合作者打造的无损压缩框架...
- 阿里发布Qwen-Agent框架,赋能开发者构建复杂AI智能体
-
IT之家1月4日消息,阿里通义千问Qwen推出全新AI框架Qwen-Agent,基于现有Qwen语言模型,支持智能体执行复杂任务,并提供多种高级功能,赋能开发者构建更强大的AI...
- 向量数仓与大数据平台:企业数据架构的新范式
-
在当前的大模型时代,企业数据架构正面临着前所未有的挑战和机遇。随着大模型的不断发布和多模态模型的发展,AIGC应用的繁荣和生态配套的逐渐完备,企业需要适应这种新的数据环境,以应对行业变革。一、大模型时...
- 干货!大数据管理平台规划设计方案PPT
-
近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的...
- 阿里巴巴十亿级并发系统设计:实现高并发场景下的稳定性和高性能
-
阿里巴巴的十亿级并发系统设计是其在大规模高并发场景下(如双11、双12等)保持稳定运行的核心技术框架。以下是其关键设计要点及技术实现方案:一、高可用性设计多数据中心与容灾采用多数据中心部署,通过异地容...
- 阿里云云原生一体化数仓—数据治理新能力解读
-
一、数据治理中心产品简介阿里云DataWorks:一站式大数据开发与治理平台架构大图阿里云DataWorks定位于一站式的大数据开发和治理平台,从下图可以看出,DataWorks与MaxCom...
- DeepSeek R1:理解 GRPO 和多阶段训练
-
人工智能在DeepSeekR1的发布后取得了显著进步,这是一个挑战OpenAI的o1的开源模型,在高级推理任务中表现出色。DeepSeekR1采用了创新的组相对策略优化(GroupR...
- 揭秘永久免费视频会议软件平台架构
-
如今视频会议已经成为各个团队线上协同的必备方式之一,视频会议软件的选择直接影响团队效率与成本,觅讯会议凭借永久免费迅速出圈,本文将从技术架构、核心功能和安全体系等维度,深度解析其技术实现与应用价值,为...
- DeepSeek + Kimi = 五分钟打造优质 PPT
-
首先,在DeepSeek中输出提示词,示例如下:为课程《提示词基础-解锁AI沟通的秘密》设计一个PPT大纲,目的是让学生:1.理解提示词的概念、作用和重要性2.掌握构建有效提示词的基本原则和技巧...
- 软件系统如何设计可扩展架构?方法论,Java实战代码
-
软件系统如何设计可扩展架构?方法论,Java实战代码,请关注,点赞,收藏。方法论那先想想方法论部分。扩展性架构的关键点通常包括分层、模块化、微服务、水平扩展、异步处理、缓存、负载均衡、分布式架构等等...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- bootstrap框架 (43)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- express框架 (43)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- java框架spring (43)
- grpc框架 (55)
- orm框架有哪些 (43)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)