skynet服务的缺陷 lua死循环
ccwgpt 2025-05-22 09:36 20 浏览 0 评论
服务端高级架构—云风的skynet这边有一个关于云风skynet的视频推荐给大家观看 点击就可以观看了!
skynet是一套多人在线游戏的轻量级服务端框架,使用C+Lua开发。skynet的显著优点是,使用这套框架,大多数时候只是用lua写代码,很少用到c,这在一定程度上提高了开发效率。lua虽然没有C高效,但开发复杂业务却是非常敏捷。不过,skynet文档相对较少,所以这里利用一点时间学习和总结skynet相关内容,文章就讲解下skynet服务出现lua死循环如何处理。
在前面的一篇文章[1]介绍到,skynet服务运行可以霸占调度器,如果lua代码有死循环,那这个服务可以霸占一个skynet调度线程。从cpu层面看到,skynet进程独占了一个cpu核心。
在写上篇文章的时候,没想到生产环境也出现以上的情况,以为代码规范化可以避免这个问题。然而随着项目越来越庞大了,果真出现这样的情况。
这个问题最致命的是,一旦skynet服务lua代码进入了死循环,这个服务无法被kill掉。就是说服务被kill了没效果,实际上服务还在跑,还占用了一个skynet调度线程。
回到文章,skynet服务出现lua死循环后如何处理?
其实,skynet作者博客[2]也说明了这个问题,他也提供了办法来解决,让skynet服务跳出死循环。做法是,在 lua vm 在处理 JMP CALL TAILCALL FORLOOP 这几条 opcode 时,去检查一个全局变量,如果全局变量被设置成和自己的 lua state 相同的指针,就立刻抛出一个异常。
结束lua死循环
说了这么多,到底要怎么做才能结束lua死循环?
方法就是,在skyent控制台输入 signal命令,为 signal <service addr>,例子如下:
signal :0100000e
以上,:0100000e 为某个skynet服务的地址。
如果不了解skynet控制台,可以参考我的这篇文章[3]。
示例lua死循环及处理
现在以一个例子测试这个问题。
# vi examples/main.lua
local skynet = require "skynet"
local sprotoloader = require "sprotoloader"
local max_client = 64
skynet.start(function()
skynet.error("Server start")
skynet.uniqueservice("protoloader")
if not skynet.getenv "daemon" then
local console = skynet.newservice("console")
end
skynet.newservice("debug_console",8000)
skynet.newservice("simpledb")
skynet.newservice("test") -- 新加了这个服务
local watchdog = skynet.newservice("watchdog")
skynet.call(watchdog, "lua", "start", {
port = 8888,
maxclient = max_client,
nodelay = true,
})
skynet.error("Watchdog listen on", 8888)
skynet.exit()
end)
看下 test 服务的代码 test.lua
# vi examples/test.lua
local skynet = require "skynet"
skynet.start(function()
skynet.fork(function()
while true do
local t={}
end
end)
end)
启动skynet进程,跑下这个例子。
# ./skynet examples/config
[:01000001] LAUNCH logger
[:01000002] LAUNCH snlua bootstrap
[:01000003] LAUNCH snlua launcher
[:01000004] LAUNCH snlua cmaster
[:01000005] LAUNCH snlua cslave
[:01000007] LAUNCH snlua datacenterd
[:01000008] LAUNCH snlua service_mgr
[:01000009] LAUNCH snlua main
[:0100000a] LAUNCH snlua protoloader
[:0100000b] LAUNCH snlua console
[:0100000c] LAUNCH snlua debug_console 8000
[:0100000d] LAUNCH snlua simpledb
[:0100000e] LAUNCH snlua test
[:0100000f] LAUNCH snlua watchdog
[:01000010] LAUNCH snlua gate
[:01000010] Listen on 0.0.0.0:8888
[:01000009] Watchdog listen on 8888
[:01000009] KILL self
[:01000002] KILL self
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)
以上日志看出,skynet有服务陷入了死循环。趁现在试下 signal指令。
# nc 127.0.0.1 8000
Welcome to skynet console
signal :0100000e
OK
看下skynet的运行日志,skynet服务已跳出了死循环,cpu使用恢复了正常。
[:0100000e] recv a signal 0
[:0100000e] lua call [0 to :100000e : 1 msgsz = 0] error : ./lualib/skynet.lua:516: ./lualib/skynet.lua:155: nil
stack traceback:
./examples/test.lua:6: in upvalue 'func'
./lualib/skynet.lua:452: in upvalue 'f'
./lualib/skynet.lua:104: in function <./lualib/skynet.lua:103>
stack traceback:
[C]: in function 'assert'
./lualib/skynet.lua:516: in function 'skynet.dispatch_message'
然而,实际线上遇到的复杂环境没有这么简单。
复杂多变的线上问题
假如你的代码是这样,靠上面的方法就无法解决问题了
local skynet = require "skynet"
skynet.start(function()
skynet.fork(function()
while true do
pcall(function()
while true do
local t={}
end
end)
end
end)
end)
以上的例子中,死循环嵌套死循环,中间还有pcall的处理。当然,真正的代码不可能这样写,但由于项目函数调用层次过深,就可能出现这样的问题。
照前面的方法,调用signal指令后,结果却大相径庭:
# ./skynet examples/config
[:01000001] LAUNCH logger
[:01000002] LAUNCH snlua bootstrap
[:01000003] LAUNCH snlua launcher
[:01000004] LAUNCH snlua cmaster
[:01000005] LAUNCH snlua cslave
[:01000006] LAUNCH harbor 1
[:01000007] LAUNCH snlua datacenterd
[:01000008] LAUNCH snlua service_mgr
[:01000009] LAUNCH snlua main
[:0100000a] LAUNCH snlua protoloader
[:0100000b] LAUNCH snlua console
[:0100000c] LAUNCH snlua debug_console 8000
[:0100000d] LAUNCH snlua simpledb
[:0100000e] LAUNCH snlua test
[:0100000f] LAUNCH snlua watchdog
[:01000010] LAUNCH snlua gate
[:01000009] KILL self
[:01000002] KILL self
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)
[:0100000e] recv a signal 0
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)
skynet服务还健在,收到了signal指令,但是还是没跳出死循环
那么,要怎么处理这个问题?skynet还有方法解决?
答案是否定的,没有了。现在,只能去改skynet的代码了
要怎么修改skynet的代码。方法不复杂,只需要改一处内容。
vi ./3rd/lua/lvm.c
/* Add by skynet */
lua_State * skynet_sig_L = NULL;
LUA_API void
lua_checksig_(lua_State *L) {
if (skynet_sig_L == G(L)->mainthread) {
//skynet_sig_L = NULL; 注释掉这行代码
lua_pushnil(L);
lua_error(L);
}
}
保存后,重新编译skynet
# make clean -C 3rd/lua
# make clean
# make linux
现在,再启动下skynet,然后在控制台执行一下命令。
# nc 127.0.0.1 8000
Welcome to skynet console
signal :0100000e
OK
kill :0100000e
:0100000e snlua test
OK
再看下skynet的运行日志,这个异常的服务已经被kill掉了
# ./skynet examples/config
[:01000001] LAUNCH logger
[:01000002] LAUNCH snlua bootstrap
[:01000003] LAUNCH snlua launcher
[:01000004] LAUNCH snlua cmaster
[:01000005] LAUNCH snlua cslave
[:01000006] LAUNCH harbor 1 16777221
[:01000007] LAUNCH snlua datacenterd
[:01000008] LAUNCH snlua service_mgr
[:01000009] LAUNCH snlua main
[:01000009] Server start
[:0100000a] LAUNCH snlua protoloader
[:0100000b] LAUNCH snlua console
[:0100000c] LAUNCH snlua debug_console 8000
[:0100000d] LAUNCH snlua simpledb
[:0100000e] LAUNCH snlua test
[:0100000f] LAUNCH snlua watchdog
[:01000010] LAUNCH snlua gate
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 35)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 35)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 35)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 35)
[:0100000e] recv a signal 0
[:0100000e] lua call [0 to :100000e : 1 msgsz = 0] error : (no error message)
[:01000003] KILL :100000e
好了,文章到这里就结束了。原理是既然跳出一层死循环无法解决问题,那么就跳出所有的死循环吧。因为标记是全局变量的关系,所以同一时间只能处理一个skynet服务。
需要的朋友可以后台私信【1】获取学习视频
相关推荐
- 滨州维修服务部“一区一策”强服务
-
今年以来,胜利油田地面工程维修中心滨州维修服务部探索实施“一区一策”服务模式,持续拓展新技术应用场景,以优质的服务、先进的技术,助力解决管理区各类维修难题。服务部坚持问题导向,常态化对服务范围内的13...
- 谷歌A2A协议和MCP协议有什么区别?A2A和MCP的差异是什么?
-
在人工智能的快速发展中,如何实现AI模型与外部系统的高效协作成为关键问题。谷歌主导的A2A协议(Agent-to-AgentProtocol)和Anthropic公司提出的MCP协议(ModelC...
- 谷歌大脑用架构搜索发现更好的特征金字塔结构,超越Mask-RCNN等
-
【新智元导读】谷歌大脑的研究人员发表最新成果,他们采用神经结构搜索发现了一种新的特征金字塔结构NAS-FPN,可实现比MaskR-CNN、FPN、SSD更快更好的目标检测。目前用于目标检测的最先...
- 一文彻底搞懂谷歌的Agent2Agent(A2A)协议
-
前段时间,相信大家都被谷歌发布的Agent2Agent开源协议刷屏了,简称A2A。谷歌官方也表示,A2A是在MCP之后的补充,也就是MCP可以强化大模型/Agent的能力,但每个大模型/Agent互为...
- 谷歌提出创新神经记忆架构,突破Transformer长上下文限制
-
让AI模型拥有人类的记忆能力一直是学界关注的重要课题。传统的深度学习模型虽然在许多任务上取得了显著成效,但在处理需要长期记忆的任务时往往力不从心。就像人类可以轻松记住数天前看过的文章重点,但目前的...
- 不懂设计?AI助力,人人都能成为UI设计师!
-
最近公司UI资源十分紧张,急需要通过AI来解决UI人员不足问题,我在网上发现了几款AI应用非常适合用来进行UI设计。以下是一些目前非常流行且功能强大的工具,它们能够提高UI设计效率,并帮助设计师创造出...
- 速来!手把手教你用AI完成UI界面设计
-
晨星技术说晨星技术小课堂第二季谭同学-联想晨星用户体验设计师-【晨星小课堂】讲师通过简单、清晰的语言描述就能够用几十秒自动生成一组可编辑的UI界面,AIGC对于UI设计师而言已经逐步发展成了帮助我们...
- 「分享」一端录制,多端使用的便捷 UI 自动化测试工具,开源
-
一、项目介绍Recorder是一款UI录制和回归测试工具,用于录制浏览器页面UI的操作。通过UIRecorder的录制功能,可以在自测的同时,完成测试过程的录制,生成JavaScr...
- APP自动化测试系列之Appium介绍及运行原理
-
在面试APP自动化时,有的面试官可能会问Appium的运行原理,以下介绍Appium运行原理。Appium介绍Appium概念Appium是一个开源测试自动化框架,可用于原生,混合和移动Web应用程序...
- 【推荐】一个基于 SpringBoot 框架开发的 OA 办公自动化系统
-
如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍oasys是一个基于springboot框架开发的OA办公自动化系统,旨在提高组织的日常运作和管理...
- 自动化实践之:从UI到接口,Playwright给你全包了!
-
作者:京东保险宋阳1背景在车险系统中,对接保司的数量众多。每当系统有新功能迭代后,基本上各个保司的报价流程都需要进行回归测试。由于保司数量多,回归测试的场景也会变得重复而繁琐,给测试团队带来了巨大的...
- 销帮帮CRM移动端UI自动化测试实践:Playwright的落地与应用
-
实施背景销帮帮自2015年成立以来,移动端UI自动化测试的落地举步维艰,移动端的UI自动化测试一直以来都未取得良好的落地。然而移动互联网时代,怎样落地移动端的UI自动化测试以快速稳定进行移动端的端到端...
- 编写自动化框架不知道该如何记录日志吗?3个方法打包呈现给你。
-
目录结构1.loguru介绍1.1什么是日志?程序运行过程中,难免会遇到各种报错。如果这种报错是在本地发现的,你还可以进行debug。但是如果程序已经上线了,你就不能使用debug方式了...
- 聊聊Python自动化脚本部署服务器全流程(详细)
-
来源:AirPython作者:星安果1.前言大家好,我是安果!日常编写的Python自动化程序,如果在本地运行稳定后,就可以考虑将它部署到服务器,结合定时任务完全解放双手但是,由于自动化程序与平...
- 「干货分享」推荐5个可以让你事半功倍的Python自动化脚本
-
作者:俊欣来源:关于数据分析与可视化相信大家都听说自动化流水线、自动化办公等专业术语,在尽量少的人工干预的情况下,机器就可以根据固定的程序指令来完成任务,大大提高了工作效率。今天小编来为大家介绍几个P...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- mfc框架 (52)
- abb框架断路器 (48)
- ui自动化框架 (47)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)