百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

skynet服务的缺陷 lua死循环

ccwgpt 2025-05-22 09:36 3 浏览 0 评论


服务端高级架构—云风的skynet这边有一个关于云风skynet的视频推荐给大家观看 点击就可以观看了!


skynet是一套多人在线游戏的轻量级服务端框架,使用C+Lua开发。skynet的显著优点是,使用这套框架,大多数时候只是用lua写代码,很少用到c,这在一定程度上提高了开发效率。lua虽然没有C高效,但开发复杂业务却是非常敏捷。不过,skynet文档相对较少,所以这里利用一点时间学习和总结skynet相关内容,文章就讲解下skynet服务出现lua死循环如何处理。

在前面的一篇文章[1]介绍到,skynet服务运行可以霸占调度器,如果lua代码有死循环,那这个服务可以霸占一个skynet调度线程。从cpu层面看到,skynet进程独占了一个cpu核心。

在写上篇文章的时候,没想到生产环境也出现以上的情况,以为代码规范化可以避免这个问题。然而随着项目越来越庞大了,果真出现这样的情况。

这个问题最致命的是,一旦skynet服务lua代码进入了死循环,这个服务无法被kill掉。就是说服务被kill了没效果,实际上服务还在跑,还占用了一个skynet调度线程。

回到文章,skynet服务出现lua死循环后如何处理?

其实,skynet作者博客[2]也说明了这个问题,他也提供了办法来解决,让skynet服务跳出死循环。做法是,在 lua vm 在处理 JMP CALL TAILCALL FORLOOP 这几条 opcode 时,去检查一个全局变量,如果全局变量被设置成和自己的 lua state 相同的指针,就立刻抛出一个异常。

结束lua死循环

说了这么多,到底要怎么做才能结束lua死循环?

方法就是,在skyent控制台输入 signal命令,为 signal <service addr>,例子如下:

signal :0100000e

以上,:0100000e 为某个skynet服务的地址。

如果不了解skynet控制台,可以参考我的这篇文章[3]。

示例lua死循环及处理

现在以一个例子测试这个问题。

# vi examples/main.lua 
local skynet = require "skynet"
local sprotoloader = require "sprotoloader"
local max_client = 64
skynet.start(function()
        skynet.error("Server start")
        skynet.uniqueservice("protoloader")
        if not skynet.getenv "daemon" then
                local console = skynet.newservice("console")
        end
        skynet.newservice("debug_console",8000)
        skynet.newservice("simpledb")
        skynet.newservice("test")  -- 新加了这个服务
        local watchdog = skynet.newservice("watchdog")
        skynet.call(watchdog, "lua", "start", {
                port = 8888,
                maxclient = max_client,
                nodelay = true,
        })
        skynet.error("Watchdog listen on", 8888)
        skynet.exit()
end)

看下 test 服务的代码 test.lua

# vi examples/test.lua
local skynet = require "skynet"
skynet.start(function()
        skynet.fork(function()
                while true do
                        local t={}
                end
        end)
end)

启动skynet进程,跑下这个例子。

# ./skynet examples/config
[:01000001] LAUNCH logger 
[:01000002] LAUNCH snlua bootstrap
[:01000003] LAUNCH snlua launcher
[:01000004] LAUNCH snlua cmaster
[:01000005] LAUNCH snlua cslave
[:01000007] LAUNCH snlua datacenterd
[:01000008] LAUNCH snlua service_mgr
[:01000009] LAUNCH snlua main
[:0100000a] LAUNCH snlua protoloader
[:0100000b] LAUNCH snlua console
[:0100000c] LAUNCH snlua debug_console 8000
[:0100000d] LAUNCH snlua simpledb
[:0100000e] LAUNCH snlua test
[:0100000f] LAUNCH snlua watchdog
[:01000010] LAUNCH snlua gate
[:01000010] Listen on 0.0.0.0:8888
[:01000009] Watchdog listen on 8888
[:01000009] KILL self
[:01000002] KILL self
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)

以上日志看出,skynet有服务陷入了死循环。趁现在试下 signal指令。

# nc 127.0.0.1 8000
Welcome to skynet console
signal :0100000e
OK

看下skynet的运行日志,skynet服务已跳出了死循环,cpu使用恢复了正常。

[:0100000e] recv a signal 0
[:0100000e] lua call [0 to :100000e : 1 msgsz = 0] error : ./lualib/skynet.lua:516: ./lualib/skynet.lua:155: nil
stack traceback:
	./examples/test.lua:6: in upvalue 'func'
	./lualib/skynet.lua:452: in upvalue 'f'
	./lualib/skynet.lua:104: in function <./lualib/skynet.lua:103>
stack traceback:
	[C]: in function 'assert'
	./lualib/skynet.lua:516: in function 'skynet.dispatch_message'

然而,实际线上遇到的复杂环境没有这么简单。

复杂多变的线上问题

假如你的代码是这样,靠上面的方法就无法解决问题了

local skynet = require "skynet"
skynet.start(function()
	skynet.fork(function()
		while true do
			pcall(function()
				while true do
					local t={}
				end
			end)
		end
	end)
end)

以上的例子中,死循环嵌套死循环,中间还有pcall的处理。当然,真正的代码不可能这样写,但由于项目函数调用层次过深,就可能出现这样的问题。

照前面的方法,调用signal指令后,结果却大相径庭:

# ./skynet examples/config
[:01000001] LAUNCH logger 
[:01000002] LAUNCH snlua bootstrap
[:01000003] LAUNCH snlua launcher
[:01000004] LAUNCH snlua cmaster
[:01000005] LAUNCH snlua cslave
[:01000006] LAUNCH harbor 1
[:01000007] LAUNCH snlua datacenterd
[:01000008] LAUNCH snlua service_mgr
[:01000009] LAUNCH snlua main
[:0100000a] LAUNCH snlua protoloader
[:0100000b] LAUNCH snlua console
[:0100000c] LAUNCH snlua debug_console 8000
[:0100000d] LAUNCH snlua simpledb
[:0100000e] LAUNCH snlua test
[:0100000f] LAUNCH snlua watchdog
[:01000010] LAUNCH snlua gate
[:01000009] KILL self
[:01000002] KILL self
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)
[:0100000e] recv a signal 0
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 33)

skynet服务还健在,收到了signal指令,但是还是没跳出死循环

那么,要怎么处理这个问题?skynet还有方法解决?

答案是否定的,没有了。现在,只能去改skynet的代码了

要怎么修改skynet的代码。方法不复杂,只需要改一处内容。

vi ./3rd/lua/lvm.c
/* Add by skynet */
lua_State * skynet_sig_L = NULL;
LUA_API void
lua_checksig_(lua_State *L) {
  if (skynet_sig_L == G(L)->mainthread) {
    //skynet_sig_L = NULL;   注释掉这行代码
    lua_pushnil(L);
    lua_error(L);
  }
}
保存后,重新编译skynet
# make clean -C 3rd/lua
# make clean
# make linux

现在,再启动下skynet,然后在控制台执行一下命令。

# nc 127.0.0.1 8000
Welcome to skynet console
signal :0100000e
OK
kill :0100000e
:0100000e	snlua test
OK

再看下skynet的运行日志,这个异常的服务已经被kill掉了

# ./skynet examples/config
[:01000001] LAUNCH logger 
[:01000002] LAUNCH snlua bootstrap
[:01000003] LAUNCH snlua launcher
[:01000004] LAUNCH snlua cmaster
[:01000005] LAUNCH snlua cslave
[:01000006] LAUNCH harbor 1 16777221
[:01000007] LAUNCH snlua datacenterd
[:01000008] LAUNCH snlua service_mgr
[:01000009] LAUNCH snlua main
[:01000009] Server start
[:0100000a] LAUNCH snlua protoloader
[:0100000b] LAUNCH snlua console
[:0100000c] LAUNCH snlua debug_console 8000
[:0100000d] LAUNCH snlua simpledb
[:0100000e] LAUNCH snlua test
[:0100000f] LAUNCH snlua watchdog
[:01000010] LAUNCH snlua gate
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 35)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 35)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 35)
[:00000000] A message from [ :00000000 ] to [ :0100000e ] maybe in an endless loop (version = 35)
[:0100000e] recv a signal 0
[:0100000e] lua call [0 to :100000e : 1 msgsz = 0] error : (no error message)
[:01000003] KILL :100000e

好了,文章到这里就结束了。原理是既然跳出一层死循环无法解决问题,那么就跳出所有的死循环吧。因为标记是全局变量的关系,所以同一时间只能处理一个skynet服务。

  • 另外还有一些关于c++ Linux后台服务器开发的一些知识点分享:Linux,Nginx,MySQL,Redis,P2P,K8S,Docker,TCP/IP,协程,DPDK,webrtc,音视频等等视频。
  • 需要的朋友可以后台私信【1】获取学习视频

    相关推荐

    如何为Hadoop选择最佳弹性MapReduce框架

    ZDNet至顶网服务器频道07月22日新闻消息:亚马逊Web服务的弹性MapReduce是一项基于Hadoop的实施,它可允许你运行大型的预处理工作,如格式转换和数据聚合等。虽然我们可以选择很多的...

    《平安小猪》:J.K.罗琳用“魔法”放大的真实

    对很多孩子来说,某些玩具是抚慰心灵的“忠实伙伴”,几乎无可替代。J.K.罗琳在看到儿子大卫对玩偶小猪的依恋后创作了“平安小猪”的故事,这也是她自《哈利·波特》之后创作的首部儿童长篇小说。男孩杰克在平安...

    一页纸精华 | HDFS

    要入门大数据,最好的办法就是理清hadoop的生态系统。本期为你介绍分布式文件系统HDFS。ApacheHadoop2.0生态系统如下图所示:Hadoop2.0生态系统图Hadoop核心项目包括:H...

    谷歌搁置与法国出版商的协议,将等候反垄断裁定

    据路透社6月29日消息,两位知情消息人士称,谷歌搁置了与一些法国出版商达成的为新闻内容付费的初步协议,将等待反垄断审议结果。该决定可能为欧洲在线新闻的版权谈判定下基调。文件显示,按照谷歌与法国新闻总联...

    Java 微服务从源码实战开始 | Gitee 项目推荐

    在软件开发的不同时期、阶段,对技术架构的理解、选择和应用都有着不一样的诉求。微服务架构是当前互联网业界的一个技术热点,它的思想也更符合我们的目标:根据业务模块划分服务种类。每个服务可以独立部署并且互相...

    快讯|谷歌搁置向法国出版商付费协议:等待反垄断决定

    财经网科技6月30日讯,据新浪科技消息,两位知情人士透露,谷歌已经搁置此前与一些法国出版商达成的为新闻内容付费的初步协议。因为谷歌正在等待一项反垄断决定,这项决定可能会为该公司的欧洲在线新闻版权谈判定...

    外媒:谷歌搁置与法国出版商的协议 等候反垄断决定

    路透中文网30日报道,据两位知情消息人士透露,谷歌GOOGL.O搁置了与一些法国出版商达成的为新闻内容付费的初步协议,等待一项反垄断决定。该决定可能为欧洲在线新闻的版权谈判定下基调。报道显示,根据路透...

    大数据任务调度框架Oozie

    Oozie(驯象人)是一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对HadoopMapReduce、PigJobs的任务调度与协调。Oozie需要部署到JavaS...

    惊了!SpringBoot 3.4 触雷,升级后参数绑定竟悄悄破坏你的代码?

    背景在微服务架构中,我们经常利用HTTP请求头来控制系统行为,比如实现灰度发布和流量控制。在PIG微服务框架中,我们通过重写SpringCloudLoadBalancer,根据请求he...

    《终结者》:科幻电影巅峰的里程碑

    在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持。文|庭芥摘要:本文以一位影评家的视角赏析詹姆斯·卡梅隆执导的经典科幻电影《终结者》。通过对该...

    AI已经越过红线?复旦大学:在知道自己将被关闭后,AI复制了自己

    2024年12月9日,复旦大学的一项研究引发了全球科技界的强烈关注。研究团队对Meta与阿里巴巴旗下的两个大型AI系统展开测试,结果发现,在知晓自身可能被关闭的情况下,它们居然选择自我复制。这不是普通...

    重磅开源!LocalAI让你在个人电脑上运行AI大模型,无需显卡,已获28K Star!

    随着AI技术的快速发展,如何在本地设备上高效运行AI模型成为了开发者关注的焦点。LocalAI开源项目提供了一个革命性的解决方案-它让用户能够在个人电脑上轻松部署和运行各种AI模型,并且完全兼容...

    了解《终结者》的恐怖末日世界观,能让你看懂《终结者6》

    相信很多人的科幻动作启蒙片,应该就是《终结者》系列,起码对于我来说,童年的暑假里,不止一次反复看着《终结者2》的电影,深深被影片中施瓦辛格的硬核铁汉形象吸引,也为片中的液态机器人着迷。《终结者》系列成...

    Golang底层是用什么语言编写的?

    Go底层语言Go语言在1.5版本之前主要由汇编和C语言写的,C语言占比85%以上,另外有少量的周边模块如文档等,带了些htmlshellperl代码,可以忽略不计。1.5版本及之后...

    skynet服务的缺陷 lua死循环

    服务端高级架构—云风的skynet这边有一个关于云风skynet的视频推荐给大家观看点击就可以观看了!skynet是一套多人在线游戏的轻量级服务端框架,使用C+Lua开发。skynet的显著优点是,...

    取消回复欢迎 发表评论: