百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

探寻繁杂定时任务的解决方案:分布式任务调度系统

ccwgpt 2024-10-05 14:11 21 浏览 0 评论

导语:本文我们从架构和技术实现上来为大家讲解腾讯云分布式任务调度系统TCT(Tencent Cloud Task)如何实现任务调度的精准实时、稳定高效,以及任务的切分和编排。(编辑:中间件小Q妹)


01

背景介绍


缘起缘灭,自有因果

首先, 我们来思考一些几个业务场景:

  • XX信用卡中心,每月28日凌晨1:00到3:00需要完成全网用户当月的费用清单的生成。
  • XX服饰,需要每天上午9:00开始向会员推送送生日祝福短信。
  • XX游戏平台,新用户注册后,需要为当前用户生成定时任务, 在月底清算虚拟货币兑换的佣金额度。
  • XX公司,需要定时执行Python脚本,清理掉某文件服务系统中无效的tmp文件。
  • XX保险公司,需要每天凌晨2:00统计前一天新增保单数量,并触发报表生成任务,完成后抄送邮件。

类似上述批量处理海量定时任务的业务场景,企业从单体架构向微服务架构、云化服务架构演进过程中已经屡见不鲜,基于Quartz的常规调度框架已无法应对这种分布式场景下的需求,既无法实现任务调度的精准实时、稳定高效,也无法实现任务的切分、编排、失败补充。因此企业迫切需要一款一站式分布式调度任务解决方案,帮助企业统一管理繁杂纷乱的定时任务,增强企业微服平台服务化能力,支撑企业云化服务转型。


02

现有的开源方案


它山之石可以攻玉 ...

在过往的发展中, 前人留下了不少优秀的方案, 各有利弊。常见开源产品: Quartz、XXL-Job、ElasticJob、Antares、SIA-TASK 等。

  • Quartz:该框架应用最为广泛,其完全基于Java实现,Quartz 对单个任务的控制基本做到了极致,以其强大功能和应用灵活性,成为开源任务调度领域的权威及同类开源产品如Antares的基石;
  • XXL-JOB:一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。XXL-JOB 支持分片,支持简单任务依赖,支持子任务依赖,不支持跨平台的。
  • Elastic-Job:支持任务分片(作业分片一致性),没有任务编排,不支持跨平台;
  • SIA-TASK:具有跨平台、可编排、高可用、无侵入、一致性、异步并行、动态扩展、实时监控等特点。

开源方案的逻辑架构图


开源方案的技术实现图


从开源方案的逻辑架构和技术实现上,我们也能直观的看出开源方案的不足:

  • 架构方面:调度器职责划分不清晰、系统扩展性不足。面对大规模虚拟化&复杂的网络环境,简单的远程调用并不能完成胜任。
  • 性能方面:ZooKeeper集群伴随任务量和高频事件的增多,成为系统性能瓶颈。简的远程调用或者任务拉取等方案, 满足不了量大频高的业务诉求。
  • 功能方面:缺乏完整认证鉴权方面的系统设计,安全性无法保障。任务干预、监控告警等系统运维方面能力较弱。

03

TCT简介


为了解决上述问题,我们进行了深入的探索,并设计出了一套企业级的分布式任务调度系统TCT(Tencent Cloud Task)。TCT提供一站式分布式调度任务解决方案,支持随机、广播多种任务类型,具备任务分片、任务编排能力,提供完善的监控告警体系。我们结合了用户实际的业务场景,吸取了历史经验,主要解决了面几个核心问题:

以上核心要素,对系统的要求各不相同,可提供如下总结进行参考:

04

技术架构


技术架构图

下面我们解释下架构图中的各个功能模块:


05

功能架构


功能架构图

这样设计分布式任务调度系统,有以下几个优点:

优点一:模块化微服务架构设计, 职责清晰

触发器

  • 只需根据任务执行规则,计算解析出不同时点的任务触发事件。通过MQ的实现可靠性投递(后续文章会逐步讲解如何实现可靠性投递),起到削峰填谷,避免高峰IO等问题, 提高吞吐量。
  • 通过合理的分片策略和容灾策略,解决传统多节点锁竞争轮训的解析加载策略,降低对存储的压力。
  • 冷热数据隔离加载机制,进一步降低对存储压力和系统开销。
  • 根据高频的任务执行策略,采取预加载策略和动态调整预加载算法,解决高频触发导致系统负载高的问题。

调度器

  • 整个任务调度系统中控制逻辑最为复杂的组件,IO密集型组件。
  • 通过订阅MQ消息事件,与触发器解耦,有效提升系统的吞吐。
  • 专注于任务调度的逻辑控制,如任务执行调度、负载均衡、容错、限流、计费等。

接入网关

  • 独立承担客户端的接入认证和鉴权,提供有效的权限校验策略。
  • 负责上下行信道的回话管理,与复杂的业务逻辑完成解耦。
  • 客户端节点及服务节点上下线自动探测感知机制,有效实现会话管理。
  • 数据透传及路由,实现组件内闭环。
  • 配合SDK/Agent侧设计,有效避免了单节点连接数瓶颈以及服务节点冷起场景下的高并发tcp建立连接问题。

优点二:无状态化设计,简便水平扩展

触发器

  • 通过有效的分片策略,在实现避免触发压力集中化的情况下,可快捷的完成服务的弹性扩缩容,实现近似无状态的水平扩展。

调度器

  • 完全无状态的设计方案,无需考虑任务的回源问题,实现无状态的水平扩容。

接入网关

  • 完全无状态的设计方案,可实现无状态的水平扩容,实现理论上TCP连接数无上限。

优点三:功能完备

灵活的触发规则

  • 支持Cron表达式,例如 * 0/5 * * * ? 等。
  • 特定周期频率的触发规则,例如 间隔36分钟等。

便捷的管理能力,提供暂停、恢复、停止、重试等多种多样的管控能力。

任务管理

支持三种执行方式

  • 随机节点执行:选择集群中一个可用的执行节点执行调度任务。适用场景:定时对账。
  • 广播执行:在集群中所有的执行节点分发调度任务并执行。适用场景:批量运维。
  • 分片执行:按照用户自定义分片逻辑进行拆分,分发到集群中不同节点并行执行,提升资源利用效率。适用场景:海量日志统计。

任务调度执行方式

支持三种触发方式

  • 手动触发:用户在任务管理列表选择特定任务手动执行一次,调度器立即进行任务分发,并产生一个执行批次。适用场景:周期执行任务补充。
  • 周期触发:通过设置任务触发的间隔时间来设置任务的执行时间;可支持 cron 表达式所不支持的周期设置。适用场景:定时备份。
  • 工作流触发:工作流是一组任务集合,可以编排任务的上下游逻辑依赖,进行任务触发。适用场景:海量数据处理,如数据采集,数据过滤,数据清洗,数据聚合的流程编排。

任务触发方式

日志溯源能力

通过日志服务, 方便用户查询任务执行日志。用户可以通过执行记录所有任务的执行批次详情,能够对当前状态为执行中的批次进行停止执行操作,能够对当前已经终止的批次触发重新执行操作;点击批次ID进入该批次的执行详情,点击任务ID进入该任务的执行批次列表,点击执行部署组进入资源详情列表。

日志查询

支持复杂的任务编排能力

可以实现多种场景的任务工作流。通过构建调度任务的上下游依赖关系完成复杂的任务调度逻辑。适用于大数据流程处理、任务执行工单、批量运维流程编排等应用场景。

任务编排


06

总结


一个平台性的系统,从产品功能到技术架构都存在着方方面面的挑战,需要层层抽象和逐步优化才能完成一个成熟产品落地。在大数据时代,面对海量的数据和用户规模,任何一种架构设计,都面临着网络响应、 容错、幂等、数据可靠性/一致性等诸多问题。


对于平台而言,任务的可靠性是第一优先级需要考虑的,次之任务执行的时效性。合理地进行功能模块化拆分,针对不同场景,设计不同的扩展方案,保证SLA的前提下提升系统整体吞吐,实现可靠有效触达,应对频高量大的业务场景。


对于用户而言,多样化的管理手段、多维度的运行指标查询, 全方位的链路监控则是用户追求的,只有让用户从复杂混乱的定时任务场景中抽离出来,才能更加专注在业务研发。

相关推荐

十分钟让你学会LNMP架构负载均衡(impala负载均衡)

业务架构、应用架构、数据架构和技术架构一、几个基本概念1、pv值pv值(pageviews):页面的浏览量概念:一个网站的所有页面,在一天内,被浏览的总次数。(大型网站通常是上千万的级别)2、u...

AGV仓储机器人调度系统架构(agv物流机器人)

系统架构层次划分采用分层模块化设计,分为以下五层:1.1用户接口层功能:提供人机交互界面(Web/桌面端),支持任务下发、实时监控、数据可视化和报警管理。模块:任务管理面板:接收订单(如拣货、...

远程热部署在美团的落地实践(远程热点是什么意思)

Sonic是美团内部研发设计的一款用于热部署的IDEA插件,本文其实现原理及落地的一些技术细节。在阅读本文之前,建议大家先熟悉一下Spring源码、SpringMVC源码、SpringBoot...

springboot搭建xxl-job(分布式任务调度系统)

一、部署xxl-job服务端下载xxl-job源码:https://gitee.com/xuxueli0323/xxl-job二、导入项目、创建xxl_job数据库、修改配置文件为自己的数据库三、启动...

大模型:使用vLLM和Ray分布式部署推理应用

一、vLLM:面向大模型的高效推理框架1.核心特点专为推理优化:专注于大模型(如GPT-3、LLaMA)的高吞吐量、低延迟推理。关键技术:PagedAttention:类似操作系统内存分页管理,将K...

国产开源之光【分布式工作流调度系统】:DolphinScheduler

DolphinScheduler是一个开源的分布式工作流调度系统,旨在帮助用户以可靠、高效和可扩展的方式管理和调度大规模的数据处理工作流。它支持以图形化方式定义和管理工作流,提供了丰富的调度功能和监控...

简单可靠高效的分布式任务队列系统

#记录我的2024#大家好,又见面了,我是GitHub精选君!背景介绍在系统访问量逐渐增大,高并发、分布式系统成为了企业技术架构升级的必由之路。在这样的背景下,异步任务队列扮演着至关重要的角色,...

虚拟服务器之间如何分布式运行?(虚拟服务器部署)

  在云计算和虚拟化技术快速发展的今天,传统“单机单任务”的服务器架构早已难以满足现代业务对高并发、高可用、弹性伸缩和容错容灾的严苛要求。分布式系统应运而生,并成为支撑各类互联网平台、企业信息系统和A...

一文掌握 XXL-Job 的 6 大核心组件

XXL-Job是一个分布式任务调度平台,其核心组件主要包括以下部分,各组件相互协作实现高效的任务调度与管理:1.调度注册中心(RegistryCenter)作用:负责管理调度器(Schedule...

京东大佬问我,SpringBoot中如何做延迟队列?单机与分布式如何做?

京东大佬问我,SpringBoot中如何做延迟队列?单机如何做?分布式如何做呢?并给出案例与代码分析。嗯,用户问的是在SpringBoot中如何实现延迟队列,单机和分布式环境下分别怎么做。这个问题其实...

企业级项目组件选型(一)分布式任务调度平台

官网地址:https://www.xuxueli.com/xxl-job/能力介绍架构图安全性为提升系统安全性,调度中心和执行器进行安全性校验,双方AccessToken匹配才允许通讯;调度中心和执...

python多进程的分布式任务调度应用场景及示例

多进程的分布式任务调度可以应用于以下场景:分布式爬虫:importmultiprocessingimportrequestsdefcrawl(url):response=re...

SpringBoot整合ElasticJob实现分布式任务调度

介绍ElasticJob是面向互联网生态和海量任务的分布式调度解决方案,由两个相互独立的子项目ElasticJob-Lite和ElasticJob-Cloud组成。它通过弹性调度、资源管控、...

分布式可视化 DAG 任务调度系统 Taier 的整体流程分析

Taier作为袋鼠云的开源项目之一,是一个分布式可视化的DAG任务调度系统。旨在降低ETL开发成本,提高大数据平台稳定性,让大数据开发人员可以在Taier直接进行业务逻辑的开发,而不用关...

SpringBoot任务调度:@Scheduled与TaskExecutor全面解析

一、任务调度基础概念1.1什么是任务调度任务调度是指按照预定的时间计划或特定条件自动执行任务的过程。在现代应用开发中,任务调度扮演着至关重要的角色,它使得开发者能够自动化处理周期性任务、定时任务和异...

取消回复欢迎 发表评论: