百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

亿级海量数据SAAS系统架构实践经验分享

ccwgpt 2024-10-26 08:38 50 浏览 0 评论

我们的应用场景是提供一套SaaS系统,一个在线商家结算的系统,规模十万用户实时在线。大家可能会觉得奇怪,这在互联网行业并不算很大的用户量,有什么难度吗?

相当少的用户量,其难度在哪里?

比如说淘宝的商家后台类似我们的商家结算后台用户,它的商家是千万级别的。但不同之处呢?

举个例子,譬如淘宝的商家查询订单界面,根本没有什么查询条件。用户只能筛选一个月,或者是一周的。而做过大型系统的人都知道,系统的复杂度和挑战性,就取决于它的查询条件。我们的数十万用户实时在线的查询系统,有50多个查询条件,你可以按照年月日、商家的类型、账单的维度等等进行查询,而且是实时查询。并且我们的系统每天产生亿级增量的数据,即1亿行单表。通常单表超过2G,我们就建议去拆分,所以亿级增量数据这本来就是一个难点,再加上实时读写,亿级大量复杂的分页查询,这就更难了。

最后,一个商家在月初有百万级别的数据导出,我们有10万用户,假设有一半的人月初导入百万明细,要怎么实现?怎么导出Excel?在服务器上生成Excel,再提供下载;还是实时生成这种数据流,输出去?这么干你会出大问题。

第一个挑战是亿级增量数据的存储。行业通用的做法就是分表、分库。而业务场景因为是结算系统,所以对实时性、一致性、完整性要求很高,结算系统少一分钱都不行。做过架构的都应该知道CAP定理:可用性、一致性和分区容错性,三个条件只能满足两个。对于结算系统来说,可用性、数据一致性的要求相当高。另外数百个应用部署的实例对数据库造成压力。假设有500个应用部署实例,500个机器都去连数据库,按每一个应用开20个数据库连接计算,这就有1万个链接,哪个数据库扛得住?可能有人会说采用多个数据库,这就会涉及到分库、分表。也有人说会有连接池,但是要注意,我们在这种复杂条件下执行查询,有的比较低效,可能需要执行几秒甚至十几秒,很可能会耗尽数据库连接。

高可用对结算系统来说,3个9、4个9是很基本的要求。我们的数据来源于第三方,同步到系统,然后用MQ来做实时的数据处理,当数据进入系统,我们要按我们的逻辑加工,所以它的业务逻辑非常复杂。对于涌入的数据,MQ解决了高并发的问题,但业务逻辑的复杂性依然存在,这就是系统面临的巨大挑战。

云原生微服务架构,是建立在容器基础上的DevOps,基于敏捷小团队的开发模式来做的微服务架构。

在我们的SaaS系统里,用户登录注册、到完成报价、出账单,横向的黄色版块是业务逻辑。要完成这样的业务逻辑闭环,在微服务架构上,第一,他会进入一个网关层,然后请求链接会分到各个业务系统。从用户注册、到业务员报价,每一块都是垂直独立的,有独立的应用、独立的service、以及独立的数据库存储。我们用集群微服务,去解决这样大型互联网应用系统的架构。

其中有一个网关层,网关层其实就是做简单的鉴权、负载均衡、缓存、请求分片与管理等类似的工作。在我们的大型微服务架构里面,它通常有几个特点:解耦、去中心化治理、去中心化管理数据。这套微服务架构是基于Spring boot进行开发,使用dubbo作为微服务框架、zookeeper作为服务治理平台、使用网关进行鉴权、负载均衡、缓存、请求分片与管理等工作的大型微服务架构系统。

在我们的项目中,集成了CAT,做到全链路监控。在服务治理方面,每一个应用在内部实现了RPC的框架,内部调用时,我们的服务就要明确定义:

要实现高可用,我们就用到刚才讲的微服务化之后,每一个应用——比如说SSO或订单service服务,就可以通过加机器的方式做到弹性扩容。

其实我们的业务也是从零开始,一开始实现了单体架构,等业务量扩大到一定程度才拆分成微服务。

当我们做一个做从零开始的系统架构,一开始就要注意开发框架,我们基于Spring boot,去后台的架构分层,至少要先实现RPC的架构,部署一个单体应用或简单分成前后台。等到后期业务量增长到一定的程度,在RPC框架的基础上去重新部署,凭借微服务架构的横向可扩去拆分工作,就不用大规模的重构了。

更多技术干货欢迎关注,点赞,收藏,转发,技术视频私信小编即可领取

相关推荐

十分钟让你学会LNMP架构负载均衡(impala负载均衡)

业务架构、应用架构、数据架构和技术架构一、几个基本概念1、pv值pv值(pageviews):页面的浏览量概念:一个网站的所有页面,在一天内,被浏览的总次数。(大型网站通常是上千万的级别)2、u...

AGV仓储机器人调度系统架构(agv物流机器人)

系统架构层次划分采用分层模块化设计,分为以下五层:1.1用户接口层功能:提供人机交互界面(Web/桌面端),支持任务下发、实时监控、数据可视化和报警管理。模块:任务管理面板:接收订单(如拣货、...

远程热部署在美团的落地实践(远程热点是什么意思)

Sonic是美团内部研发设计的一款用于热部署的IDEA插件,本文其实现原理及落地的一些技术细节。在阅读本文之前,建议大家先熟悉一下Spring源码、SpringMVC源码、SpringBoot...

springboot搭建xxl-job(分布式任务调度系统)

一、部署xxl-job服务端下载xxl-job源码:https://gitee.com/xuxueli0323/xxl-job二、导入项目、创建xxl_job数据库、修改配置文件为自己的数据库三、启动...

大模型:使用vLLM和Ray分布式部署推理应用

一、vLLM:面向大模型的高效推理框架1.核心特点专为推理优化:专注于大模型(如GPT-3、LLaMA)的高吞吐量、低延迟推理。关键技术:PagedAttention:类似操作系统内存分页管理,将K...

国产开源之光【分布式工作流调度系统】:DolphinScheduler

DolphinScheduler是一个开源的分布式工作流调度系统,旨在帮助用户以可靠、高效和可扩展的方式管理和调度大规模的数据处理工作流。它支持以图形化方式定义和管理工作流,提供了丰富的调度功能和监控...

简单可靠高效的分布式任务队列系统

#记录我的2024#大家好,又见面了,我是GitHub精选君!背景介绍在系统访问量逐渐增大,高并发、分布式系统成为了企业技术架构升级的必由之路。在这样的背景下,异步任务队列扮演着至关重要的角色,...

虚拟服务器之间如何分布式运行?(虚拟服务器部署)

  在云计算和虚拟化技术快速发展的今天,传统“单机单任务”的服务器架构早已难以满足现代业务对高并发、高可用、弹性伸缩和容错容灾的严苛要求。分布式系统应运而生,并成为支撑各类互联网平台、企业信息系统和A...

一文掌握 XXL-Job 的 6 大核心组件

XXL-Job是一个分布式任务调度平台,其核心组件主要包括以下部分,各组件相互协作实现高效的任务调度与管理:1.调度注册中心(RegistryCenter)作用:负责管理调度器(Schedule...

京东大佬问我,SpringBoot中如何做延迟队列?单机与分布式如何做?

京东大佬问我,SpringBoot中如何做延迟队列?单机如何做?分布式如何做呢?并给出案例与代码分析。嗯,用户问的是在SpringBoot中如何实现延迟队列,单机和分布式环境下分别怎么做。这个问题其实...

企业级项目组件选型(一)分布式任务调度平台

官网地址:https://www.xuxueli.com/xxl-job/能力介绍架构图安全性为提升系统安全性,调度中心和执行器进行安全性校验,双方AccessToken匹配才允许通讯;调度中心和执...

python多进程的分布式任务调度应用场景及示例

多进程的分布式任务调度可以应用于以下场景:分布式爬虫:importmultiprocessingimportrequestsdefcrawl(url):response=re...

SpringBoot整合ElasticJob实现分布式任务调度

介绍ElasticJob是面向互联网生态和海量任务的分布式调度解决方案,由两个相互独立的子项目ElasticJob-Lite和ElasticJob-Cloud组成。它通过弹性调度、资源管控、...

分布式可视化 DAG 任务调度系统 Taier 的整体流程分析

Taier作为袋鼠云的开源项目之一,是一个分布式可视化的DAG任务调度系统。旨在降低ETL开发成本,提高大数据平台稳定性,让大数据开发人员可以在Taier直接进行业务逻辑的开发,而不用关...

SpringBoot任务调度:@Scheduled与TaskExecutor全面解析

一、任务调度基础概念1.1什么是任务调度任务调度是指按照预定的时间计划或特定条件自动执行任务的过程。在现代应用开发中,任务调度扮演着至关重要的角色,它使得开发者能够自动化处理周期性任务、定时任务和异...

取消回复欢迎 发表评论: