百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

华安基金 HTAP 数据库的选型历程与 TiDB 使用体验

ccwgpt 2025-02-28 15:05 45 浏览 0 评论

导读

在金融科技迅猛发展的今天,华安基金作为行业的先行者,面临着数据管理和分析的全新挑战。随着业务的不断扩展和数据量的激增,传统的数据库架构已难以满足系统对实时性、灵活性和分析能力的需求。在这样的背景下,HTAP(混合事务/分析处理)数据库成为了数字化转型的关键。

本文由华安基金大数据开发工程师郑圣瑜撰写。探讨了华安基金在 HTAP 场景下的数据库选择。从实际业务场景出发,解析了选择 HTAP 数据库的原因及选择 TiDB 的决策过程;以及如何通过 POC 测试和实际应用,验证 TiDB 的优势;同时展示报表系统后台数据库从 MySQL 迁移到 TiDB 的案例及性能提升,分享测试和使用中的挑战及 TiDB 的新特性应用。


华安基金管理有限公司,成立于 1998 年,总部位于上海,是中国证监会批准成立的首批 5 家基金管理公司之一。华安基金旗下公募基金规模超过 6000 亿元,非货币公募资产管理规模超过 3500 亿元。公司管理的公募基金共计 248 只,服务的客户数量超过 1.3 亿,累计为投资者实现分红金额超过 1000 亿元。华安基金凭借其出色的资产管理能力,累计获得金牛奖 57 座,另外多次获得金基金奖、明星基金奖等荣誉。

在 2018 年以前,华安基金的数据库技术栈采用了集中式架构,以 Oracle 为主,MySQL 为辅;在 2018 年后,系统的数据量和并发量都有了大规模的增长,数据仓库层面引入了一套基于 Hadoop 生态的国产化分布式数据库;到 2023 年华安基金响应号召进行了国产化改造,进行了国产集中式数据库的选型替换。随着业务的不断发展,面对系统的复杂性,一个既能处理大量事务,又能进行实时分析的数据库解决方案成为了必须,因此,华安基金开启了新一轮的架构选型。

华安基金第一次感受到 HTAP 数据库的重要性是在反洗钱系统的研发中。由于该系统既包含批处理场景,也包含交易场景。尤其是审计模块,业务分析前置条件较多、需要处理的数据量很大,服务于 1.3 亿投资人,涉及到大量的数据增删改查操作。

过去,OLAP 请求从上游负责 OLTP 请求的各个信息数据库中提取数据,在数仓进行加工处理,再将处理后的数据推送到下游的各个应用系统中。在纯分析场景中,原有的 Hadoop+分布式数据库架构能够满足需求,但在交易场景中,尤其是审计模块,效率下降得十分明显。

为了应对业务的需求,新的数据库架构必须具备以下能力:

实时混合交易分析查询能力;

海量并发数据写入查询能力;

透明水平弹性拓展能力;

实时大规模批量更新删除处理能力;

金融级自愈容灾高可用能力等。

因此,华安基金开启了 HTAP 数据库选型的技术储备工作。

国产化改造要求


华安基金是上海仅有的两家基金行业中的国产化改造试点单位之一,根据相关部门要求,需要在 2027 年之前完成所有系统的国产化化改造,目前已经完成了 70%。

TiDB 是新一代分布式数据库的引领者,坚持自主开源的价值主张和全球化策略,2024 年 9 月,依托于 TiDB 经过深度优化与功能增强,为企业级关键业务场景量身打造的分布式数据库平凯数据库首批通过分布式数据库安全可靠测评,现已在金融、运营商、能源、医疗、电力、政企等多个行业的关键业务系统中得到了广泛应用和验证,这也是华安基金选择 TiDB 的前提条件。

透明、灵活、高效、易用的使用体验


在降本增效的大背景下,企业的 IT 人员有限,需要数据库可靠、稳定,并且运维简单;与此同时,金融行业的安全性和审计也至关重要,TiDB 的架构恰好能够满足这些需求:

原生分布式架构:TiDB 的使用体验与集中式数据库相似,无需考虑分片键,简化了应用开发和建表的过程。数据库自动实现数据的打散和负载均衡,降低了人工运维成本。

存储计算分离:TiDB 的存储和计算分离架构提供了更好的弹性扩展能力,允许存储和计算资源独立扩展。支持在线扩缩容,扩缩容操作在后台异步进行,不影响业务运行。

HTAP 混合负载:TiDB 支持行存储和列存储引擎,能够同时支持在线交易和实时分析,两种操作互不干扰。这种混合负载能力简化了技术栈,提高了分析效率,替代了原有的 OLTP+ETL+OLAP 架构。

高可用及易管理:TiDB 的所有组件都具有高可用性,即使在节点故障时也能保障数据不丢失、业务不中断。此外,它还支持在线 DDL 变更、资源管控、图形化管理和安全审计等,提高了系统的易管理性。

TiDB 凭借先进的架构和透明、灵活、高效、易用的使用体验成为了此次 HTAP 数据库选型中的优选。

测试验证产品能力


在框定了选型范围后,需要通过严格的全链路测试来验证产品能力。在设置测试标准时,主要有两方面考虑:

本次测试的目标是构建技术储备。华安基金希望通过测试不同的数据库解决方案,为未来可能的技术升级和扩展打下基础。最初的设想是,只要新数据库在实时查询场景下,能够达到现有 TP 系统性能的 70%和 AP 系统性能的 70%,就足以满足需求。然而,测试结果表明,TiDB 的性能远超预期。特别是在 AP 场景中,TiDB 在组件带索引查询、多表关联、聚合等操作方面的表现极为出色,甚至超出了对 AP 性能 70%的预期。在 TP 场景中,TiDB 的性能与测试中的另一个 TP 数据库相当,并且在处理大规模批量操作时表现更佳。

数据导入和导出性能是关注的重点。引入 TiDB 的出发点是报表数据集市,这是选择 TiDB 的关键应用场景。由于上游是数据仓库,需要导入大量数据,因此评估数据导入和导出的性能至关重要。华安基金期望推广的报表系统能够得到公司业务人员的广泛使用,这就要求查询速度必须足够快。因此,对数据库的导入导出性能进行了严格测试,以确保它能够满足对速度的需求。

根据以上原则,本轮选型测试采用 3 节点国产化硬件服务器以及操作系统进行部署,对百万级/亿级别/百亿级别等 13 项 HTAP 场景进行了业务测试,测试的场景和标准如下:

TiDB 超过 2 TB 级别混合场景中,运维、管控、数据处理、弹性扩容等场景均表现优秀。经过综合评估,TiDB 在 GPT(General Purpose Transactional Processing,通用事务处理)得分上脱颖而出:

在将报表系统升级至 TiDB 之后的性能对比分析显示,原先依赖单机 MySQL 数据库的系统经过升级,采用了三台服务器的配置,性能提升显著,远超三倍的预期。升级后的系统表现赢得了后台运营团队和业务团队的高度满意。

TiDB 在华安基金的近期应用主要集中在 OLAP 能力上,支持大规模数据的聚合分析和精确查询,这些场景要求数据库能够处理千万级以上的多表关联和聚合分析,以及百亿级的数据查询和范围扫描。未来,TiDB 在华安基金的应用将扩展到 OLTP 层面,支持更复杂的事务处理和在线交易业务,包括注册登记系统 TA、华安基金 APP、华安基金投资助手公众号,以及反洗钱系统审计等场景。

在测试过程中,除了对 HTAP 能力的验证,TiDB 的新特性也带给了华安基金惊喜的使用体验。

Pipelined DML


过去,在处理大规模事务的过程中,往往需要调整应用端的业务逻辑和需求以适应大量数据的导入,使用到批处理 DML(Batch DML)功能。随着 TiDB pipelined DML 功能的推出,现在可以通过简单地添加一个参数开关来提升性能,无需再对业务操作进行修改。这一改进显著简化了操作流程,提高了效率。

TiDB 的新版本相较于旧版本,在性能上也实现了显著的飞跃。这些性能上的改进极大地提升了华安基金在处理大规模数据时的效率,并且优化了操作流程。

资源管控


TiDB 的资源管控特性为系统提供了关键的资源分配能力。报表系统需要特定的资源分配策略,尤其是确保高层管理部门能够优先获取计算资源。对于后台部门,如执行常规数据处理的,对速度的要求相对宽松。为此,华安基金实施了两个资源池的设置:一个是高优先级的 online(在线)资源池,另一个是 offline(离线)资源池。在系统界面中(RU Consumed by Resource Groups),online 资源池以红色标识,而 offline 资源池以蓝色显示,确保 online 资源池能够获得更高的优先级和使用权限。

分区表全局索引


TiDB 的新特性——分区表全局索引,在营销领域的客户持仓分析中发挥了重要作用。面对一张每天新增超过 6000 万条持仓数据的明细表,数据导入过程中的稳定性非常重要,需要开启特定开关来确保操作的安全性。此外,针对业务人员的查询需求,通常基于普通索引执行点查询或小范围查询,TiDB 提供的全局索引(Global Index)功能显著提升了使用的高效性和便捷性。

ORC 文件导入


华安基金的上游数据仓库是基于开源 Hadoop 生态系统构建,主要采用 ORC 格式存储文件,TiDB 团队快速响应,在原有的文本文件和 Parquet 文件导入之外,实现了 ORC 文件的导入,从而满足了报表系统下游的多样化需求。

图形化管理监控 TEM


TiDB 的图形化管控界面简化了操作流程,避免了仅依赖命令行进行操作的复杂性,同时集成了告警管理、数据备份和主机管理等关键功能。这些功能的集成与华安基金现有的大数据仓库操作高度一致,从而提高了管理效率和用户体验。

华安基金在选择 HTAP 数据库的过程中,遵循了一套全面而细致的选型思路,以确保所选技术能够充分满足业务需求并推动公司发展:

明确需求:首先评估业务对 TP(事务处理)和 AP(分析处理)的需求比重,确定数据量、查询速度和响应时间,确保数据库能满足业务对实时性的要求。

技术特性评估:考虑数据库的实时分析能力、可扩展性、高性能、安全性和灵活性,以支持业务人员实施的场景需求,特别是后台营销人员对数据实时性的需求。

集成与兼容性:评估数据库与现有数据库、应用程序和其他关键系统的集成能力,确保数据同步策略的无缝实施。

安全性与可靠性:重视数据库的安全性措施、容灾备份机制、数据恢复能力和错误处理机制,保障业务连续性和数据安全。

成本与投资回报:分析数据库的购买、部署、维护和升级成本。

产品成熟度:考察产品的成熟度、更新频率和技术支持情况,TiDB 已经在全球超过 4,000 家企业中部署,经过了金融、互联网等规模化场景的验证。

测试与验证:在做出最终选择前,对 HTAP 数据库进行充分的测试和验证,确保其能满足业务需求。

经过细致的选型过程后,华安基金选择了 TiDB 作为 HTAP 数据库解决方案。现在,TiDB 在华安基金报表系统上已经稳定运行,成为了有参考性的解决方案;反洗钱系统作为金融行业当前的一个重点和难点,华安基金也在积极与众多同业探讨交流,探索 TiDB 的应用场景。

国内金融机构正纷纷借数字化转型建设加大投入,科技对于公募基金行业创新发展的驱动正在进入新的阶段。展望未来,相信 TiDB 有能力支撑华安基金的业务发展和技术需求,更好地服务于广大持有人和投资者。

相关推荐

十分钟让你学会LNMP架构负载均衡(impala负载均衡)

业务架构、应用架构、数据架构和技术架构一、几个基本概念1、pv值pv值(pageviews):页面的浏览量概念:一个网站的所有页面,在一天内,被浏览的总次数。(大型网站通常是上千万的级别)2、u...

AGV仓储机器人调度系统架构(agv物流机器人)

系统架构层次划分采用分层模块化设计,分为以下五层:1.1用户接口层功能:提供人机交互界面(Web/桌面端),支持任务下发、实时监控、数据可视化和报警管理。模块:任务管理面板:接收订单(如拣货、...

远程热部署在美团的落地实践(远程热点是什么意思)

Sonic是美团内部研发设计的一款用于热部署的IDEA插件,本文其实现原理及落地的一些技术细节。在阅读本文之前,建议大家先熟悉一下Spring源码、SpringMVC源码、SpringBoot...

springboot搭建xxl-job(分布式任务调度系统)

一、部署xxl-job服务端下载xxl-job源码:https://gitee.com/xuxueli0323/xxl-job二、导入项目、创建xxl_job数据库、修改配置文件为自己的数据库三、启动...

大模型:使用vLLM和Ray分布式部署推理应用

一、vLLM:面向大模型的高效推理框架1.核心特点专为推理优化:专注于大模型(如GPT-3、LLaMA)的高吞吐量、低延迟推理。关键技术:PagedAttention:类似操作系统内存分页管理,将K...

国产开源之光【分布式工作流调度系统】:DolphinScheduler

DolphinScheduler是一个开源的分布式工作流调度系统,旨在帮助用户以可靠、高效和可扩展的方式管理和调度大规模的数据处理工作流。它支持以图形化方式定义和管理工作流,提供了丰富的调度功能和监控...

简单可靠高效的分布式任务队列系统

#记录我的2024#大家好,又见面了,我是GitHub精选君!背景介绍在系统访问量逐渐增大,高并发、分布式系统成为了企业技术架构升级的必由之路。在这样的背景下,异步任务队列扮演着至关重要的角色,...

虚拟服务器之间如何分布式运行?(虚拟服务器部署)

  在云计算和虚拟化技术快速发展的今天,传统“单机单任务”的服务器架构早已难以满足现代业务对高并发、高可用、弹性伸缩和容错容灾的严苛要求。分布式系统应运而生,并成为支撑各类互联网平台、企业信息系统和A...

一文掌握 XXL-Job 的 6 大核心组件

XXL-Job是一个分布式任务调度平台,其核心组件主要包括以下部分,各组件相互协作实现高效的任务调度与管理:1.调度注册中心(RegistryCenter)作用:负责管理调度器(Schedule...

京东大佬问我,SpringBoot中如何做延迟队列?单机与分布式如何做?

京东大佬问我,SpringBoot中如何做延迟队列?单机如何做?分布式如何做呢?并给出案例与代码分析。嗯,用户问的是在SpringBoot中如何实现延迟队列,单机和分布式环境下分别怎么做。这个问题其实...

企业级项目组件选型(一)分布式任务调度平台

官网地址:https://www.xuxueli.com/xxl-job/能力介绍架构图安全性为提升系统安全性,调度中心和执行器进行安全性校验,双方AccessToken匹配才允许通讯;调度中心和执...

python多进程的分布式任务调度应用场景及示例

多进程的分布式任务调度可以应用于以下场景:分布式爬虫:importmultiprocessingimportrequestsdefcrawl(url):response=re...

SpringBoot整合ElasticJob实现分布式任务调度

介绍ElasticJob是面向互联网生态和海量任务的分布式调度解决方案,由两个相互独立的子项目ElasticJob-Lite和ElasticJob-Cloud组成。它通过弹性调度、资源管控、...

分布式可视化 DAG 任务调度系统 Taier 的整体流程分析

Taier作为袋鼠云的开源项目之一,是一个分布式可视化的DAG任务调度系统。旨在降低ETL开发成本,提高大数据平台稳定性,让大数据开发人员可以在Taier直接进行业务逻辑的开发,而不用关...

SpringBoot任务调度:@Scheduled与TaskExecutor全面解析

一、任务调度基础概念1.1什么是任务调度任务调度是指按照预定的时间计划或特定条件自动执行任务的过程。在现代应用开发中,任务调度扮演着至关重要的角色,它使得开发者能够自动化处理周期性任务、定时任务和异...

取消回复欢迎 发表评论: