百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

华安基金 HTAP 数据库的选型历程与 TiDB 使用体验

ccwgpt 2025-02-28 15:05 39 浏览 0 评论

导读

在金融科技迅猛发展的今天,华安基金作为行业的先行者,面临着数据管理和分析的全新挑战。随着业务的不断扩展和数据量的激增,传统的数据库架构已难以满足系统对实时性、灵活性和分析能力的需求。在这样的背景下,HTAP(混合事务/分析处理)数据库成为了数字化转型的关键。

本文由华安基金大数据开发工程师郑圣瑜撰写。探讨了华安基金在 HTAP 场景下的数据库选择。从实际业务场景出发,解析了选择 HTAP 数据库的原因及选择 TiDB 的决策过程;以及如何通过 POC 测试和实际应用,验证 TiDB 的优势;同时展示报表系统后台数据库从 MySQL 迁移到 TiDB 的案例及性能提升,分享测试和使用中的挑战及 TiDB 的新特性应用。


华安基金管理有限公司,成立于 1998 年,总部位于上海,是中国证监会批准成立的首批 5 家基金管理公司之一。华安基金旗下公募基金规模超过 6000 亿元,非货币公募资产管理规模超过 3500 亿元。公司管理的公募基金共计 248 只,服务的客户数量超过 1.3 亿,累计为投资者实现分红金额超过 1000 亿元。华安基金凭借其出色的资产管理能力,累计获得金牛奖 57 座,另外多次获得金基金奖、明星基金奖等荣誉。

在 2018 年以前,华安基金的数据库技术栈采用了集中式架构,以 Oracle 为主,MySQL 为辅;在 2018 年后,系统的数据量和并发量都有了大规模的增长,数据仓库层面引入了一套基于 Hadoop 生态的国产化分布式数据库;到 2023 年华安基金响应号召进行了国产化改造,进行了国产集中式数据库的选型替换。随着业务的不断发展,面对系统的复杂性,一个既能处理大量事务,又能进行实时分析的数据库解决方案成为了必须,因此,华安基金开启了新一轮的架构选型。

华安基金第一次感受到 HTAP 数据库的重要性是在反洗钱系统的研发中。由于该系统既包含批处理场景,也包含交易场景。尤其是审计模块,业务分析前置条件较多、需要处理的数据量很大,服务于 1.3 亿投资人,涉及到大量的数据增删改查操作。

过去,OLAP 请求从上游负责 OLTP 请求的各个信息数据库中提取数据,在数仓进行加工处理,再将处理后的数据推送到下游的各个应用系统中。在纯分析场景中,原有的 Hadoop+分布式数据库架构能够满足需求,但在交易场景中,尤其是审计模块,效率下降得十分明显。

为了应对业务的需求,新的数据库架构必须具备以下能力:

实时混合交易分析查询能力;

海量并发数据写入查询能力;

透明水平弹性拓展能力;

实时大规模批量更新删除处理能力;

金融级自愈容灾高可用能力等。

因此,华安基金开启了 HTAP 数据库选型的技术储备工作。

国产化改造要求


华安基金是上海仅有的两家基金行业中的国产化改造试点单位之一,根据相关部门要求,需要在 2027 年之前完成所有系统的国产化化改造,目前已经完成了 70%。

TiDB 是新一代分布式数据库的引领者,坚持自主开源的价值主张和全球化策略,2024 年 9 月,依托于 TiDB 经过深度优化与功能增强,为企业级关键业务场景量身打造的分布式数据库平凯数据库首批通过分布式数据库安全可靠测评,现已在金融、运营商、能源、医疗、电力、政企等多个行业的关键业务系统中得到了广泛应用和验证,这也是华安基金选择 TiDB 的前提条件。

透明、灵活、高效、易用的使用体验


在降本增效的大背景下,企业的 IT 人员有限,需要数据库可靠、稳定,并且运维简单;与此同时,金融行业的安全性和审计也至关重要,TiDB 的架构恰好能够满足这些需求:

原生分布式架构:TiDB 的使用体验与集中式数据库相似,无需考虑分片键,简化了应用开发和建表的过程。数据库自动实现数据的打散和负载均衡,降低了人工运维成本。

存储计算分离:TiDB 的存储和计算分离架构提供了更好的弹性扩展能力,允许存储和计算资源独立扩展。支持在线扩缩容,扩缩容操作在后台异步进行,不影响业务运行。

HTAP 混合负载:TiDB 支持行存储和列存储引擎,能够同时支持在线交易和实时分析,两种操作互不干扰。这种混合负载能力简化了技术栈,提高了分析效率,替代了原有的 OLTP+ETL+OLAP 架构。

高可用及易管理:TiDB 的所有组件都具有高可用性,即使在节点故障时也能保障数据不丢失、业务不中断。此外,它还支持在线 DDL 变更、资源管控、图形化管理和安全审计等,提高了系统的易管理性。

TiDB 凭借先进的架构和透明、灵活、高效、易用的使用体验成为了此次 HTAP 数据库选型中的优选。

测试验证产品能力


在框定了选型范围后,需要通过严格的全链路测试来验证产品能力。在设置测试标准时,主要有两方面考虑:

本次测试的目标是构建技术储备。华安基金希望通过测试不同的数据库解决方案,为未来可能的技术升级和扩展打下基础。最初的设想是,只要新数据库在实时查询场景下,能够达到现有 TP 系统性能的 70%和 AP 系统性能的 70%,就足以满足需求。然而,测试结果表明,TiDB 的性能远超预期。特别是在 AP 场景中,TiDB 在组件带索引查询、多表关联、聚合等操作方面的表现极为出色,甚至超出了对 AP 性能 70%的预期。在 TP 场景中,TiDB 的性能与测试中的另一个 TP 数据库相当,并且在处理大规模批量操作时表现更佳。

数据导入和导出性能是关注的重点。引入 TiDB 的出发点是报表数据集市,这是选择 TiDB 的关键应用场景。由于上游是数据仓库,需要导入大量数据,因此评估数据导入和导出的性能至关重要。华安基金期望推广的报表系统能够得到公司业务人员的广泛使用,这就要求查询速度必须足够快。因此,对数据库的导入导出性能进行了严格测试,以确保它能够满足对速度的需求。

根据以上原则,本轮选型测试采用 3 节点国产化硬件服务器以及操作系统进行部署,对百万级/亿级别/百亿级别等 13 项 HTAP 场景进行了业务测试,测试的场景和标准如下:

TiDB 超过 2 TB 级别混合场景中,运维、管控、数据处理、弹性扩容等场景均表现优秀。经过综合评估,TiDB 在 GPT(General Purpose Transactional Processing,通用事务处理)得分上脱颖而出:

在将报表系统升级至 TiDB 之后的性能对比分析显示,原先依赖单机 MySQL 数据库的系统经过升级,采用了三台服务器的配置,性能提升显著,远超三倍的预期。升级后的系统表现赢得了后台运营团队和业务团队的高度满意。

TiDB 在华安基金的近期应用主要集中在 OLAP 能力上,支持大规模数据的聚合分析和精确查询,这些场景要求数据库能够处理千万级以上的多表关联和聚合分析,以及百亿级的数据查询和范围扫描。未来,TiDB 在华安基金的应用将扩展到 OLTP 层面,支持更复杂的事务处理和在线交易业务,包括注册登记系统 TA、华安基金 APP、华安基金投资助手公众号,以及反洗钱系统审计等场景。

在测试过程中,除了对 HTAP 能力的验证,TiDB 的新特性也带给了华安基金惊喜的使用体验。

Pipelined DML


过去,在处理大规模事务的过程中,往往需要调整应用端的业务逻辑和需求以适应大量数据的导入,使用到批处理 DML(Batch DML)功能。随着 TiDB pipelined DML 功能的推出,现在可以通过简单地添加一个参数开关来提升性能,无需再对业务操作进行修改。这一改进显著简化了操作流程,提高了效率。

TiDB 的新版本相较于旧版本,在性能上也实现了显著的飞跃。这些性能上的改进极大地提升了华安基金在处理大规模数据时的效率,并且优化了操作流程。

资源管控


TiDB 的资源管控特性为系统提供了关键的资源分配能力。报表系统需要特定的资源分配策略,尤其是确保高层管理部门能够优先获取计算资源。对于后台部门,如执行常规数据处理的,对速度的要求相对宽松。为此,华安基金实施了两个资源池的设置:一个是高优先级的 online(在线)资源池,另一个是 offline(离线)资源池。在系统界面中(RU Consumed by Resource Groups),online 资源池以红色标识,而 offline 资源池以蓝色显示,确保 online 资源池能够获得更高的优先级和使用权限。

分区表全局索引


TiDB 的新特性——分区表全局索引,在营销领域的客户持仓分析中发挥了重要作用。面对一张每天新增超过 6000 万条持仓数据的明细表,数据导入过程中的稳定性非常重要,需要开启特定开关来确保操作的安全性。此外,针对业务人员的查询需求,通常基于普通索引执行点查询或小范围查询,TiDB 提供的全局索引(Global Index)功能显著提升了使用的高效性和便捷性。

ORC 文件导入


华安基金的上游数据仓库是基于开源 Hadoop 生态系统构建,主要采用 ORC 格式存储文件,TiDB 团队快速响应,在原有的文本文件和 Parquet 文件导入之外,实现了 ORC 文件的导入,从而满足了报表系统下游的多样化需求。

图形化管理监控 TEM


TiDB 的图形化管控界面简化了操作流程,避免了仅依赖命令行进行操作的复杂性,同时集成了告警管理、数据备份和主机管理等关键功能。这些功能的集成与华安基金现有的大数据仓库操作高度一致,从而提高了管理效率和用户体验。

华安基金在选择 HTAP 数据库的过程中,遵循了一套全面而细致的选型思路,以确保所选技术能够充分满足业务需求并推动公司发展:

明确需求:首先评估业务对 TP(事务处理)和 AP(分析处理)的需求比重,确定数据量、查询速度和响应时间,确保数据库能满足业务对实时性的要求。

技术特性评估:考虑数据库的实时分析能力、可扩展性、高性能、安全性和灵活性,以支持业务人员实施的场景需求,特别是后台营销人员对数据实时性的需求。

集成与兼容性:评估数据库与现有数据库、应用程序和其他关键系统的集成能力,确保数据同步策略的无缝实施。

安全性与可靠性:重视数据库的安全性措施、容灾备份机制、数据恢复能力和错误处理机制,保障业务连续性和数据安全。

成本与投资回报:分析数据库的购买、部署、维护和升级成本。

产品成熟度:考察产品的成熟度、更新频率和技术支持情况,TiDB 已经在全球超过 4,000 家企业中部署,经过了金融、互联网等规模化场景的验证。

测试与验证:在做出最终选择前,对 HTAP 数据库进行充分的测试和验证,确保其能满足业务需求。

经过细致的选型过程后,华安基金选择了 TiDB 作为 HTAP 数据库解决方案。现在,TiDB 在华安基金报表系统上已经稳定运行,成为了有参考性的解决方案;反洗钱系统作为金融行业当前的一个重点和难点,华安基金也在积极与众多同业探讨交流,探索 TiDB 的应用场景。

国内金融机构正纷纷借数字化转型建设加大投入,科技对于公募基金行业创新发展的驱动正在进入新的阶段。展望未来,相信 TiDB 有能力支撑华安基金的业务发展和技术需求,更好地服务于广大持有人和投资者。

相关推荐

迈向群体智能 | 智源发布首个跨本体具身大小脑协作框架

允中发自凹非寺量子位|公众号QbitAI3月29日,智源研究院在2025中关村论坛“未来人工智能先锋论坛”上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实...

大模型对接微信个人号,极空间部署AstrBot机器人,万事不求百度

「亲爱的粉丝朋友们好啊!今天熊猫又来介绍好玩有趣的Docker项目了,喜欢的记得点个关注哦!」引言前两天熊猫发过一篇关于如何在极空间部署AstrBot并对接QQ消息平台的文章,不过其实QQ现在已经很少...

Seata,让分布式事务不再是难题!实战分享带你领略Seata的魅力!

终身学习、乐于分享、共同成长!前言Seata是一款开源的分布式事务解决方案,致力于提供高性能和简单易用的分布式事务服务。Seata将为用户提供了AT、TCC、SAGA和XA事务模式,为用户打造一站式的...

常见分布式事务解决方案(分布式事务解决的问题)

1.两阶段提交(2PC)原理:分为准备阶段(协调者询问参与者是否可提交)和提交阶段(协调者根据参与者反馈决定提交或回滚)。优点:强一致性,适用于数据库层(如XA协议)。缺点:同步阻塞:所有参与者阻塞...

分布式事务:从崩溃到高可用,程序员必须掌握的实战方案!

“支付成功,但订单状态未更新!”、“库存扣减后,交易却回滚了!”——如果你在分布式系统中踩过这些“天坑”,这篇文章就是你的救命稻草!本文将手把手拆解分布式事务的核心痛点和6大主流解决方案,用代码实战+...

谈谈对分布式事务的一点理解和解决方案

分布式事务首先,做系统拆分的时候几乎都会遇到分布式事务的问题,一个仿真的案例如下:项目初期,由于用户体量不大,订单模块和钱包模块共库共应用(大war包时代),模块调用可以简化为本地事务操作,这样做只要...

一篇教你通过Seata解决分布式事务问题

1 Seata介绍Seata是由阿里中间件团队发起的开源分布式事务框架项目,依赖支持本地ACID事务的关系型数据库,可以高效并且对业务0侵入的方式解决微服务场景下面临的分布式事务问题,目前提供AT...

Seata分布式事务详解(原理流程及4种模式)

Seata分布式事务是SpringCloudAlibaba的核心组件,也是构建分布式的基石,下面我就全面来详解Seata@mikechen本篇已收于mikechen原创超30万字《阿里架构师进阶专题合...

分布式事务最终一致性解决方案有哪些?MQ、TCC、saga如何实现?

JTA方案适用于单体架构多数据源时实现分布式事务,但对于微服务间的分布式事务就无能为力了,我们需要使用其他的方案实现分布式事务。1、本地消息表本地消息表的核心思想是将分布式事务拆分成本地事务进行处理...

彻底掌握分布式事务2PC、3PC模型(分布式事务视频教程)

原文:https://mp.weixin.qq.com/s/_zhntxv07GEz9ktAKuj70Q作者:马龙台工作中使用最多的是本地事务,但是在对单一项目拆分为SOA、微服务之后,就会牵扯出分...

Seata分布式事务框架关于Annotation的SAGA模式分析

SAGAAnnotation是ApacheSeata版本2.3.0中引入的功能,它提供了一种使用Java注解而不是传统的JSON配置或编程API来实现SAGA事务模式的声明...

分布式事务,原理简单,写起来全是坑

今天我们就一起来看下另一种模式,XA模式!其实我觉得seata中的四种不同的分布式事务模式,学完AT、TCC以及XA就够了,Saga不好玩,而且长事务本身就有很多问题,也不推荐使用。S...

内存空间节约利器redis的bitmap(位图)应用场景有哪些你知道吗

在前面我们分享过一次Redis常用数据结构和使用场景,文章对Redis基本使用做了一个简单的API说明,但是对于其中String类型中的bitmap(位图)我们需要重点说明一下,因为他的作用真的不容忽...

分布式事务原理详解(图文全面总结)

分布式事务是非常核心的分布式系统,也是大厂经常考察对象,下面我就重点详解分布式事务及原理实现@mikechen本文作者:陈睿|mikechen文章来源:mikechen.cc分布式事务分布式事务指的是...

大家平时天天说的分布式系统到底是什么东西?

目录从单块系统说起团队越来越大,业务越来越复杂分布式出现:庞大系统分而治之分布式系统所带来的技术问题一句话总结:什么是分布式系统设计和开发经验补充说明:中间件系统及大数据系统前言现在有很多Java技术...

取消回复欢迎 发表评论: