百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

加密数据迁移二三事

ccwgpt 2025-02-27 14:32 44 浏览 0 评论

随着应用系统以及数据库的迭代更新,新旧系统之间往往需要进行大量的数据迁移。与此同时,在数据库中,越来越多的敏感数据是以加密的方式进行存储的。市场上不同的数据库产品之间关于数据加解密的接口实现以及使用上存在差异,导致在应用系统迁移的时候需要考虑更多的兼容性问题。

本文以KingbaseES数据库为例,谈谈如何规避或解决用户在加密数据迁移过程中可能出现的一些问题。

1、若用户选择了透明加密,迁移是否会遇到问题?

数据库透明加密是指对库内数据的加密和解密,对数据库的访问程序是完全无感知的。特别是应用系统,不需要做任何修改和编译,就能够直接应用到加密库上。因此,使用透明加密的应用通常不用关心加密处理,包括加密算法。

透明加密的数据如何迁移呢?

通常需要关注在算法的选择上。比如源数据库中数据是透明加密的,这类数据迁移到KingbaseES时,需要选择和源数据库的加密算法强度类似的加密算法,KingbaseES支持SM4和RC4算法,密钥由数据库内部随机生成,需要参照KingbaseES的《安全管理手册》文档设置透明加密。

透明加密使用的密钥都是数据库服务器负责生成和维护的,不用用户和应用指定,所以迁移时,不需要处理密钥。

2、若用户使用加密函数对数据进行加密,可能会遇到哪些问题?

2.1应该选择什么样的加解密函数?

与透明加密相对应的,是在应用系统中对数据进行加密,然后再存储到数据库中。需要真实数据的时候,从数据库中读取密文,应用程序再对数据进行解密得到明文。

这时候,用户对数据的加解密操作既可以使用外部自定义的函数,也可以采用数据库内置的加解密模块中函数来实现。

KingbaseES提供了一系列函数接口供用户使用,包括常规散列函数Digest用于MD5,SHA系列算法,HMAC等哈希运算,encrypt/decrypt函数支持AES算法对称加解密,gen_random_bytes()函数生成随机数等。

用户可根据当前业务的使用情况,将对应的接口使用迁移替换成KingbaseES的对应接口。比如,如果当前使用的是其他数据库的加解密接口,迁移到KingbaseES的话,用户需要将当前使用到的相关函数替换为KingbaseES的函数接口。此时,需要注意不同数据库的接口间存在差异,以常见的MD5哈希计算函数和AES数据加解密函数为例,比较如下:

1)MD5比较

数据库

哈希计算


KingbaseES

digest(data text, type text) returns bytea

digest(data bytea, type text) returns bytea

type支持MD5

MySQL

MD5(str)

Oracle

DBMS_CRYPTO.Hash(src IN RAW, typ IN PLS_INTEGER))

RETURN RAW;

typ支持HMAC_MD5

2)AES加解密函数比较

数据库

AES加解密


KingbaseES

encrypt(data bytea, key bytea, type text) returns bytea

decrypt(data bytea, key bytea, type text) returns bytea

encrypt_iv(data bytea, key bytea, iv bytea, type text) returns bytea

decrypt_iv(data bytea, key bytea, iv bytea, type text) returns bytea

MySQL

AES_ENCRYPT(str,key_str[,init_vector])

AES_DECRYPT(crypt_str,key_str[,init_vector])

Oracle

DBMS_CRYPTO.ENCRYPT(src IN RAW, typ IN PLS_INTEGER, key IN RAW, iv IN RAW DEFAULT NULL) RETURN RAW;

DBMS_CRYPTO.DECRYPT(src IN RAW, typ IN PLS_INTEGER, key IN RAW, iv IN RAW DEFAULT NULL) RETURN RAW;



通过以上的比较可以看到


不同数据库的算法接口在函数名、参数传递上都存在着差异。往KingbaseES数据库迁移时,需要将其他数据库支持的特有的数据类型转换为KingbaseES支持的类型进行输入


另外,对于AES加解密函数的具体实现,各数据库也存在着差异。参照MySQL文档可验证,MySQL对数据进行加密时是强制填充的,而KingbaseES和Oracle函数需要指定加密填充方式。所以,在使用时,用户应特别注意需要当前业务使用哪种算法和加密模式,对相关函数做必要的数据验证,以确认算法的一致性,并在使用接口时传递正确的参数。


同时,也要注意使用函数的返回类型,如KingbaseES的digest()和encrypt()等函数返回的是bytea类型的数据,如要转换为十六进制,需要借助其他函数进行转换如:encode(digest($1, 'sha1'), 'hex')。

上面仅以哈希计算和AES算法为例说明应用系统在迁移时选择加解密函数的注意事项,更多的API和细节可查阅对应产品官网。

2.2数据加解密时如何保证一致性?

应用数据中数据的加解密不一定都在数据库服务端进行,有的情况下,加密在应用程序中进行,在数据库中进行解密,或者反之。

这时,如何保证加密和解密的结果是一致的?

首先,需要保证加密和解密时采用的算法、加密模式、填充方式等一致,对数据加密前或解密后的处理方式要保持一致。关于这点,通常在往数据库加密存储时,应用程序本身也需要做一个解密校验,保证存入数据库的值是正确加密的。

其次,加密和解密时客户端和服务端选择的字符编码应该保持一致。

以KingbaseES数据库为例,它支持客户端和服务端编码方式设置,可以通过以下方式去查询或更改当前接收的字符集。

test=# show client_encoding;? -- 客户端使用字符集client_encoding-----------------UTF8(1 row)
test=# show server_encoding; -- 服务端使用字符集server_encoding-----------------UTF8(1 row)
-- 更改数据库客户端字符集test=# set client_encoding to 'GBK'; --也可\encoding GBK指定SETtest=# show client_encoding;client_encoding-----------------GBK(1 row)

下面以KingbaseES中的encode函数为例说明字符集编码对数据的影响。

test=# create table t (id int, name varchar(32));CREATE TABLE设置客户端环境编码。以LINUX环境来说,LANG环境变量设置客户端编码。如果是使用SecureCRT之类的终端软件连接,终端软件的字符集要与LANG保持一致。[daoke@localhost bin]$ echo $LANGen_US.UTF8test=# select encode('汉字','hex');? ? encode? ?--------------e6b189e5ad97? ?(1 row)输出结果为'汉字'的UTF-8编码
test=# \encoding GBKtest=# select encode('汉字','hex');? ? ? ?encode? ? ??--------------------e5a7b9e5a48ae793a7??(1 row)? ?此时客户端编码为UTF8,数据库设置的客户端编码为GBK,数据库服务端编码为UTF8,不一致,输出结果会转换,表示将’e6b189e5ad97’作为GBK编码转换为UTF-8后的编码。
如果将客户端环境或客户端使用终端的编码设置为GBK[daoke@localhost bin]$ export.GBK[daoke@localhost bin]$ echo $LANGzh_CN.GBKtest=# show client_encoding;client_encoding-----------------GBK(1 row)test=# select encode('汉字','hex');?? ? encode? ?--------------e6b189e5ad97(1 row)
test=# select encode('姹夊瓧','hex');? ? ? ?encode? ? ??--------------------e5a7b9e5a48ae793a7(1 row)我们可以看到,数据库客户端编码设置为GBK和用户客户端环境一致时,encode的结果不发生转换。同样地,如果这时修改数据库客户端编码为UTF8test=# set? client_encoding to 'UTF8';SETtest=# show client_encoding;client_encoding-----------------UTF8(1 row)
test=# select encode('汉字','hex');2020-10-10 16:01:55.113 CST [28203] ERROR:? invalid byte sequence for encoding "UTF8": 0xbaERROR:? invalid byte sequence for encoding "UTF8": 0xbatest=# select encode('姹夊瓧','hex');? ? encode? ?--------------e6b189e5ad97(1 row)会出现字符解码错误的问题。

通过上面关于encode()函数的例子,我们可以发现字符集的一致性对于最终的结果有着很大的影响,在使用到加解密类函数的时候也会存在着类似的问题。对于KingbaseES来说,客户端编码和服务端编码如果一致,则插入的数据之间不经过转码,直接存入服务器;当客户端编码和服务器编码不一致的时候,插入的数据会自动转码。

所以,在使用相关函数的时候,需要保证字符编码使用上的统一。即用户客户端环境的字符编码应该和数据库中设置的客户端编码保持一致。

2.3JAVA程序与数据库加解密相结合

对于一些JAVA的应用系统,会采用JAVA自带的程序进行加密,使用数据库函数完成解密,这时需要注意哪些问题呢?

对于该问题,参照2.2部分的内容:

1)java程序需要保证对数据的加解密算法及处理过程与数据库端一致。

2)java程序使用的编码与数据库端设置编码应一致。

2.4是否可以直接迁移密文?

理论上来说,只要保证密钥一致,加解密方法及过程一致,是可以直接迁移密文的。但在实际迁移中,仍需要考虑实际场景。

不同数据库的加解密接口实现存在差异,如果直接迁移密文就必须确认清楚当前使用的算法以及相关参数,以保证在迁移之后能顺利地完成数据解密操作以及后续的数据存储业务。但由于有些数据库内部如何实现的并不透明,对其加密结果的分析造成一定难度,需要根据实际需要具体分析。

3、总结

在对加密数据做迁移时,和普通的数据迁移思路应该是一致的,最终是要将对应的业务逻辑正确地兼容过来。加解密接口的使用过程中,用户需要关注待迁移的功能在新数据库系统下的API接口,保证算法和加解密过程一致,并进行正确的传参,根据函数返回类型正确使用输出结果。同时,在迁移数据时,客户端和数据库端需要使用统一的字符集,从而保障数据的一致性。Kingbase默认采用的是UTF8字符,建议统一使用UTF8字符集进行处理。

相关推荐

十分钟让你学会LNMP架构负载均衡(impala负载均衡)

业务架构、应用架构、数据架构和技术架构一、几个基本概念1、pv值pv值(pageviews):页面的浏览量概念:一个网站的所有页面,在一天内,被浏览的总次数。(大型网站通常是上千万的级别)2、u...

AGV仓储机器人调度系统架构(agv物流机器人)

系统架构层次划分采用分层模块化设计,分为以下五层:1.1用户接口层功能:提供人机交互界面(Web/桌面端),支持任务下发、实时监控、数据可视化和报警管理。模块:任务管理面板:接收订单(如拣货、...

远程热部署在美团的落地实践(远程热点是什么意思)

Sonic是美团内部研发设计的一款用于热部署的IDEA插件,本文其实现原理及落地的一些技术细节。在阅读本文之前,建议大家先熟悉一下Spring源码、SpringMVC源码、SpringBoot...

springboot搭建xxl-job(分布式任务调度系统)

一、部署xxl-job服务端下载xxl-job源码:https://gitee.com/xuxueli0323/xxl-job二、导入项目、创建xxl_job数据库、修改配置文件为自己的数据库三、启动...

大模型:使用vLLM和Ray分布式部署推理应用

一、vLLM:面向大模型的高效推理框架1.核心特点专为推理优化:专注于大模型(如GPT-3、LLaMA)的高吞吐量、低延迟推理。关键技术:PagedAttention:类似操作系统内存分页管理,将K...

国产开源之光【分布式工作流调度系统】:DolphinScheduler

DolphinScheduler是一个开源的分布式工作流调度系统,旨在帮助用户以可靠、高效和可扩展的方式管理和调度大规模的数据处理工作流。它支持以图形化方式定义和管理工作流,提供了丰富的调度功能和监控...

简单可靠高效的分布式任务队列系统

#记录我的2024#大家好,又见面了,我是GitHub精选君!背景介绍在系统访问量逐渐增大,高并发、分布式系统成为了企业技术架构升级的必由之路。在这样的背景下,异步任务队列扮演着至关重要的角色,...

虚拟服务器之间如何分布式运行?(虚拟服务器部署)

  在云计算和虚拟化技术快速发展的今天,传统“单机单任务”的服务器架构早已难以满足现代业务对高并发、高可用、弹性伸缩和容错容灾的严苛要求。分布式系统应运而生,并成为支撑各类互联网平台、企业信息系统和A...

一文掌握 XXL-Job 的 6 大核心组件

XXL-Job是一个分布式任务调度平台,其核心组件主要包括以下部分,各组件相互协作实现高效的任务调度与管理:1.调度注册中心(RegistryCenter)作用:负责管理调度器(Schedule...

京东大佬问我,SpringBoot中如何做延迟队列?单机与分布式如何做?

京东大佬问我,SpringBoot中如何做延迟队列?单机如何做?分布式如何做呢?并给出案例与代码分析。嗯,用户问的是在SpringBoot中如何实现延迟队列,单机和分布式环境下分别怎么做。这个问题其实...

企业级项目组件选型(一)分布式任务调度平台

官网地址:https://www.xuxueli.com/xxl-job/能力介绍架构图安全性为提升系统安全性,调度中心和执行器进行安全性校验,双方AccessToken匹配才允许通讯;调度中心和执...

python多进程的分布式任务调度应用场景及示例

多进程的分布式任务调度可以应用于以下场景:分布式爬虫:importmultiprocessingimportrequestsdefcrawl(url):response=re...

SpringBoot整合ElasticJob实现分布式任务调度

介绍ElasticJob是面向互联网生态和海量任务的分布式调度解决方案,由两个相互独立的子项目ElasticJob-Lite和ElasticJob-Cloud组成。它通过弹性调度、资源管控、...

分布式可视化 DAG 任务调度系统 Taier 的整体流程分析

Taier作为袋鼠云的开源项目之一,是一个分布式可视化的DAG任务调度系统。旨在降低ETL开发成本,提高大数据平台稳定性,让大数据开发人员可以在Taier直接进行业务逻辑的开发,而不用关...

SpringBoot任务调度:@Scheduled与TaskExecutor全面解析

一、任务调度基础概念1.1什么是任务调度任务调度是指按照预定的时间计划或特定条件自动执行任务的过程。在现代应用开发中,任务调度扮演着至关重要的角色,它使得开发者能够自动化处理周期性任务、定时任务和异...

取消回复欢迎 发表评论: