百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

为什么MySQL中字符集应该使用utf8mb4而不是utf8

ccwgpt 2025-02-20 14:43 32 浏览 0 评论

1. 背景

很多MySQL DBA搞不清楚MySQL中utf8字符集与utf8mb4的区别,部分人有模糊认识,认为现在应该使用utf8mb4,而不应该使用utf8字符集,但是具体是为什么,说不清楚,本文把这个问题解释清楚。

2. MySQL中的utf8字符集核utf8mb4字符集

MySQL在5.5版本之前,虽然实现了utf8字符集,但是此utf8字符集并不是完整的utf8字符集,而是只能存储UNICODE中基本多文种平面(BMP)中的字符,即65536个字符,即早些UNICODE中用2字节编码的字符。而不在这个范围内字符则不能存储。UNICODE中用2字节编码的字符用UTF-8来编码,则需要1~3个字符。utf8是一种变长编码,理论上是1~6个字节来表示4字节的UNICODE编码的字符。我们知道英文在UTF-8中是用1个字节来表示,欧洲的一些字符用2个字节来表示,而在UTF-8中绝大多数汉字是用3个字节来表示,但一些生僻汉字或表情符号是使用4个字节来表示的。

所以在MySQL中的utf8字符集只能表示1~3字节长的utf8字符,而不能表示4字节长的utf8字符。

这里解释一下基本多文种平面,BMP(Basic Multilingual Plane),或称第零平面(Plane 0),是Unicode中的一个编码区段。编码从U+0000至U+FFFF。

除了基本多文种平面,还有其它平面:

Plane

范围

名称

Plane 0

U+0000 ~ U+FFFF

基本多文种平面(Basic Multilingual Plane, BMP)

Plane 1

U+10000 ~ U+1FFFF

多文种补充平面(Supplementary Multilingual Plane, SMP)

Plane 2

U+20000 ~ U+2FFFF

表意文字补充平面(Supplementary Ideographic Plane, SIP)

Plane 3

U+30000 ~ U+3FFFF

表意文字第三平面(Tertiary Ideographic Plane, TIP)

Plane 4 ~ 13

U+40000 ~ U+4FFFF

未使用(unassigned)

Plane 14

U+E0000 ~ U+EFFFF

特别用途补充平面(Supplementary Special-purpose Plane, SSP)

Plane 15 ~ 16

U+F0000 ~ U+10FFFF

保留作为私人使用区(Private Use Area, PUA)

所以在MySQL中utf8字符集时,发现一些需要用4个字节表示的utf-8的字符,如一些生僻字无法插入到MySQL中,为了解决这个问题,MySQL在5.5.3之后增加了utf8mb4 字符编码,mb4即 most bytes 4,简单说MySQL中utf8mb4是utf8的超集并完全兼容utf8,能够用四个字节存储更多的字符。所以从这里可以知道原先 MySQL中的utf8字符集实际上是utf8mb3,即只能存最多3个字节的utf8字符。了解的utf8编码的同学可能知道utf8编码理论的长度是1~6字节,那么来一个5字节的utf8字符怎么办?从目前的情况看,全世界当前的的字符用4个字节的utf-8编码都可以容纳,还没有5个字节的utf8字符。当然未来,如果有5个字节的utf8字符出现时,MySQL的编码从utf8mb4再扩展成utf8mb5,这看着有点傻。还不如象Oracle、PostgreSQL等数据库一样,自动适应1~6个字节的utf8编码,多好?但没有办法,MySQL目前的实现就是这样。

3. 生僻字的例子:

如宋末元初官员、书法家、画家、诗人赵孟,字念“俯”,这个字就是生僻字:

我们在utf8字符集的表执行下面的SQL语句:

CREATE TABLE `test01` (  `id` int(11) DEFAULT NULL,  `t` varchar(30) COLLATE utf8_bin DEFAULT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;insert into test01 values(1, '赵孟');

在MySQL的命令行中,这个字转换成一个UNICODE的值了,并报错了:

root@localhost : db01 03:35:39> insert into test01 values(1, '赵孟\U+2B5AF');ERROR 1366 (HY000): Incorrect string value: '\xF0\xAB\x96\xAF' for column 't' at row 1Warning (Code 1300): Invalid utf8 character string: 'F0AB96'Error (Code 1366): Incorrect string value: '\xF0\xAB\x96\xAF' for column 't' at row 1

如果把表的字符集改成utf8mb4,排序规则为COLLATE=utf8mb4_unicode_ci:

CREATE TABLE `test01` (  `id` int(11) DEFAULT NULL,  `t` varchar(30) COLLATE utf8_bin DEFAULT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

这时再插入就没有问题了:

root@localhost : db01 04:07:36> insert into test01 values(1, '赵孟\U+2B5AF');Query OK, 1 row affected (0.02 sec)root@localhost : db01 04:08:00> select * from test01;+------+------------+| id   | t          |+------+------------+|    1 | 赵孟       |+------+------------+1 row in set (0.00 sec)

4. 一些注意事项

可以看:

  • mysql使用utf8mb4经验吐血总结

datax使用中的一些问题,需要在jdbc的url中添加:jdbc:mysql://ip:3306/testabc?
com.mysql.jdbc.faultInjection.serverCharsetIndex=45

具体见:
DataX:导入4字节UTF8编码(生僻字)到Mysql数据库的utf8mb4数据表

5. 总结

为了避免后续插入不了一些生僻字,在建库时就应该把默认字符集设置为utf8mb4,my.cnf的配置应该为:

[client]loose_default-character-set = utf8mb4......[mysqldump]default-character-set = utf8mb4......[mysql]default-character-set = utf8mb4......[mysqld]character-set-server=utf8mb4collation_server = utf8mb4_unicode_ci......

注意MySQL中的默认的utf8字符集实际上是utf8mb3,而不是完整的utf8,这个问题目前只在MySQL数据库中存在,PostgreSQL和Oracle是没有这个问题的,PostgreSQL数据库默认就是utf8字符集,是可以插入这些生僻字的,是没有问题的。这个问题主要是MySQL在设计之初不够严谨导致的。

相关推荐

5 分钟搭建 Node.js 微服务原型(node 微服务架构)

微服务已成为在Node.js中构建可扩展且强大的云应用的主流方法。同时也存在一些门槛,其中一些难点需要你在以下方面做出决策:组织项目结构。将自定义服务连接到第三方服务(数据库,消息代理等)处理微服...

当前的前端,真的不配叫程序员吗?

今天看到一个比较令人震惊的帖子,说前端不配叫程序员,令我很吃鲸,是谁我就不说了,帖子出处是一个大龄程序员组里面的,想想也不觉得奇怪了,毕竟对于年龄比较大的程序员来说,前端起步比较晚,最开始就是一个切图...

聊聊asp.net中Web Api的使用(asp.net core web api教程)

扯淡随着app应用的崛起,后端服务开发的也越来越多,除了很多优秀的nodejs框架之外,微软当然也会在这个方面提供更便捷的开发方式。这是微软一贯的作风,如果从开发的便捷性来说的话微软是当之无愧的老大哥...

NodeJS中,listen Access:permission denied解决办法

错误描述:Win10系统,NodeJS程序。使用express框架开发的http服务器,启动时出现错误提示“listenAccess:permissiondenied"。错误原因:这是由于...

Hono — 下一代高性能web框架(天融信下一代vnp)

最近公司可能要有变革,要统计我们的技能。真的是很无语,但是有没有办法。哎,问豆包吧提起Hono大家可能很陌生,这是什么?但是我提到Expressjs、nodejs想必前端小伙伴很熟悉啊。那么Hon...

生活例子说明线程,简单明了(列举一个日常生活中的例子以程序的形式表示)

1.程序设计的目标在我看来单从程序的角度来看,一个好的程序的目标应该是性能与用户体验的平衡。当然一个程序是否能够满足用户的需求暂且不谈,这是业务层面的问题,我们仅仅讨论程序本身。围绕两点来展开,性能...

Node实战006:自定义模块的创建和使用详解

Node的应用是由模块组成的,每个文件的定义都是一个模块(module变量代表当前模块)并有自己的作用域。Node遵循commonjs的模块规范,用来隔离每个模块的作用域,使每一个模块在自身的命名空间...

Node.js基本内容和知识点(node.js的概念)

简单的说Node.js就是运行在服务端的JavaScript,起初段定位是后端开发语言,由于技术的不够成熟,一般小型项目会完全使用node.js作为后台支撑,大项目中,运行不够稳定,不会轻易使用...

干货 | 如何利用Node.js 构建分布式集群

引言在软件定义的世界里,企业通过Web应用和移动应用程序来提供大部分的服务,Node.js迅速成为时下最为流行的一个平台之一,就和它可以搭建响应速度快、易于扩展的web应用和移动应用有很大关系,并凭...

nodejs mongodb 实现简易留言板(node.js留言板)

一个朋友问了一下mongodb的一些操作问题我就做了下面这个简单的留言板给他做一个实例希望能帮助到他express的框架就不说了express的问题请移步nodejs之expressht...

nodejs mqtt 智能售货机系统物联网控制系统源码分享

智能售货机系统(Moleintelligentvendingmachinesystem)是一套物联网控制系统性的解决方案。主要涉及到的语言和库有c,c++,js,nodejs,vue.js,...

为什么 Node.js 这么火,而同样异步模式 Python 框架 Twisted 却十几年一直不温不火?

说nodejs只是靠营销的是否太天真了些?当初nodejs出来的时候各种BUG,我简单的测试其大文件传输都会出现各种问题。而同時期的其他阵营早就甩其几条街了。但是为什么却能一直不断发展壮大?...

2020年14个最有用的NodeJS库(node用什么数据库)

Express快速,简单,极简的节点Web框架对…有好处·易于处理多种类型的请求,例如GET,PUT,POST和DELETE请求·快速构建单页,多页和混合Web应用程序每周下载1100万Lice...

连载:2016年最好的JS框架和库(下)

继续上一期的介绍:Agility.jsAgility.js是专为JS服务的MVC库,你可以免费编写可再用和可维护的浏览器代码,Agility支持Js,样式(CSS)、内容(HTML)和行为(JS)。C...

awesome-nodejs 终极资源库:60K+星标的开发者宝藏

Node.js终极资源库:60K+星标的开发者宝藏引言在GitHub上,有一个备受瞩目的Node.js资源仓库,以其惊人的60.6k星标量和6kfork量,成为了Node.js开发者的必备参考。这个...

取消回复欢迎 发表评论: