百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

写给小白的数据库入门科普

ccwgpt 2025-02-26 11:18 38 浏览 0 评论

今天这篇文章,我们来聊聊数据库。


什么是数据库


对于数据库,大家应该都不会觉得陌生。作为重要的基础软件,数据库在我们的工作和生活无处不在。


最简单的,我们电脑里有很多的excel表,其实也可以算是一个“微型数据库



从定义上来看,数据库,是一个存放和管理数据的仓库。或者说,是一个数据集合。


那么,我们硬盘上也有大量的数据,是不是硬盘也是一个数据库呢?


当然不是。


硬盘是一个硬件。基于硬盘构建的文件系统,存储了大量的数据,但这些数据是以不同类型文件的形式存在的,彼此独立。


而数据库是一个软件层面的概念。它对数据进行了登记和整理,形成了一个整体系统,既包括了数据,也包括了数据之间的逻辑关系。


简单来说,如果有一个仓库,你往里面放了各种类型的物品,例如家具、花草、书籍等。那么,硬盘就像是这个仓库,文件就是这些物品。


如果你在仓库里划分了一个区域,安排了一个管理员,负责存放物品并进行登记。那么,这个区域(这套体系),就是数据库。



广义的数据库,是一种数据集合。我们口头上所说的数据库(狭义),大部分是指那些用于搭建、使用和维护广义数据库的系统软件,叫做数据库管理系统(DBMS)。



数据库管理系统对数据进行统一控制管理,以保证数据的完整性和安全性。它还具有对外的标准接口,方便其它应用软件对数据进行读写操作。


我们比较熟悉的数据库管理系统,包括MySQL、SQL Server、Oracle、DB2、Redis、MongoDB等。



数据库的作用和优势


之所以要有数据库,主要是为了方便管理和使用数据。


数据库是信息时代最重要的基础软件之一,地位仅次于操作系统。


如今,大量的信息化系统遍布社会的每个角落,每时每刻都在产生海量的数据。如果没有一个高效的系统和平台对这些数据进行统一管理,那么,效率就会下降。



数据库存储了海量的多类型数据。用户可以通过数据库,创建数据、查找数据、修改数据、删除数据、分析数据、共享数据。


对于个人、企业甚至国家部门,数据库有着不可替代的作用。现在整个社会都在讲数据价值挖掘。AI的三大要素里,也包括了数据。数据的价值在提升,数据库的价值也随之提升。


一个优秀的数据库管理系统,需要具备以下几个方面的优势。


首先,是性能。


数据库涉及到大量的数据读写操作,所以,性能就显得非常重要。


如果数据库的用户少,问题倒是不大。但是如果用户多,例如12306、淘宝双11等场景,瞬时并发读写特别大,就要看数据库是否能hold得住。


这里就要提到著名的ACID(原子性、一致性、隔离性、持久性)特性。


原子性(Atomicity):为避免纠纷,数据库中的事务执行被视作原子不可再分,事务(例如转账)中的操作要么全部执行,要么失败回滚(Rollback)。


一致性(Consistency):为保证业务逻辑的一致性,数据库通过设置约束和触发器来保证其完整性约束不被破坏,即每个事务能够看到的数据总是保持一致。


隔离性(Isolation):为防止事务之间的脏读、幻读、不可重复读,数据库通过加锁,保证多个事务并发访问时,事务之间是隔离的,互不干扰。


持久性(Durability):为防止意外事故(例如断电)导致数据缺失,数据库保证事务对其所作的修改被永久保存,不会被回滚。


其次,是容量。


数据库要存放数据,所以,容量要满足设计需求。


现在业务需求变化很快,数据库的数据很可能迅猛增长。所以,数据库也需要具备一定的扩展性和弹性,能够灵活地变大或者变小,满足需求和成本之间的平衡。


第三,是安全性。


数据安全的重要性,无需多言。一个优秀的数据库,需要拥有完善的安全机制,保护数据免受未授权的访问,以及来自外部的攻击。


数据库也需要有完善的备份和恢复机制,在极端情况下,能够快速恢复到最近的状态。


第四,是兼容性。


数据库需要遵循开放标准的API,使得自身更容易与其它应用和服务集成,促进数据共享和互操作性。


总之,数据库的作用远不止于简单的数据存放。作为一个核心组件,它必须经过严格且缜密的设计,能够为各类应用程序提供稳定可靠的支撑,保障数据的安全性、完整性和高效利用。



数据库的类别


接下来,我们再看看数据库的类别。


数据库的种类很多,分类方法也很多。我们不妨就以历史时间线的维度,对几种主要的分类方式进行介绍。


  • 1960-1970:萌芽阶段


上世纪60年代,随着计算机技术的不断发展和成熟,越来越多的大型机开始应用于金融证券、航空航天、工业制造、军事国防等领域,掀起了一场信息化革命。



有了信息化,就催生了大量的数据。为了更好地管理这些数据,就有人开始提出数据库系统的概念。


1961年,美国通用电气公司的查尔斯·巴赫曼(Charles Bachman),成功开发出世界上第一个数据库管理系统——IDS(IntegratedData Store,集成数据存储),奠定了网状数据库的基础,并在当时得到了广泛的发行和应用。


1968年,IBM公司创建了层次式数据库管理系统IMS(Information Management System),是世界上首个商业数据库系统。


  • 1970-2000:关系型、事务型数据库


又过了两年,到了1970年,IBM公司的研究员埃德加·弗兰克·科德(Edgar Frank Codd)发表了一篇名为《大型共享数据库数据的关系模型》的重磅论文。在论文中,他提出了数据库的关系模型,开创了关系数据库时代。



1973年,IBM启动了System R项目。后来,在System R项目的基础上,加利福尼亚大学柏克莱分校启动了ingres项目。


这两个项目的意义极为重大。1970-80年代出现的多个经典数据库产品,包括Oracle、DB2、Informix、Sybase、SQL Server,都是基于System R和ingres项目衍生出来的。这些数据库产品,极大地助力了当时的信息化浪潮,为计算机的普及发挥了重要作用。



刚才提到的这些数据库产品,全部都是关系型数据库。


数据库有很多种模型。比较原始的,是层次模型和网状模型。比较主流的,是关系模型和非关系模型。



关系模型的最大特点,就是可以使用表格来表示实体和实体之间的关系。每一行代表一个实体实例,每一列代表实体的一个属性。


关系型数据库中,每个表有唯一的名字。表的每一行代表了一组值之间的联系,称为元组(Tuple)。每一列是实体的描述,具有相同的数据类型,称为属性(Attribute)或者字段(Field)。



大家应该注意到了,很多关系型数据库(包括SQL Server、MySQL、PostgreSQL),都有一个SQL



SQL的意思,是Structured Query Language,结构化查询语言。


这是一种用于访问和处理“关系型数据库”的标准计算机语言。SQL语句既可以查询数据库中的数据,也可以添加、更新和删除数据库中的数据,还可以对数据库进行管理和维护操作。


例如,下面这个,就是一个典型的SQL命令,表示要插入一条数据:


INSERT INTO students (id, name, age) VALUES (1, '张三', 20);


80-90年代的主流数据库,除了基本属于关系型数据库之外,在业务类型上,也属于事务型数据库(交易型数据库),即OLTP(Online Transactional Processing)


这类数据库主要用于管理实时交易(银行、电商、订票等),主要特点是能够支持大量的读写操作(简短的、小规模),能够确保数据库的完整性和一致性。


  • 2000-2010:非关系型、分析型数据库


上世纪90年代末,数据库的发展进入一个新的阶段。非关系型数据库开始崛起。


1998年,卡罗·斯特罗兹(Carlo Strozzi)开发了一个轻量、开源、不提供SQL功能的数据库,即NoSQL。



值得一提的是,NoSQL并不是“No SQL”(拒绝SQL)意思,而是“Not Only SQL”(不只是SQL)。


NoSQL并非完全替代关系型数据库,而是为了应对Web 2.0时代互联网应用快速增长所带来的挑战。它针对不同的应用场景,提供了更多选择。


非关系数据模型并不遵循传统的关系数据库模型及其SQL查询语言。它的出现,能够解决关系型数据库在扩展性和灵活性方面的一些局限性。



非关系型数据库包括了很多子类型,例如键值数据库、列族数据库、文档数据库、图数据库等。具体类型和典型产品如下:



除了非关系型数据库之外,数据库也从事务性向分析型发展,即OLAP(Online Analytical Processing)。


这也是由时代决定的。因为数据除了用于查询和记录之外,要开始为大数据、数据分析等新兴业务服务。


分析型数据库允许用户对大量历史数据进行复杂的查询和分析,以揭示隐藏在数据中的模式和趋势,为上层决策提供支持。



需要注意的是,那一时期,数据仓库(Data Warehouse)的概念出现了。


所谓数据仓库,就是数据库的一种演进。它集成了来自不同来源的数据,并经过清洗、转换和整合,以便于进行高效的数据分析和报告。


限于篇幅,关于数据仓库和待会提到的数据湖,小枣君后续会专门介绍。


  • 2010-现在:融合、云化、AI、国产


2010年之后,数据库技术继续蓬勃发展,出现了很多新的趋势。


首先,继SQL、NoSQL之后,又出现了NewSQL的概念。



NewSQL是一类新型的关系型数据库管理系统,结合了SQL和NoSQL的优点。


它解决了传统关系型数据库在处理大规模数据和高并发访问时的性能瓶颈,同时保留ACID特性以及对SQL查询语言的支持,非常适用于需要处理大规模数据和高并发访问的场景。


NewSQL的代表产品,包括Google Spanner、CockroachDB、TiDB等。


其次,继事务性、分析型之后,出现了混合型数据库(HTAP,Hybrid Transactional / Analytical Processing)。


这也是一种融合趋势。


简单来说,HTAP是结合了OLTP和OLAP的优点。它是一种新兴的数据库架构,能够同时支撑OLTP和OLAP场景,避免传统架构中大量数据交互造成的资源浪费和冲突。



第三,是云数据库和分布式数据库的崛起。


这个比较好理解。以前都是单机数据库。后来,数据库并发越来越大,对安全要求越来越高,就有了主从数据库,再然后,就是分布式数据库。


分布式数据库,数据分布在多台服务器上,通过网络连接协同工作。这样一来,既可以扩展存储和处理能力,也可以提高系统的可用性和容错性。



当然,分布式数据库,管理和维护方面会更复杂一些。


云数据库,是响应云计算的发展,把本地数据库迁移到云端。


第四,继数据仓库之后,又出现了数据湖、湖仓一体。


限于篇幅,后续专门给大家介绍这几个概念。


第五,是数据库开始引入AI,走向智能化。


将AI人工智能引入数据库,也是一个重要趋势。


AI能发挥的作用很多。一方面,可以实现更高的查询和存储效率,并自动化处理各种任务。另一方面,可以分析大量数据记录,标记异常值和异常模式,自动防范恶意访问与攻击,提升安全性。


除此之外,AI还可以主动实现数据库的智能调优,提升数据库的整体性能。或者,自动进行系统维护操作,减少运营维护成本,也避免人为错误。


第六,是国产数据库替代的加速。


最近十多年,国产数据库的发展速度极快。在信创战略的推动下,越来越多的国内企业和政府部门开始启用国产数据库,进行国产化替代。




结语


好啦,以上就是关于数据库的基本介绍。


数据是21世纪最有价值的无形资产。存储和利用数据,对每个人、每个企业、每个政府都意义重大。像数据库、数据仓库、数据湖这样的数据平台,是充分利用数据价值的前提,也是发展AI的前提。


相信未来几年,数据库技术还将保持高速发展,涌现出更多的创新。

相关推荐

详解DNFSB2毒王的各种改动以及大概的加点框架

首先附上改动部分,然后逐项分析第一个,毒攻掌握技能意思是力量智力差距超过15%的话差距会被强行缩小到15%,差距不到15%则无效。举例:2000力量,1650智力,2000*0.85=1700,则智力...

通篇干货!纵观 PolarDB-X 并行计算框架

作者:玄弟七锋PolarDB-X面向HTAP的混合执行器一文详细说明了PolarDB-X执行器设计的初衷,其初衷一直是致力于为PolarDB-X注入并行计算的能力,兼顾TP和AP场景,逐渐...

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强

梦晨发自凹非寺量子位|公众号QbitAI字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。同样是MoE架构,字节新模型Seed-Thinkin...

阿里智能化研发起飞!RTP-LLM 实现 Cursor AI 1000 token/s 推理技术揭秘

作者|赵骁勇阿里巴巴智能引擎事业部审校|刘侃,KittyRTP-LLM是阿里巴巴大模型预测团队开发的高性能LLM推理加速引擎。它在阿里巴巴集团内广泛应用,支撑着淘宝、天猫、高德、饿...

多功能高校校园小程序/校园生活娱乐社交管理小程序/校园系统源码

校园系统通常是为学校、学生和教职工提供便捷的数字化管理工具。综合性社交大学校园小程序源码:同城校园小程序-大学校园圈子创业分享,校园趣事,同校跑腿交友综合性论坛。小程序系统基于TP6+Uni-app...

婚恋交友系统nuiAPP前端解决上传视频模糊的问题

婚恋交友系统-打造您的专属婚恋交友平台系统基于TP6+Uni-app框架开发;客户移动端采用uni-app开发,管理后台TH6开发支持微信公众号端、微信小程序端、H5端、PC端多端账号同步,可快速打包...

已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源

COMET团队投稿量子位|公众号QbitAI字节对MoE模型训练成本再砍一刀,成本可节省40%!刚刚,豆包大模型团队在GitHub上开源了叫做COMET的MoE优化技术。COMET已应用于字节...

通用电气完成XA102发动机详细设计审查 将为第六代战斗机提供动力

2025年2月19日,美国通用电气航空航天公司(隶属于通用电气公司)宣布,已经完成了“下一代自适应推进系统”(NGAP)计划下提供的XA102自适应变循环发动机的详细设计审查阶段。XA102是通用电气...

tpxm-19双相钢材质(双相钢f60材质)

TPXM-19双相钢是一种特殊的钢材,其独特的化学成分、机械性能以及广泛的应用场景使其在各行业中占有独特的地位。以下是对TPXM-19双相钢的详细介绍。**化学成分**TPXM-19双相钢的主要化学成...

thinkphp6里怎么给layui数据表格输送数据接口

layui官网已经下架了,但是产品还是可以使用。今天一个朋友问我怎么给layui数据表格发送数据接口,当然他是学前端的,后端不怎么懂,自学了tp框架问我怎么调用。其实官方文档上就有相应的数据格式,js...

完美可用的全媒体广告精准营销服务平台PHP源码

今天测试了一套php开发的企业网站展示平台,还是非常不错的,下面来给大家说一下这套系统。1、系统架构这是一套基于ThinkPHP框架开发的HTML5响应式全媒体广告精准营销服务平台PHP源码。现在基于...

一对一源码开发,九大方面完善基础架构

以往的直播大多数都是一对多进行直播社交,弊端在于不能满足到每个用户的需求,会降低软件的体验感。伴随着用户需求量的增加,一对一直播源码开始出现。一个完整的一对一直播流程即主播发起直播→观看进入房间观看→...

Int J Biol Macromol .|交联酶聚集体在分级共价有机骨架上的固定化:用于卤代醇不对称合成的高稳定酶纳米反应器

大家好,今天推送的文章发表在InternationalJournalofBiologicalMacromolecules上的“Immobilizationofcross-linkeden...

【推荐】一款开源免费的 ChatGPT 聊天管理系统,支持PC、H5等多端

如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍GPTCMS是一款开源且免费(基于GPL-3.0协议开源)的ChatGPT聊天管理系统,它基于先进的GPT...

高性能计算(HPC)分布式训练:训练框架、混合精度、计算图优化

在深度学习模型愈发庞大的今天,分布式训练、高效计算和资源优化已成为AI开发者的必修课。本文将从数据并行vs模型并行、主流训练框架(如PyTorchDDP、DeepSpeed)、混合精度训练(...

取消回复欢迎 发表评论: