百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Java大数据:大数据开发必须掌握的四种数据库

ccwgpt 2024-12-15 11:17 86 浏览 0 评论

大数据的典型特征,包括数据量大、数据类型多、价值密度低等,而具备这样特征的数据,在进入到存储阶段时,就需要根据数据类型及场景,来匹配适当的数据存储解决方案。今天我们来讲讲Java大数据开发当中,必须掌握的四种数据库。

大数据时代的数据,我们可以大致分为结构化数据和非结构化数据。其中,结构化数据,主要是依靠传统的关系型数据库去存储,比如说Oracle、MySQL、PostgreSQL等,都是关系型数据库的代表。

而比结构化数据,更加庞大的非结构化数据(其中也包括半结构化数据),则主要依靠非关系型数据库来完成存储。对于大数据开发者而言,非关系型数据库(NoSQL)也有不同的类型,需要匹配不同的场景需求来进行选择。

MongoDB


MongoDB。可以说是大数据时代的数据库代表作了。MongoDB最大的特点是表结构灵活可变,字段类型可以随时修改。MongoDB中的每一行数据只是简单的被转化成Json格式后存储,没有表结构的限制。

没有表结构这一点,对于MongoDB来说,带来了优势,当然也存在一定的缺陷,比如说在多表查询、复杂事务等高级操作上,MongoDB就显得不够优秀了。

得益于MongoDB的这些特点,MongoDB很适合那些表结构经常改变,数据的逻辑结构又没那么复杂不需要多表查询操作,数据量又比较大的应用场景。

Redis


Redis是现在最热门的key-value数据库。Redis的最大特点当然就是key-value存储所带来的简单和高性能了。

所谓key-value存储,就是每一条记录只包含一个用于查询数据的Key,以及与之对应的存储数据的value,就如同现实生活中的门牌号与住户,而没有诸如表、字段这些常规数据库中必需有的复杂概念,所有的查询都仅仅依赖于key值。

得益于这种简单的结构,再加上Redis会把所有数据加载到内存中的,Redis相比常规数据库的读写性能得到了极大的提升。并且,Redis还支持数据持久化,list、set等多种数据结构,主从复制备份等功能,堪称简单易用。

同样地,因为数据结构的简单,Redis对复杂查询的支持也有限,不能支持多列查询、区段查询等。总的来说,Redis更适用于读写性能要求极高,且数据表结构简单、查询条件也同样简单的应用场景。

ElasticSearch


ElasticSearch,严格来说,其实不算是数据库,而是搜索引擎,这个产品本身也是围绕搜索来设计的。

ES的典型优势就是,支持全文搜索,在对中文的支持上也比较友好(单是中文分词器就有很多种)。ES通过建立倒排索引实现全文搜索,以实现对存入ES中的所有数据进行快速检索,就算是非常复杂的聚合查询也可以得到不错的性能。

当然,ES也同样有不足,最明显的就是字段类型无法修改、写入性能较低和高硬件资源消耗。这就注定了ES不适用于数据价值不高、对写入性能有要求、数据量大而成本受限的场景下。

Hbase


HBase作为Hadoop生态当中的重要组件,说是大数据必学,相信没有人会反对。HBase最大的优点,就是对海量数据的支持,以及极强的横向(存储容量)扩展能力。

Hbase的存储和Redis类似,为每一行数据定义一个key,之后所有的查询都依赖这个key进行。但是Hbase的不同在于,一行数据还可以有非常多的列项,数据会按照列进行分组和存储,同一列的数据存储在同一个地方。

HBase的列式存储特性带来了海量数据规模的支持和极强的扩展能力,但是也给数据的读取带来很大的局限。由于只有同一列族的数据才会被存放在一起,而且所有的查询都必须要依赖Key,这就使得很多复杂查询难以进行。

简单来说,HBase适合数据量极大,查询条件简单,列与列之间联系不大的轻查询应用场景。

小结一下:

以上四种,可以说是大数据开发必须掌握的四款数据库,能够满足绝大多数场景下的数据存储需求,不同的数据库适用于不同的场景,如何去选择就要考察开发者的选型能力了。

相关推荐

机器学习框架TensorFlow入门(tensorflow框架详解)

ensorFlow是一个广泛使用的开源机器学习框架,由GoogleBrain团队开发。它支持广泛的机器学习和深度学习任务,并且可以在CPU和GPU上运行。下面是一个使用TensorF...

合肥高新区企业本源发布量子机器学习框架VQNet 开辟量子机器学习的新领域

近日,高新区企业合肥本源量子计算科技有限责任公司通过研究混合实现变分量子算法和经典机器学习框架的可能性,全新开发了量子机器学习框架VQNet,可满足构建所有类型的量子机器学习算法,实现量子-经典混合任...

如何使用 TensorFlow 构建机器学习模型

在这篇文章中,我将逐步讲解如何使用TensorFlow创建一个简单的机器学习模型。TensorFlow是一个由谷歌开发的库,并在2015年开源,它能使构建和训练机器学习模型变得简单。我们接下...

机器学习框架底层揭秘:PyTorch、TensorFlow 如何高效“跑模型”

在使用PyTorch或TensorFlow时,你是否想过:这些深度学习框架底层到底是怎么运行的?为什么我们一行.backward()就能自动计算梯度?本篇将用最简单的语言,拆解几个关键概念...

2 个月的面试亲身经历告诉大家,如何进入 BAT 等大厂?

这篇文章主要是从项目来讲的,所以,从以下几个方面展开。怎么介绍项目?怎么介绍项目难点与亮点?你负责的模块?怎么让面试官满意?怎么介绍项目?我在刚刚开始面试的时候,也遇到了这个问题,也是我第一个思考的问...

基于SpringBoot 的CMS系统,拿去开发企业官网真香(附源码)

前言推荐这个项目是因为使用手册部署手册非常完善,项目也有开发教程视频对小白非常贴心,接私活可以直接拿去二开非常舒服开源说明系统100%开源模块化开发模式,铭飞所开发的模块都发布到了maven中央库。可...

【网络安全】关于Apache Shiro权限绕过高危漏洞的 预警通报

近日,国家信息安全漏洞共享平台(CNVD)公布了深信服终端检测平台(EDR)远程命令执行高危漏洞,攻击者利用该漏洞可远程执行系统命令,获得目标服务器的权限。一、漏洞情况ApacheShiro是一个强...

开发企业官网就用这个基于SpringBoot的CMS系统,真香

前言推荐这个项目是因为使用手册部署手册非常完善,项目也有开发教程视频对小白非常贴心,接私活可以直接拿去二开非常舒服。开源说明系统100%开源模块化开发模式,铭飞所开发的模块都发布到了maven中央库。...

这款基于SpringBoot 的CMS系统,开发企业官网确实香(附源码)

前言推荐这个项目是因为使用手册部署手册非常完善,项目也有开发教程视频对小白非常贴心,接私活可以直接拿去二开非常舒服开源说明系统100%开源模块化开发模式,铭飞所开发的模块都发布到了maven中央库。可...

【推荐】一款基于BPM和代码生成器的 AI 低代码开源平台

如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍JeecgBoot是一款基于BPM和代码生成器的AI低代码平台,专为Java企业级Web应用而生。它采...

云安全日报200819:Apache发现重要漏洞 可窃取信息 控制系统 需要尽快升级

ApacheHTTPServer(简称Apache)是Apache软件基金会的一个开放源码的网页服务器,可以在大多数计算机操作系统中运行,由于其多平台和安全性被广泛使用,是最流行的Web服务器端软...

基于jeecgboot框架的cloud商城源码分享,兼容单体和微服务模式

3年时间里,随着关注java单商户商城系统的朋友越来越多,对cloud版本的商城呼声也越来越高。因此今年立项了cloud版本的开发,目前已发gitee开源,目前也基本测试完毕,欢迎大家体验以及提出宝贵...

SpringBoot + Mybatis + Shiro + mysql + redis智能平台源码分享

后端技术栈基于SpringBoot+Mybatis+Shiro+mysql+redis构建的智慧云智能教育平台基于数据驱动视图的理念封装element-ui,即使没有vue的使...

我敢保证,全网没有再比这更详细的Java知识点总结了,送你啊

接下来你看到的将是全网最详细的Java知识点总结,全文分为三大部分:Java基础、Java框架、Java+云数据小编将为大家仔细讲解每大部分里面的详细知识点,别眨眼,从小白到大佬、零基础到精通,你绝...

基于Spring+SpringMVC+Mybatis分布式敏捷开发系统架构(附源码)

前言zheng项目不仅仅是一个开发架构,而是努力打造一套从前端模板-基础框架-分布式架构-开源项目-持续集成-自动化部署-系统监测-无缝升级的全方位J2EE企业级开发解...

取消回复欢迎 发表评论: