百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Hadoop大数据生态系统及常用组件简介(1)

ccwgpt 2024-10-23 09:21 28 浏览 0 评论

这些组件图标,你熟悉其中哪些呢?


一、分布式文件系统HDFS

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

HDFS 采用主从(Master/Slave)架构模型,分为 NameNode(名称节点)、SecondaryNameNode(第二名称节点)、DataNode(数据节点)这几个角色。



二、分布式计算框架 MapReduce

Map表示映射;Reduce表示规约。

MapReduce 是一个分布式并行计算的编程框架。MapReduce 核心功能是将用户编写的业务逻辑代码和Hadoop自带默认组件整合成一个完整的分布式运算程序 ,并发运行在一个 Hadoop 集群上。引入 MapReduce 框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上 ,而将分布式计算中的复杂性交由框架来处理。

MapReduce 采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说, MapReduce就是“任务的分解与结果的汇总”。

三、分布式数据库HBase

HBase 是 Hadoop 的数据库, HBase 是一个分布式的、面向列的开源数据库 ,它不同于一般的关系数据库,是一个适合非结构化数据存储的数据库 。 HBase 利用 Hadoop 的 HDFS 作为其文件存储系统,利用 ZooKeeper 作为其协调工具,非常适合用来进行大数据的实时读写。

四、数据仓库Hive

Hive 是基于 Hadoop 的一个数据仓库工具,可以将类 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用。


其实Hive 就是一个 SQL 解析引擎, Hive 定义了简单的类 SQL查询语言 , 它允许熟悉 SQL 语言的用户查询数据,它将SQL 语句转译成 MapReduce 作业, 然后在 Hadoop 中执行,来达到快速开发的目的。

Hive在某种程度上可以看作是用户编程接口,本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据。

五、准实时分析系统 Impala

Impala 是 Cloudera 公司主导开发 的新型查询系统,它提供 SQL语义,能够为存储在 Hadoop的 HDFS 和 HBase 中的 PB 级大数据提供快速、交互式的 SQL 查询。已有的 Hive 数据仓库工具由于底层执行使用的是 MapReduce 引擎,仍然是一个批处理过程,难以满足要求响应快速的交互式查询。而 Impala 是基于 MPP 的查询系统,它的最大特点就是快速,其性能比Hive高出3-30倍。

使用 Impala 来实现对海量数据的实时查询分析,它的优势有:

  • 可以方便地执行 SQL 语句,在数秒内返回查询分析结果;
  • 可以直接查询存储在 HDFS 上的原生数据;
  • 可以非常容易地与 Hadoop系统整合,并使用 Hadoop 生态系统的资源和优势。

就目前而言,Hive 通常用于批处理,而 Impala 是理想的交互式查询和数据分析工具。



相关推荐

定时任务工具,《此刻我要...》软件体验

之前果核给大家介绍过一款小众但实用的软件——小说规则下载器,可以把网页里的小说章节按照规则下载到本地,非常适合喜欢阅读小说的朋友。有意思的是,软件作者当时看到果核写的体验内容后,给反推荐到他的帖子里去...

前端定时任务的神库:Node-cron,让你的项目更高效!

在前端开发中,定时任务是一个常见的需求。无论是定时刷新数据、轮询接口,还是发送提醒,都需要一个可靠且灵活的定时任务解决方案。今天,我要向大家介绍一个强大的工具——Node-cron,它不仅能解决定时任...

Shutter Pro!一款多功能定时执行任务工具

这是一款可以在电脑上定时执行多种任务的小工具,使用它可以根据时间,电量等来设定一些定时任务,像定时打开程序、打开文件,定时关机重启,以及定时弹窗提醒等都可以轻松做到。这是个即开即用的小工具,无需安装,...

深度解析 Redis 缓存击穿及解决方案

在当今互联网大厂的后端开发体系中,Redis缓存占据着极为关键的地位。其凭借高性能、丰富的数据类型以及原子性操作等显著优势,助力众多高并发系统从容应对海量用户的访问冲击,已然成为后端开发从业者不可或...

从零搭建体育比分网站完整步骤(比较好的体育比分软件)

搭建一个体育比分网站是一个涉及前端、后端、数据源、部署和维护的完整项目。以下是从零开始搭建的详细流程:一、明确项目需求1.功能需求:实时比分展示(如足球、篮球、网球等)支持多个联赛和赛事历史数据查询比...

告别复杂命令行:GoCron 图形界面让定时任务触手可及

如果你是运维人员或者经常接触一些定时任务的配置,那么你一定希望有一款图形界面来帮助你方便的轻松配置定时任务,而GoCron就是这样一款软件,让你的配置可视化。什么是GoCron从名字你就可以大概猜到,...

Java任务管理框架核心技术解析与分布式高并发实战指南

在当今数字化时代,Java任务管理框架在众多应用场景中发挥着关键作用。随着业务规模的不断扩大,面对分布式高并发的复杂环境,掌握其核心技术并进行实战显得尤为重要。Java任务管理框架的核心技术涵盖多个方...

链表和结构体实现:MCU软件定时器(链表在单片机中的应用)

在一般的嵌入式产品设计中,介于成本、功耗等,所选型的MCU基本都是资源受限的,而里面的定时器的数量更是有限。在我们软件设计中往往有多种定时需求,例如脉冲输出、按键检测、LCD切屏延时等等,我们不可能...

SpringBoot定时任务(springboot定时任务每小时执行一次)

前言在我们开发中,经常碰到在某个时间点去执行某些操作,而我们不能人为的干预执行,这个时候就需要我们使用定时任务去完成该任务,下面我们来介绍下载springBoot中定时任务实现的方式。定时任务实现方式...

定时任务新玩法!systemd timer 完整实战详解

原文链接:「链接」Hello,大家好啊!今天给大家带来一篇使用systemdtimer实现定时任务调度的详细实战文章。相比传统的crontab,systemdtimer更加现代化、结构清晰...

Celery与Django:打造高效DevOps的定时任务与异步处理神器

本文详细介绍了Celery这一强大的异步任务队列系统,以及如何在Django框架中应用它来实现定时任务和异步处理,从而提高运维开发(DevOps)的效率和应用性能。下面我们先认识一下Cele...

订单超时自动取消的7种方案,我用这种!

前言在电商、外卖、票务等系统中,订单超时未支付自动取消是一个常见的需求。这个功能乍一看很简单,甚至很多初学者会觉得:"不就是加个定时器么?"但真到了实际工作中,细节的复杂程度往往会超...

裸机下多任务框架设计与实现(gd32裸机配置lwip 网络ping不通)

在嵌入式系统中,特别是在没有操作系统支持的裸机环境下,实现多任务执行是一个常见的挑战。本文将详细介绍一种基于定时器的多任务框架设计,通过全局时钟和状态机机制,实现任务的非阻塞调度,确保任务执行中不会出...

亿级高性能通知系统构建,小白也能拿来即用

作者介绍赵培龙,采货侠JAVA开发工程师分享概要一、服务划分二、系统设计1、首次消息发送2、重试消息发送三、稳定性的保障1、流量突增2、问题服务的资源隔离3、第三方服务的保护4、中间件的容错5、完善...

运维实战:深度拆解Systemd定时任务原理,90%的人不知道的玩法

运维实战:深度拆解Systemd定时任务原理,90%的人不知道的高效玩法一、Systemd定时任务的核心原理Systemd定时任务是Linux系统中替代传统cron的现代化解决方案,通过...

取消回复欢迎 发表评论: