百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大数据之Hadoop是什么?Hadoop起源?

ccwgpt 2024-10-23 09:22 26 浏览 0 评论

什么是Hadoop

Hadoop 是一个用于存储和处理大规模数据集(大数据)的分布式存储和分布式计算平台。它由 Apache 软件基金会维护,并基于 Java 编程语言编写。Hadoop 的核心设计理念是能够在普通硬件上运行,并且能够处理非常大的数据集。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架

Hadoop 框架主要包括以下几个核心组件:

  1. Hadoop Distributed File System (HDFS): HDFS 是一个高度容错的分布式文件系统,它能够存储大量数据,并且提供高吞吐率的数据访问,特别是对大型文件的读写访问。HDFS 将数据分散存储在多台计算机上,形成一个逻辑上的单一文件系统。
  2. Yet Another Resource Negotiator (YARN): YARN 是 Hadoop 2.x 引入的资源管理层,它负责管理计算资源,并为运行在 Hadoop 集群上的应用程序分配资源。YARN 的引入使得 Hadoop 能够更有效地利用集群资源,并支持多种数据处理框架。
  3. MapReduce: MapReduce 是一种编程模型,用于并行处理大量数据。在 MapReduce 中,数据被分成小块,然后由多个 map 任务处理,处理完后的结果再由 reduce 任务合并。MapReduce 是 Hadoop 早期的核心组成部分,但在 Hadoop 2.x 中,MapReduce 成为了 YARN 上的一个应用程序。

除了这些核心组件,Hadoop 生态系统还包括许多其他的项目和工具,如:

  • Hive:用于数据仓库任务的数据汇总、查询和分析。
  • Pig:提供高级脚本语言,用于编写 MapReduce 程序。
  • Spark:一个快速的通用分布式计算系统,可以替代 MapReduce 进行数据处理。
  • HBase:一个分布式、可扩展的 NoSQL 数据库,运行在 Hadoop 之上,提供随机读写访问大量数据的能力。
  • Flume:用于高效地收集、聚合和移动大量日志数据到 HDFS。
  • Sqoop:用于在 Hadoop 和关系型数据库之间传输数据。

Hadoop 的可扩展性和容错性使其成为处理大数据问题的理想选择,尤其是在需要处理PB级数据量的场景中。此外,Hadoop 的生态系统不断扩展,提供了丰富的工具和框架,以支持各种大数据处理需求。

Hadoop的起源

Hadoop起源于Apache Nutch项目,Doug Cutting受Google的三篇论文启发实现了Hadoop框架。

Google的三篇论文 GFS:Google的分布式文件系统(Google File System) MapReduce:Google的分布式计算框架 BigTable:大型分布式数据库

发展演变关系: GFS —> HDFS Google MapReduce —> Hadoop MapReduce BigTable —> HBase

可见,Hadoop实际上是基于Google的大数据技术演化出来的。

2005年,Hadoop 作为Lucene的子项目Nutch的一部分引入Apache。

2006年,Hadoop从Nutch剥离出来独立。

2008年,Hadoop成为Apache的顶级项目。

相关推荐

5 分钟搭建 Node.js 微服务原型(node 微服务架构)

微服务已成为在Node.js中构建可扩展且强大的云应用的主流方法。同时也存在一些门槛,其中一些难点需要你在以下方面做出决策:组织项目结构。将自定义服务连接到第三方服务(数据库,消息代理等)处理微服...

当前的前端,真的不配叫程序员吗?

今天看到一个比较令人震惊的帖子,说前端不配叫程序员,令我很吃鲸,是谁我就不说了,帖子出处是一个大龄程序员组里面的,想想也不觉得奇怪了,毕竟对于年龄比较大的程序员来说,前端起步比较晚,最开始就是一个切图...

聊聊asp.net中Web Api的使用(asp.net core web api教程)

扯淡随着app应用的崛起,后端服务开发的也越来越多,除了很多优秀的nodejs框架之外,微软当然也会在这个方面提供更便捷的开发方式。这是微软一贯的作风,如果从开发的便捷性来说的话微软是当之无愧的老大哥...

NodeJS中,listen Access:permission denied解决办法

错误描述:Win10系统,NodeJS程序。使用express框架开发的http服务器,启动时出现错误提示“listenAccess:permissiondenied"。错误原因:这是由于...

Hono — 下一代高性能web框架(天融信下一代vnp)

最近公司可能要有变革,要统计我们的技能。真的是很无语,但是有没有办法。哎,问豆包吧提起Hono大家可能很陌生,这是什么?但是我提到Expressjs、nodejs想必前端小伙伴很熟悉啊。那么Hon...

生活例子说明线程,简单明了(列举一个日常生活中的例子以程序的形式表示)

1.程序设计的目标在我看来单从程序的角度来看,一个好的程序的目标应该是性能与用户体验的平衡。当然一个程序是否能够满足用户的需求暂且不谈,这是业务层面的问题,我们仅仅讨论程序本身。围绕两点来展开,性能...

Node实战006:自定义模块的创建和使用详解

Node的应用是由模块组成的,每个文件的定义都是一个模块(module变量代表当前模块)并有自己的作用域。Node遵循commonjs的模块规范,用来隔离每个模块的作用域,使每一个模块在自身的命名空间...

Node.js基本内容和知识点(node.js的概念)

简单的说Node.js就是运行在服务端的JavaScript,起初段定位是后端开发语言,由于技术的不够成熟,一般小型项目会完全使用node.js作为后台支撑,大项目中,运行不够稳定,不会轻易使用...

干货 | 如何利用Node.js 构建分布式集群

引言在软件定义的世界里,企业通过Web应用和移动应用程序来提供大部分的服务,Node.js迅速成为时下最为流行的一个平台之一,就和它可以搭建响应速度快、易于扩展的web应用和移动应用有很大关系,并凭...

nodejs mongodb 实现简易留言板(node.js留言板)

一个朋友问了一下mongodb的一些操作问题我就做了下面这个简单的留言板给他做一个实例希望能帮助到他express的框架就不说了express的问题请移步nodejs之expressht...

nodejs mqtt 智能售货机系统物联网控制系统源码分享

智能售货机系统(Moleintelligentvendingmachinesystem)是一套物联网控制系统性的解决方案。主要涉及到的语言和库有c,c++,js,nodejs,vue.js,...

为什么 Node.js 这么火,而同样异步模式 Python 框架 Twisted 却十几年一直不温不火?

说nodejs只是靠营销的是否太天真了些?当初nodejs出来的时候各种BUG,我简单的测试其大文件传输都会出现各种问题。而同時期的其他阵营早就甩其几条街了。但是为什么却能一直不断发展壮大?...

2020年14个最有用的NodeJS库(node用什么数据库)

Express快速,简单,极简的节点Web框架对…有好处·易于处理多种类型的请求,例如GET,PUT,POST和DELETE请求·快速构建单页,多页和混合Web应用程序每周下载1100万Lice...

连载:2016年最好的JS框架和库(下)

继续上一期的介绍:Agility.jsAgility.js是专为JS服务的MVC库,你可以免费编写可再用和可维护的浏览器代码,Agility支持Js,样式(CSS)、内容(HTML)和行为(JS)。C...

awesome-nodejs 终极资源库:60K+星标的开发者宝藏

Node.js终极资源库:60K+星标的开发者宝藏引言在GitHub上,有一个备受瞩目的Node.js资源仓库,以其惊人的60.6k星标量和6kfork量,成为了Node.js开发者的必备参考。这个...

取消回复欢迎 发表评论: