百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大数据之Hadoop是什么?Hadoop起源?

ccwgpt 2024-10-23 09:22 33 浏览 0 评论

什么是Hadoop

Hadoop 是一个用于存储和处理大规模数据集(大数据)的分布式存储和分布式计算平台。它由 Apache 软件基金会维护,并基于 Java 编程语言编写。Hadoop 的核心设计理念是能够在普通硬件上运行,并且能够处理非常大的数据集。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架

Hadoop 框架主要包括以下几个核心组件:

  1. Hadoop Distributed File System (HDFS): HDFS 是一个高度容错的分布式文件系统,它能够存储大量数据,并且提供高吞吐率的数据访问,特别是对大型文件的读写访问。HDFS 将数据分散存储在多台计算机上,形成一个逻辑上的单一文件系统。
  2. Yet Another Resource Negotiator (YARN): YARN 是 Hadoop 2.x 引入的资源管理层,它负责管理计算资源,并为运行在 Hadoop 集群上的应用程序分配资源。YARN 的引入使得 Hadoop 能够更有效地利用集群资源,并支持多种数据处理框架。
  3. MapReduce: MapReduce 是一种编程模型,用于并行处理大量数据。在 MapReduce 中,数据被分成小块,然后由多个 map 任务处理,处理完后的结果再由 reduce 任务合并。MapReduce 是 Hadoop 早期的核心组成部分,但在 Hadoop 2.x 中,MapReduce 成为了 YARN 上的一个应用程序。

除了这些核心组件,Hadoop 生态系统还包括许多其他的项目和工具,如:

  • Hive:用于数据仓库任务的数据汇总、查询和分析。
  • Pig:提供高级脚本语言,用于编写 MapReduce 程序。
  • Spark:一个快速的通用分布式计算系统,可以替代 MapReduce 进行数据处理。
  • HBase:一个分布式、可扩展的 NoSQL 数据库,运行在 Hadoop 之上,提供随机读写访问大量数据的能力。
  • Flume:用于高效地收集、聚合和移动大量日志数据到 HDFS。
  • Sqoop:用于在 Hadoop 和关系型数据库之间传输数据。

Hadoop 的可扩展性和容错性使其成为处理大数据问题的理想选择,尤其是在需要处理PB级数据量的场景中。此外,Hadoop 的生态系统不断扩展,提供了丰富的工具和框架,以支持各种大数据处理需求。

Hadoop的起源

Hadoop起源于Apache Nutch项目,Doug Cutting受Google的三篇论文启发实现了Hadoop框架。

Google的三篇论文 GFS:Google的分布式文件系统(Google File System) MapReduce:Google的分布式计算框架 BigTable:大型分布式数据库

发展演变关系: GFS —> HDFS Google MapReduce —> Hadoop MapReduce BigTable —> HBase

可见,Hadoop实际上是基于Google的大数据技术演化出来的。

2005年,Hadoop 作为Lucene的子项目Nutch的一部分引入Apache。

2006年,Hadoop从Nutch剥离出来独立。

2008年,Hadoop成为Apache的顶级项目。

相关推荐

VUE3前端开发入门系列教程二:使用iView框架辅助开发

1、安装iView新框架,支持VUE3npminstallview-ui-plus2、编辑src/main.js,添加以下内容,导入js和css到项目importViewUIPlusfrom...

万能前端框架uni app初探03:底部导航开发

前言本节我们使用uniapp的底部导航功能,点击不同tab会显示不同页面,这个功能在实际项目开发中几乎是必备的。一、基础知识1.tabBar如果应用是一个多tab应用,可以通过tabBar配...

Rust Web 开发框架,前端你可以选择哪个?

Rust构建一切。在如今流行的语言中,Rust可谓是将构建和高效作为自己优美的身姿在大众视野中脱颖而出。它是一门赋予每个人构建可靠且高效软件能力的语言。它有什么特性呢?高性能。Rust速度惊人且内...

连载:前端开发中纠结的Javascript框架(上)

如今,前端开发有着许许多多的框架和库。其中一些好用,一些却不尽人意。通常我们会习惯性运用某一概念,模块或句法。事实上,并没有什么万能工具。这篇文章是关于未来框架的发展趋势——那就是没有框架!我从以下几...

前端开发框架的演进架构:提升用户体验和开发效率

前端开发框架是现代Web应用开发的重要工具,它不仅可以帮助开发者构建复杂的用户界面,还能够提升用户体验和开发效率。随着Web技术的不断发展,前端开发框架也在不断演进,为开发者提供了更丰富、更高效的工具...

Google应用Mesh-TensorFlow框架,让CNN也能处理超高分辨率图像

为了要处理超高分辨率医疗图像数据,Google开发了一种空间数据分区(SpatialPartition)技术,在不牺牲图像分辨率的条件下,分析超高分辨率图像。Google使用Mesh-TensorF...

大模型安全挑战加剧:框架层漏洞成新靶心

近日,360数字安全集团发布了一份关于大模型安全漏洞的报告,揭示了当前大模型及围绕其构建的框架和应用中存在的严重安全问题。报告显示,360近期研究发现了近40个大模型相关的安全漏洞,其中既包括二进制内...

Keras 3.0正式发布:可用于TensorFlow、JAX和PyTorch

机器之心报道编辑:陈萍经过5个月的更新迭代,Keras3.0终于来了。「大新闻:我们刚刚发布了Keras3.0版本!」Keras之父FrancoisChollet在X上激动的...

TensorFlow和Keras入门必读教程(tensorflow与keras版本对应)

导读:本文对TensorFlow的框架和基本示例进行简要介绍。作者:本杰明·普朗什(BenjaminPlanche)艾略特·安德烈斯(EliotAndres)来源:华章科技01TensorFlo...

谷歌官方回应“TensorFlow遭弃”:还在投资开发,将与JAX并肩作战

鱼羊发自凹非寺量子位|公众号QbitAI终于,谷歌出面回应“TensorFlow遭弃”传闻:我们将继续致力于将TensorFlow打造为一流机器学习平台,与JAX并肩推动机器学习研究。这段时...

2025 年的PHP :现代 Web 开发的强大引擎

程序员还在吐槽PHP过时?2025年的PHP8.4直接封神了。看看最近更新的属性钩子、强类型系统,加上Laravel这些框架,老语言早就脱胎换骨。十年前说PHP弱类型容易崩代码的,现在脸疼不?联合类...

前端内卷终结者?htmx如何让开发者告别200行JS只做一个按钮

当你用React写一个点赞按钮需要引入3个状态管理库、编写80行JSX和120行钩子函数时,htmx只需要一行HTML:<buttonhx-post="/like"hx-sw...

NativePHP桌面版V1.0正式发布(元气桌面电脑版下载)

导读:各位小伙伴,使用PHP构建桌面级系统的利器,NativePHP来了。概述NativePHP是一个用于使用PHP构建桌面应用的框架。它允许PHP开发人员使用熟悉的工具和技术创建跨平台的原生应用...

PHP Laravel框架底层机制(php基本框架)

当然可以,Laravel是最受欢迎的PHP框架之一,以优雅的语法和丰富的生态而闻名。尽管开发体验非常“高端”,它的底层其实是由一系列结构清晰、职责分明的组件构成的。下面我从整体架构、核心流程、...

PHP框架之Laravel框架教程:2. 控制器、路由、视图简单介绍

2.控制器、路由、视图简单介绍我们先建立控制器,目录是:app/Http/Controllers,新建控制器Ding.php,代码如下:Ding.php:<?phpnamespaceA...

取消回复欢迎 发表评论: