数据产品经理术语之hadoop(数据产品经理实战进阶)
ccwgpt 2024-10-01 08:19 18 浏览 0 评论
数据产品经理的工作描述中,“了解hadoop”是一个高频出现的内容。大多数产品经理并没有直接与hadoop打交道的经验,本文希望能够帮助大家对Hadoop有一个基础的理解。
一、是什么
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它封装了复杂的分布式底层细节,使开发人员能够低门槛地开发分布式程序,充分利用集群的威力进行高速运算和存储。
Hadoop是一个针对于大数据的存取、计算、加工、分析,由多个工具构成的解决方案。
二、为了解决什么问题
任何新技术的提出,都是为了解决问题。那么,Hadoop是在什么样的情况下应运而生的,它又解决了什么问题呢?
随着互联网数据量增多,数据产生速度增快,数据类型多样性提高,之前的集中式的数据处理系统显露出了很多问题。
- 原有系统存储容量有限,无法承载每日TB甚至PB级的数据量。
- 原有系统适合处理简单数据,对于音视频、图片等多种类型的文件支持一般。
- 原有系统应对故障的能力弱。
- 原有系统对机器要求高,构建成本高。
Hadoop构建了可以运行在多个廉价小型机的分布式系统架构,以低成本的方案解决了上述问题,从而得到了行业中大量的应用。
三、工作原理
1. 示意图
Hadoop中的核心设计包括两点:HDFS和MapReduce。
图中白色块属于HDFS,黑色块属于MapReduce。
2. HDFS
HDFS(Hadoop Distributed File System)是一个高度容错性的分布式文件系统,可以被广泛的部署于廉价的PC上。它以流式访问模式访问应用程序的数据,这大大提高了整个系统的数据吞吐量,因而非常适合用于具有超大数据集的应用程序中。
一个典型的HDFS集群包含一个NameNode节点和多个DataNode节点,NameNode节点负责整个HDFS文件系统中的文件的元数据的保管和管理,集群中通常只有一台机器上运行NameNode实例,DataNode节点保存文件中的数据,集群中的机器分别运行一个DataNode实例。
在HDFS中,NameNode节点被称为名称节点,DataNode节点被称为数据节点。DataNode节点通过心跳机制与NameNode节点进行定时的通信。
NameNode :
可以看作是分布式文件系统中的管理者,存储文件系统的meta-data,主要负责管理文件系统的命名空间,集群配置信息,存储块的复制。
Secondary NameNode:
帮助 NameNode 收集文件系统运行的状态信息 。
DataNode :
是文件存储的基本单元,它存储文件块在本地文件系统中,保存了文件块的meta-data,同时周期性的发送所有存在的文件块的报告给NameNode。
3. MapReduce
MapReduce是一种编程模型,用于大规模数据集的并行运算。Map(映射)和Reduce(化简),采用分而治之思想,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。
举个通俗的例子:
我们要数图书馆中的所有书,你数1号书架,我数2号书架,这就是“Map”。我们人越多,数书就更快。
现在我们到一起,把所有人的统计数加在一起,这就是“Reduce”。
用户提交任务给JobTracer,JobTracer把对应的用户程序中的Map操作和Reduce操作映射至TaskTracer节点中;输入模块负责把输入数据分成小数据块,然后把它们传给Map节点;Map节点得到每一个key/value对,处理后产生一个或多个key/value对,然后写入文件;Reduce节点获取临时文件中的数据,对带有相同key的数据进行迭代计算,然后把终结果写入文件。
JobTracker:
当有任务提交到 Hadoop 集群的时候负责 Job 的运行,负责调度多个 TaskTracker 。
TaskTracker:
负责某一个 map 或者 reduce 任务 。
四、优缺点
1. 优势
- 大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。
- 文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多。
- 流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。
- 廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机,就可以撑起一个大数据集群。
- 硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。
2. 缺陷
HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件。
五、适用场景
搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。
六、生态
- 部署,配置和监控:Ambari,Whirr
- 监控管理工具:Hue, karmasphere, eclipse plugin, cacti, ganglia
- 数据序列化处理与任务调度:Avro, Zookeeper
- 数据收集:Fuse,Webdav,Chukwa,Flume, Scribe , Nutch
- 数据存储:HDFS
- 类SQL查询数据仓库:Hive
- 流式数据处理:Pig
- 并行计算框架:MapReduce, Tez
- 数据挖掘和机器学习:Mahout
- 列式存储在线数据库:HBase
- 元数据中心:HCatalog (可以和Pig,Hive ,MapReduce等结合使用)
- 工作流控制:Oozie,Cascading
- 数据导入导出到关系数据库:Sqoop,Flume, Hiho
- 数据可视化:drilldown,Intellicus
本文由 @ 流风 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Pixabay,基于 CC0 协议
相关推荐
- 如何为Hadoop选择最佳弹性MapReduce框架
-
ZDNet至顶网服务器频道07月22日新闻消息:亚马逊Web服务的弹性MapReduce是一项基于Hadoop的实施,它可允许你运行大型的预处理工作,如格式转换和数据聚合等。虽然我们可以选择很多的...
- 《平安小猪》:J.K.罗琳用“魔法”放大的真实
-
对很多孩子来说,某些玩具是抚慰心灵的“忠实伙伴”,几乎无可替代。J.K.罗琳在看到儿子大卫对玩偶小猪的依恋后创作了“平安小猪”的故事,这也是她自《哈利·波特》之后创作的首部儿童长篇小说。男孩杰克在平安...
- 一页纸精华 | HDFS
-
要入门大数据,最好的办法就是理清hadoop的生态系统。本期为你介绍分布式文件系统HDFS。ApacheHadoop2.0生态系统如下图所示:Hadoop2.0生态系统图Hadoop核心项目包括:H...
- 谷歌搁置与法国出版商的协议,将等候反垄断裁定
-
据路透社6月29日消息,两位知情消息人士称,谷歌搁置了与一些法国出版商达成的为新闻内容付费的初步协议,将等待反垄断审议结果。该决定可能为欧洲在线新闻的版权谈判定下基调。文件显示,按照谷歌与法国新闻总联...
- Java 微服务从源码实战开始 | Gitee 项目推荐
-
在软件开发的不同时期、阶段,对技术架构的理解、选择和应用都有着不一样的诉求。微服务架构是当前互联网业界的一个技术热点,它的思想也更符合我们的目标:根据业务模块划分服务种类。每个服务可以独立部署并且互相...
- 快讯|谷歌搁置向法国出版商付费协议:等待反垄断决定
-
财经网科技6月30日讯,据新浪科技消息,两位知情人士透露,谷歌已经搁置此前与一些法国出版商达成的为新闻内容付费的初步协议。因为谷歌正在等待一项反垄断决定,这项决定可能会为该公司的欧洲在线新闻版权谈判定...
- 外媒:谷歌搁置与法国出版商的协议 等候反垄断决定
-
路透中文网30日报道,据两位知情消息人士透露,谷歌GOOGL.O搁置了与一些法国出版商达成的为新闻内容付费的初步协议,等待一项反垄断决定。该决定可能为欧洲在线新闻的版权谈判定下基调。报道显示,根据路透...
- 大数据任务调度框架Oozie
-
Oozie(驯象人)是一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对HadoopMapReduce、PigJobs的任务调度与协调。Oozie需要部署到JavaS...
- 惊了!SpringBoot 3.4 触雷,升级后参数绑定竟悄悄破坏你的代码?
-
背景在微服务架构中,我们经常利用HTTP请求头来控制系统行为,比如实现灰度发布和流量控制。在PIG微服务框架中,我们通过重写SpringCloudLoadBalancer,根据请求he...
- 《终结者》:科幻电影巅峰的里程碑
-
在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持。文|庭芥摘要:本文以一位影评家的视角赏析詹姆斯·卡梅隆执导的经典科幻电影《终结者》。通过对该...
- AI已经越过红线?复旦大学:在知道自己将被关闭后,AI复制了自己
-
2024年12月9日,复旦大学的一项研究引发了全球科技界的强烈关注。研究团队对Meta与阿里巴巴旗下的两个大型AI系统展开测试,结果发现,在知晓自身可能被关闭的情况下,它们居然选择自我复制。这不是普通...
- 重磅开源!LocalAI让你在个人电脑上运行AI大模型,无需显卡,已获28K Star!
-
随着AI技术的快速发展,如何在本地设备上高效运行AI模型成为了开发者关注的焦点。LocalAI开源项目提供了一个革命性的解决方案-它让用户能够在个人电脑上轻松部署和运行各种AI模型,并且完全兼容...
- 了解《终结者》的恐怖末日世界观,能让你看懂《终结者6》
-
相信很多人的科幻动作启蒙片,应该就是《终结者》系列,起码对于我来说,童年的暑假里,不止一次反复看着《终结者2》的电影,深深被影片中施瓦辛格的硬核铁汉形象吸引,也为片中的液态机器人着迷。《终结者》系列成...
- Golang底层是用什么语言编写的?
-
Go底层语言Go语言在1.5版本之前主要由汇编和C语言写的,C语言占比85%以上,另外有少量的周边模块如文档等,带了些htmlshellperl代码,可以忽略不计。1.5版本及之后...
- skynet服务的缺陷 lua死循环
-
服务端高级架构—云风的skynet这边有一个关于云风skynet的视频推荐给大家观看点击就可以观看了!skynet是一套多人在线游戏的轻量级服务端框架,使用C+Lua开发。skynet的显著优点是,...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- bootstrap框架 (43)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)