35道大数据面试题和答案,2020年面试必备
ccwgpt 2024-10-01 08:19 18 浏览 0 评论
参加大数据访问想知道你将要经历的所有问题和讨论是什么?在参加大数据采访之前,最好先了解一下大数据采访问题这样你就可以在心理上为他们准备答案。
为了帮助你,我创造了顶端大数据访问问答指南了解大数据采访问题的深度和真实意图。
我们正处在大数据和分析的时代。随着数据为我们周围的一切提供动力,对熟练数据专业人员的需求突然激增。组织总是在寻找高技能的人,他们可以帮助他们理解他们的数据堆。
big data interview questions
这里的关键词是“高级技术”,因此大数据采访并不是真正的简单。有一些重要的大数据面试问题,你必须知道,在你参加一个。这些会帮你找到一条路。
这些问题的排列顺序将帮助你从基本知识中学到东西,并达到某种程度的高级水平。
大数据采访问答
1.定义大数据,解释大数据的V。
这是最具导向性的,但也是重要的大数据采访问题之一。答案很简单:
大数据可以定义为复杂的、非结构化的或半结构化的数据集的集合,这些数据集具有提供可操作的洞察力的潜力。
best short term courses
大数据的四个V是-
体积-谈论数据量
品种-讨论各种数据格式
速度-谈论数据不断增长的速度。
真实性-谈现有数据的准确性
初学者大数据教程:您需要知道的全部内容
2.Hadoop与大数据有何关系?
当我们谈论大数据时,我们谈论Hadoop。因此,这是另一个大数据采访问题,你一定会在面试中面对。
Hadoop是一个开源框架,用于存储、处理和分析复杂的非结构化数据集,以获得洞察力和智能。
3.定义HDFS和纱线,并讨论它们各自的组成。
现在我们在Hadoop区域,你可能面临的下一个大数据采访问题将围绕着同样的问题。
HDFS是Hadoop的默认存储单元,负责在分布式环境中存储不同类型的数据。
HDFS有以下两个组成部分:
NameNode-这是主节点,它拥有HDFS中所有数据块的元数据信息。
DataNode-这些节点充当从节点,负责存储数据。
纱线,又一位资源谈判代表的缩写,负责管理资源并为所述流程提供执行环境。
纱线的两个主要成分是:
资源经理-根据需要负责分配资源给各自的节点管理员。
节点经理-在每个DataNode上执行任务。
7个你需要注意的有趣的大数据项目
4.你所说的商品硬件是什么意思?
这是你最有可能在任何面试中遇到的另一个大数据采访问题。
商品硬件是指运行ApacheHadoop框架所需的最小硬件资源。任何支持Hadoop最低需求的硬件都被称为“初级硬件”。
5.界定和描述FSCK一词。
FSCK代表文件系统检查。它是一个用于运行Hadoop摘要报告的命令,该报告描述HDFS的状态。它只检查错误,不更正错误。可以在整个系统或文件子集上执行此命令。
6.在Hadoop中使用JPS命令的目的是什么?
JPS命令用于测试所有Hadoop守护进程的工作情况。它专门测试守护进程,如NameNode、DataNode、ResourceManager、NodeManager等等。
(在任何大数据采访中,你都可能会发现一个关于JPS及其重要性的问题。)
大数据:必须了解工具和技术
7.命名启动和关闭Hadoop Daemons的不同命令。
这是最重要的大数据面试问题之一,帮助面试官评估你的命令知识。
若要启动所有守护进程,请执行以下操作:
./sbin/start-all.sh
关闭所有守护进程:
./sbin/Stop-all.sh
8.为什么我们需要Hadoop进行大数据分析?
这个Hadoop面试问题测试你对大数据和分析的实际方面的认识。
在大多数情况下,Hadoop有助于探索和分析大型和非结构化数据集。Hadoop提供了有助于分析的存储、处理和数据收集功能。
9.解释Hadoop的不同特性。
在许多大数据采访的问题和答案中,最好的答案是-
开源-Hadoop是一个开源平台。它允许根据用户和分析需求重写或修改代码。
可伸缩性-Hadoop支持将硬件资源添加到新节点。
数据恢复-Hadoop遵循复制,允许在任何故障情况下恢复数据。
数据局部性-这意味着Hadoop将计算转移到数据,而不是反过来。这样,整个过程就加快了。
10.定义NameNode、任务跟踪器和作业跟踪器的端口号。
NameNode-50070港
任务跟踪器-50060港
工作追踪者-50030港
11.在HDFS中索引是什么意思?
HDFS根据数据块的大小对数据块进行索引。数据块的结尾指向存储下一个数据块的地址。DataNodes存储数据块,NameNode存储这些数据块。
流行文化中的大数据应用
12.Hadoop中的边缘节点是什么?
边缘节点是指作为Hadoop集群与外部网络之间接口的网关节点。这些节点运行客户端应用程序和集群管理工具,并用作暂存区域。边缘节点需要企业级存储功能,单个边缘节点通常足以满足多个Hadoop集群。
13.Hadoop中的Edge节点使用了哪些数据管理工具?
这个大数据访问问题旨在测试您对各种工具和框架的认识。
Oozie、Ambari、Pig和Flume是Hadoop中用于边缘节点的最常见的数据管理工具。
14.解释减速机的核心方法。
减速器有三种核心方法。他们是-
安装程序()-这用于配置堆大小、分布式缓存和输入数据等不同的参数。
减少()-一个参数,每键调用一次,该参数包含相关的约简任务。
清理()-清除所有临时文件,并仅在还原器任务结束时调用。
15.讨论HBASE中用于删除目的的不同墓碑标记。
这个大数据采访问题深入到你对HBASE及其工作的了解。
HBASE中有三个主要的墓碑标记用于缺失。他们是-
家庭删除标记-用于标记列族的所有列。
版本删除标记-用于标记单个列的单一版本。
栏删除标记-用于标记单个列的所有版本。
大数据工程师:神话与现实
16.大数据如何为企业增加价值?
最常见的大数据采访问题之一。在目前的情况下,大数据就是一切。如果你有数据,你有最强大的工具可供你支配。大数据分析帮助企业将原始数据转化为有意义和可操作的洞察力,从而影响其业务策略。大数据对业务最重要的贡献是数据驱动的业务决策。大数据使组织能够根据有形的信息和见解作出决定。
big data interview questions
此外,预测分析允许公司为不同的买家角色定制推荐和营销策略。大数据工具和技术共同帮助增加收入、简化业务运作、提高生产力和提高客户满意度。事实上,任何今天没有利用大数据的人都在机会海洋中失去了机会。
17.如何部署大数据解决方案?
您可以分三个步骤部署大数据解决方案:
数据摄入-这是部署大数据解决方案的第一步。您首先从多个来源收集数据,无论是社交媒体平台、日志文件、业务文档,还是任何与您的业务相关的内容。数据既可以通过实时流提取,也可以在批处理作业中提取。
数据存储-提取数据后,必须将数据存储在数据库中。它可以是HDFS或HBASE。虽然HDFS存储非常适合顺序访问,但HBASE是随机读写访问的理想选择。
数据处理-部署解决方案的最后一步是数据处理。通常,数据处理是通过Hadoop、SPark、MapReduce、Flink和Pig等框架完成的。
18.NFS与HDFS有何不同?
网络文件系统(NetworkFileSystem,NFS)是最古老的分布式文件存储系统之一,而Hadoop分布式文件系统(HDFS)只是在大数据热潮之后才成为人们关注的焦点。
下表突出了NFS和HDFS之间最显著的一些差异:
NFS HDFS
它可以存储和处理少量的数据。 它的明确设计是为了存储和处理大数据。
数据存储在专用硬件中。 数据被分成分布在硬件本地驱动器上的数据块。
在系统故障的情况下,您无法访问数据。 即使在系统故障的情况下也可以访问数据。
因为NFS运行在一台机器上,所以不可能出现数据冗余。 HDFS运行在一组机器上,因此复制协议可能导致冗余数据。
19.在HDFS中列出文件或目录级别的不同文件权限。
一个常见的大数据采访问题。Hadoop分布式文件系统(HDFS)对文件和目录具有特定的权限。HDFS中有三个用户级别--所有者、组和其他级别。对于每个用户级别,有三个可用权限:
读(R)
写(W)
执行(X)
这三种权限对于文件和目录是唯一的。
关于档案-
R权限用于读取文件。
W权限用于写入文件。
尽管存在EXECUTE(X)权限,但不能执行HDFS文件。
对于目录-
R权限列出特定目录的内容。
W权限创建或删除目录。
X权限用于访问子目录。
20.详细说明覆盖HDFS中复制因子的过程。
在HDFS中,有两种方法可以覆盖复制因子--基于文件的复制和基于目录的复制。
论档案基础
在此方法中,复制因子根据文件使用HadoopFS shell进行更改。为此使用以下命令:
$Hadoopfs-setrep-w2/my/test_file
这里,test_file引用文件名,其复制因子将设置为2。
基于目录的
此方法根据目录更改复制因子,因此,特定目录下的所有文件的复制因子都会更改。为此使用以下命令:
$Hadoop fs-setrep-w5/my/test_dir
这里,test_dir引用复制因子和其中包含的所有文件将设置为5的目录的名称。
21.列出您可以运行Hadoop的三种模式。
大数据采访中最常见的问题之一。这三种模式是:
独立模式-这是Hadoop的默认模式,它使用本地文件系统进行输入和输出操作。独立模式的主要目的是调试。它不支持HDFS,也缺乏mapred-site.xml、core-site.xml和HDFS-site.xml文件所需的自定义配置。
伪分布模式-也称为单节点集群,伪分布式模式包括同一台机器中的NameNode和DataNode。在这种模式下,所有Hadoop守护进程都将在一个节点上运行,因此,主节点和从节点是相同的。
全分布模式-这种模式称为多节点集群,其中多个节点同时工作以执行Hadoop工作。在这里,所有Hadoop守护进程都运行在不同的节点上。因此,主节点和从节点分别运行。
22.解释“过度适应”
过度拟合是指当一个函数受到有限的数据点的严格拟合(影响)时发生的建模错误。过度拟合导致了一个过于复杂的模型,使得进一步难以解释手头数据中的特性或特性。由于它对模型的泛化能力产生不利影响,因此确定过拟合模型的预测商具有挑战性。当应用于外部数据(不属于示例数据的数据)或新数据集时,这些模型无法执行。
过度拟合是机器学习中最常见的问题之一。当一个模型在训练集上表现更好,但在测试集上不幸失败时,它被认为是过度拟合的。然而,防止过拟合问题的方法有很多,如交叉验证、剪枝、早期停止、正则化和装配。
23.什么是特征选择?
特征选择是指仅从特定数据集中提取所需特征的过程。当从不同的来源提取数据时,并非所有的数据在任何时候都是有用的--不同的业务需求需要不同的数据洞察力。这就是特性选择来识别和选择那些与特定业务需求或数据处理阶段相关的特性的地方。
特征选择的主要目标是简化ML模型,使其分析和解释更加容易。特征选择提高了模型的泛化能力,消除了维数问题,从而防止了模型过度拟合的可能性。因此,特征选择提供了对研究数据的更好的理解,提高了模型的预测性能,大大缩短了计算时间。
特征选择可以通过三种技术完成:
滤波法
在该方法中,所选择的特征不依赖于指定的分类器。变量排序技术用于为排序目的选择变量。在分类过程中,变量排序技术考虑了特征的重要性和有用性。卡方检验、方差阈值和信息增益是滤波器方法的一些例子.
包装方法
在该方法中,用于特征子集选择的算法作为归纳算法的“包装器”存在。归纳算法的作用就像一个“黑匣子”,它产生一个分类器,将进一步用于特征分类。Wrappers方法的主要缺点或局限性是,要获得特征子集,需要执行大量的计算工作。遗传算法、序列特征选择和递归特征消除是包装方法的例子。
嵌入法
嵌入式方法结合了这两个世界的优点-它包括过滤器和包装方法的最佳特性。在这种方法中,变量选择是在培训过程中完成的,从而使您能够识别给定模型最精确的特征。L1正则化技术和岭回归是嵌入式方法的两个流行例子。
24.定义“离群人”
离群点是指与随机样本中的其他值存在异常距离的数据点或观测值。换句话说,离群值是远离组的值;它们不属于数据集中的任何特定集群或组。异常值的存在通常会影响模型的行为--它们会误导ML算法的训练过程。异常值的一些不利影响包括较长的培训时间、不准确的模型和糟糕的结果。
然而,异常值有时可能包含有价值的信息。这就是为什么必须对他们进行彻底的调查和相应的处理。
25.说出一些离群点检测技术。
再次,一个最重要的大数据采访问题。以下是六种异常点检测方法:
极值分析-该方法确定数据分布的统计尾部。像单变量数据上的“z分数”这样的统计方法是极值分析的一个很好的例子。
概率统计模型-这种方法从数据的“概率模型”确定“不可能的实例”。一个很好的例子是用“期望-最大化”优化高斯混合模型。
线性模型-这种方法将数据建模到较低的维度。基于邻近的模型-在这种方法中,从数据组中分离出来的数据实例由群集、密度或最近邻分析确定。
信息论模型-这一方法旨在将异常值作为增加数据集复杂性的坏数据实例进行检测。
高维孤立点检测-这种方法根据高维的距离测量来确定离群点的子空间。
26.在Hadoop中解释Rack意识。
机架意识是目前流行的大数据访问问题之一。RACH感知是一种基于其机架信息识别和选择靠近NameNode的DataNode的算法。它应用于NameNode,以确定如何放置数据块及其副本。在安装过程中,默认的假设是所有节点都属于同一机架。
机架意识有助于:
提高数据的可靠性和可访问性。
提高集群性能。
提高网络带宽。
在可能的情况下,保持散装流在机架上.
在机架完全失效的情况下防止数据丢失。
27.当NameNode关闭时,您能恢复它吗?如果是,怎么做?
是的,有可能在NameNode关闭时恢复它。你可以这样做:
使用FsImage(文件系统元数据副本)启动一个新的NameNode。
与客户端一起配置DataNodes,以便它们能够确认和引用新启动的NameNode。
当新创建的NameNode完成加载FsImage的最后一个检查点(现在已经从DataNodes收到了足够多的块报告)加载过程时,它就可以开始为客户端服务了。
然而,NameNode的恢复过程仅对较小的集群是可行的。对于大型Hadoop集群,恢复过程通常消耗大量时间,因此这是一项相当具有挑战性的任务。
28.命名MapReduce框架的配置参数。
MapReduce框架中的配置参数包括:
数据的输入格式。
数据的输出格式。
分布式文件系统中作业的输入位置。
分布式文件系统中作业的输出位置。
包含map函数的类。
包含约简函数的类。
包含映射器、还原器和驱动程序类的JAR文件。
29.什么是分布式缓存?它的好处是什么?
没有这个问题,任何大数据面试问题和答案指南都是不完整的。Hadoop中的分布式缓存是MapReduce框架提供的用于缓存文件的服务。如果文件是为特定作业缓存的,Hadoop使其可以在内存和同时执行map和Reduce任务的系统中的单个DataNodes上使用。这允许您快速访问和读取缓存的文件来填充任何集合(如数组、散列映射等)。在密码里。
分布式缓存具有以下优点:
它分发简单的、只读的文本/数据文件以及其他复杂类型,如JAR、存档等。
它跟踪缓存文件的修改时间戳,突出显示在作业成功执行之前不应该修改的文件。
30.什么是Hadoop中的序列文件?
在Hadoop中,SequenceFile是包含二进制键值对的平面文件.它是最常用的MapReduce I/O格式。映射输出在内部存储为SequenceFile,该文件提供读取器、写入器和排序器类。
有三种顺序文件格式:
未压缩键值记录
记录压缩的键值记录(只有“值”被压缩)。
块压缩键值记录(在这里,键和值都分别收集在块中,然后压缩)。
31.解释JobTracker的角色。
一个常见的大数据采访问题。JobTracker的主要功能是资源管理,本质上意味着管理任务跟踪器。除此之外,JobTracker还跟踪资源可用性并处理任务生命周期管理(跟踪任务的进度及其容错性)。
“JobTracker”的一些重要特点是:
它是一个运行在单独节点上(而不是在DataNode上)的进程。
它与NameNode通信以识别数据位置。
它跟踪MapReduce工作负载的执行情况。
它根据可用的时隙分配任务跟踪器节点。
它监视每个任务跟踪器,并向客户提交总体职务报告。
它找到在特定节点上执行特定任务的最佳TaskTracker节点。
32.在Hadoop中命名常见的输入格式。
Hadoop有三种常见的输入格式:
文本输入格式-这是Hadoop中的默认输入格式。
序列文件输入格式-此输入格式用于读取序列中的文件。
键值输入格式-此输入格式用于纯文本文件(文件分解成行)。
33.Hadoop中的数据局部性需要什么?
一个重要的大数据采访问题。在HDFS中,数据集作为块存储在Hadoop集群中的DataNodes中。在执行MapReduce作业时,单个Mapper处理数据块(输入分片)。如果数据不存在于Mapper执行作业的同一节点中,则必须将数据从其驻留在网络上的DataNode复制到Mapper DataNode。
当MapReduce作业有超过100个Mappers并且每个Mapper DataNode试图同时从集群中的另一个DataNode复制数据时,它将导致网络拥塞,从而对系统的总体性能产生负面影响。这是数据局部性进入场景的地方。数据局部性将数据计算移动到DataNode上的实际数据位置,而不是将大量数据移动到计算中。这有助于提高系统的整体性能,而不会造成不必要的延迟。
34.在Hadoop中实现安全性的步骤是什么?
在Hadoop中,Kerberos--一种网络身份验证协议--用于实现安全性。Kerberos旨在通过密钥加密为客户机/服务器应用程序提供健壮的身份验证。
当您使用Kerberos访问服务时,您必须经历三个步骤,每个步骤都涉及到与服务器的消息交换。这些步骤如下:
认证-这是通过认证服务器对客户进行身份验证的第一步,然后给客户端一个时间戳的TGT(票证授予票)。
授权-在第二步中,客户端使用TGT从TGS(票证授予服务器)请求服务票证。
服务请求-在最后一步中,客户端使用服务票证对服务器进行身份验证。
35.如何处理大数据中缺少的值?
最后的问题在我们的大数据采访问答指南。缺失值指列中不存在的值。当观察中的变量没有数据值时,就会发生这种情况。如果不正确处理丢失的值,势必导致错误的数据,从而产生不正确的结果。因此,强烈建议在处理数据集之前正确处理缺失的值。通常,如果缺失值的数量很小,数据就会被删除,但是如果有大量的缺失值,则数据估算是首选的操作方法。
在统计中,有不同的方法来估计丢失的值。这包括回归、多重数据估算、列表/配对删除、最大似然估计和近似贝叶斯自举。
结语
如果这些大数据面试题有帮助,给点个赞吧,希望各位小伙伴能够顺利通过面试到适合自己的工作。
相关推荐
- 如何为Hadoop选择最佳弹性MapReduce框架
-
ZDNet至顶网服务器频道07月22日新闻消息:亚马逊Web服务的弹性MapReduce是一项基于Hadoop的实施,它可允许你运行大型的预处理工作,如格式转换和数据聚合等。虽然我们可以选择很多的...
- 《平安小猪》:J.K.罗琳用“魔法”放大的真实
-
对很多孩子来说,某些玩具是抚慰心灵的“忠实伙伴”,几乎无可替代。J.K.罗琳在看到儿子大卫对玩偶小猪的依恋后创作了“平安小猪”的故事,这也是她自《哈利·波特》之后创作的首部儿童长篇小说。男孩杰克在平安...
- 一页纸精华 | HDFS
-
要入门大数据,最好的办法就是理清hadoop的生态系统。本期为你介绍分布式文件系统HDFS。ApacheHadoop2.0生态系统如下图所示:Hadoop2.0生态系统图Hadoop核心项目包括:H...
- 谷歌搁置与法国出版商的协议,将等候反垄断裁定
-
据路透社6月29日消息,两位知情消息人士称,谷歌搁置了与一些法国出版商达成的为新闻内容付费的初步协议,将等待反垄断审议结果。该决定可能为欧洲在线新闻的版权谈判定下基调。文件显示,按照谷歌与法国新闻总联...
- Java 微服务从源码实战开始 | Gitee 项目推荐
-
在软件开发的不同时期、阶段,对技术架构的理解、选择和应用都有着不一样的诉求。微服务架构是当前互联网业界的一个技术热点,它的思想也更符合我们的目标:根据业务模块划分服务种类。每个服务可以独立部署并且互相...
- 快讯|谷歌搁置向法国出版商付费协议:等待反垄断决定
-
财经网科技6月30日讯,据新浪科技消息,两位知情人士透露,谷歌已经搁置此前与一些法国出版商达成的为新闻内容付费的初步协议。因为谷歌正在等待一项反垄断决定,这项决定可能会为该公司的欧洲在线新闻版权谈判定...
- 外媒:谷歌搁置与法国出版商的协议 等候反垄断决定
-
路透中文网30日报道,据两位知情消息人士透露,谷歌GOOGL.O搁置了与一些法国出版商达成的为新闻内容付费的初步协议,等待一项反垄断决定。该决定可能为欧洲在线新闻的版权谈判定下基调。报道显示,根据路透...
- 大数据任务调度框架Oozie
-
Oozie(驯象人)是一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对HadoopMapReduce、PigJobs的任务调度与协调。Oozie需要部署到JavaS...
- 惊了!SpringBoot 3.4 触雷,升级后参数绑定竟悄悄破坏你的代码?
-
背景在微服务架构中,我们经常利用HTTP请求头来控制系统行为,比如实现灰度发布和流量控制。在PIG微服务框架中,我们通过重写SpringCloudLoadBalancer,根据请求he...
- 《终结者》:科幻电影巅峰的里程碑
-
在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持。文|庭芥摘要:本文以一位影评家的视角赏析詹姆斯·卡梅隆执导的经典科幻电影《终结者》。通过对该...
- AI已经越过红线?复旦大学:在知道自己将被关闭后,AI复制了自己
-
2024年12月9日,复旦大学的一项研究引发了全球科技界的强烈关注。研究团队对Meta与阿里巴巴旗下的两个大型AI系统展开测试,结果发现,在知晓自身可能被关闭的情况下,它们居然选择自我复制。这不是普通...
- 重磅开源!LocalAI让你在个人电脑上运行AI大模型,无需显卡,已获28K Star!
-
随着AI技术的快速发展,如何在本地设备上高效运行AI模型成为了开发者关注的焦点。LocalAI开源项目提供了一个革命性的解决方案-它让用户能够在个人电脑上轻松部署和运行各种AI模型,并且完全兼容...
- 了解《终结者》的恐怖末日世界观,能让你看懂《终结者6》
-
相信很多人的科幻动作启蒙片,应该就是《终结者》系列,起码对于我来说,童年的暑假里,不止一次反复看着《终结者2》的电影,深深被影片中施瓦辛格的硬核铁汉形象吸引,也为片中的液态机器人着迷。《终结者》系列成...
- Golang底层是用什么语言编写的?
-
Go底层语言Go语言在1.5版本之前主要由汇编和C语言写的,C语言占比85%以上,另外有少量的周边模块如文档等,带了些htmlshellperl代码,可以忽略不计。1.5版本及之后...
- skynet服务的缺陷 lua死循环
-
服务端高级架构—云风的skynet这边有一个关于云风skynet的视频推荐给大家观看点击就可以观看了!skynet是一套多人在线游戏的轻量级服务端框架,使用C+Lua开发。skynet的显著优点是,...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- bootstrap框架 (43)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)