百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

35道大数据面试题和答案,2020年面试必备

ccwgpt 2024-10-01 08:19 29 浏览 0 评论

参加大数据访问想知道你将要经历的所有问题和讨论是什么?在参加大数据采访之前,最好先了解一下大数据采访问题这样你就可以在心理上为他们准备答案。

为了帮助你,我创造了顶端大数据访问问答指南了解大数据采访问题的深度和真实意图。

我们正处在大数据和分析的时代。随着数据为我们周围的一切提供动力,对熟练数据专业人员的需求突然激增。组织总是在寻找高技能的人,他们可以帮助他们理解他们的数据堆。

big data interview questions

这里的关键词是“高级技术”,因此大数据采访并不是真正的简单。有一些重要的大数据面试问题,你必须知道,在你参加一个。这些会帮你找到一条路。

这些问题的排列顺序将帮助你从基本知识中学到东西,并达到某种程度的高级水平。

大数据采访问答

1.定义大数据,解释大数据的V。

这是最具导向性的,但也是重要的大数据采访问题之一。答案很简单:

大数据可以定义为复杂的、非结构化的或半结构化的数据集的集合,这些数据集具有提供可操作的洞察力的潜力。


best short term courses

大数据的四个V是-

体积-谈论数据量

品种-讨论各种数据格式

速度-谈论数据不断增长的速度。

真实性-谈现有数据的准确性

初学者大数据教程:您需要知道的全部内容

2.Hadoop与大数据有何关系?

当我们谈论大数据时,我们谈论Hadoop。因此,这是另一个大数据采访问题,你一定会在面试中面对。

Hadoop是一个开源框架,用于存储、处理和分析复杂的非结构化数据集,以获得洞察力和智能。

3.定义HDFS和纱线,并讨论它们各自的组成。

现在我们在Hadoop区域,你可能面临的下一个大数据采访问题将围绕着同样的问题。

HDFS是Hadoop的默认存储单元,负责在分布式环境中存储不同类型的数据。

HDFS有以下两个组成部分:

NameNode-这是主节点,它拥有HDFS中所有数据块的元数据信息。

DataNode-这些节点充当从节点,负责存储数据。

纱线,又一位资源谈判代表的缩写,负责管理资源并为所述流程提供执行环境。

纱线的两个主要成分是:

资源经理-根据需要负责分配资源给各自的节点管理员。

节点经理-在每个DataNode上执行任务。

7个你需要注意的有趣的大数据项目

4.你所说的商品硬件是什么意思?

这是你最有可能在任何面试中遇到的另一个大数据采访问题。

商品硬件是指运行ApacheHadoop框架所需的最小硬件资源。任何支持Hadoop最低需求的硬件都被称为“初级硬件”。

5.界定和描述FSCK一词。

FSCK代表文件系统检查。它是一个用于运行Hadoop摘要报告的命令,该报告描述HDFS的状态。它只检查错误,不更正错误。可以在整个系统或文件子集上执行此命令。

6.在Hadoop中使用JPS命令的目的是什么?

JPS命令用于测试所有Hadoop守护进程的工作情况。它专门测试守护进程,如NameNode、DataNode、ResourceManager、NodeManager等等。

(在任何大数据采访中,你都可能会发现一个关于JPS及其重要性的问题。)

大数据:必须了解工具和技术

7.命名启动和关闭Hadoop Daemons的不同命令。

这是最重要的大数据面试问题之一,帮助面试官评估你的命令知识。

若要启动所有守护进程,请执行以下操作:

./sbin/start-all.sh

关闭所有守护进程:

./sbin/Stop-all.sh

8.为什么我们需要Hadoop进行大数据分析?

这个Hadoop面试问题测试你对大数据和分析的实际方面的认识。

在大多数情况下,Hadoop有助于探索和分析大型和非结构化数据集。Hadoop提供了有助于分析的存储、处理和数据收集功能。

9.解释Hadoop的不同特性。

在许多大数据采访的问题和答案中,最好的答案是-

开源-Hadoop是一个开源平台。它允许根据用户和分析需求重写或修改代码。

可伸缩性-Hadoop支持将硬件资源添加到新节点。

数据恢复-Hadoop遵循复制,允许在任何故障情况下恢复数据。

数据局部性-这意味着Hadoop将计算转移到数据,而不是反过来。这样,整个过程就加快了。

10.定义NameNode、任务跟踪器和作业跟踪器的端口号。

NameNode-50070港

任务跟踪器-50060港

工作追踪者-50030港

11.在HDFS中索引是什么意思?

HDFS根据数据块的大小对数据块进行索引。数据块的结尾指向存储下一个数据块的地址。DataNodes存储数据块,NameNode存储这些数据块。

流行文化中的大数据应用

12.Hadoop中的边缘节点是什么?

边缘节点是指作为Hadoop集群与外部网络之间接口的网关节点。这些节点运行客户端应用程序和集群管理工具,并用作暂存区域。边缘节点需要企业级存储功能,单个边缘节点通常足以满足多个Hadoop集群。

13.Hadoop中的Edge节点使用了哪些数据管理工具?

这个大数据访问问题旨在测试您对各种工具和框架的认识。

Oozie、Ambari、Pig和Flume是Hadoop中用于边缘节点的最常见的数据管理工具。

14.解释减速机的核心方法。

减速器有三种核心方法。他们是-

安装程序()-这用于配置堆大小、分布式缓存和输入数据等不同的参数。

减少()-一个参数,每键调用一次,该参数包含相关的约简任务。

清理()-清除所有临时文件,并仅在还原器任务结束时调用。

15.讨论HBASE中用于删除目的的不同墓碑标记。

这个大数据采访问题深入到你对HBASE及其工作的了解。

HBASE中有三个主要的墓碑标记用于缺失。他们是-

家庭删除标记-用于标记列族的所有列。

版本删除标记-用于标记单个列的单一版本。

栏删除标记-用于标记单个列的所有版本。

大数据工程师:神话与现实

16.大数据如何为企业增加价值?

最常见的大数据采访问题之一。在目前的情况下,大数据就是一切。如果你有数据,你有最强大的工具可供你支配。大数据分析帮助企业将原始数据转化为有意义和可操作的洞察力,从而影响其业务策略。大数据对业务最重要的贡献是数据驱动的业务决策。大数据使组织能够根据有形的信息和见解作出决定。

big data interview questions

此外,预测分析允许公司为不同的买家角色定制推荐和营销策略。大数据工具和技术共同帮助增加收入、简化业务运作、提高生产力和提高客户满意度。事实上,任何今天没有利用大数据的人都在机会海洋中失去了机会。

17.如何部署大数据解决方案?

您可以分三个步骤部署大数据解决方案:

数据摄入-这是部署大数据解决方案的第一步。您首先从多个来源收集数据,无论是社交媒体平台、日志文件、业务文档,还是任何与您的业务相关的内容。数据既可以通过实时流提取,也可以在批处理作业中提取。

数据存储-提取数据后,必须将数据存储在数据库中。它可以是HDFS或HBASE。虽然HDFS存储非常适合顺序访问,但HBASE是随机读写访问的理想选择。

数据处理-部署解决方案的最后一步是数据处理。通常,数据处理是通过Hadoop、SPark、MapReduce、Flink和Pig等框架完成的。

18.NFS与HDFS有何不同?

网络文件系统(NetworkFileSystem,NFS)是最古老的分布式文件存储系统之一,而Hadoop分布式文件系统(HDFS)只是在大数据热潮之后才成为人们关注的焦点。

下表突出了NFS和HDFS之间最显著的一些差异:

NFS HDFS

它可以存储和处理少量的数据。 它的明确设计是为了存储和处理大数据。

数据存储在专用硬件中。 数据被分成分布在硬件本地驱动器上的数据块。

在系统故障的情况下,您无法访问数据。 即使在系统故障的情况下也可以访问数据。

因为NFS运行在一台机器上,所以不可能出现数据冗余。 HDFS运行在一组机器上,因此复制协议可能导致冗余数据。

19.在HDFS中列出文件或目录级别的不同文件权限。

一个常见的大数据采访问题。Hadoop分布式文件系统(HDFS)对文件和目录具有特定的权限。HDFS中有三个用户级别--所有者、组和其他级别。对于每个用户级别,有三个可用权限:

读(R)

写(W)

执行(X)

这三种权限对于文件和目录是唯一的。

关于档案-

R权限用于读取文件。

W权限用于写入文件。

尽管存在EXECUTE(X)权限,但不能执行HDFS文件。

对于目录-

R权限列出特定目录的内容。

W权限创建或删除目录。

X权限用于访问子目录。

20.详细说明覆盖HDFS中复制因子的过程。

在HDFS中,有两种方法可以覆盖复制因子--基于文件的复制和基于目录的复制。

论档案基础

在此方法中,复制因子根据文件使用HadoopFS shell进行更改。为此使用以下命令:

$Hadoopfs-setrep-w2/my/test_file

这里,test_file引用文件名,其复制因子将设置为2。

基于目录的

此方法根据目录更改复制因子,因此,特定目录下的所有文件的复制因子都会更改。为此使用以下命令:

$Hadoop fs-setrep-w5/my/test_dir

这里,test_dir引用复制因子和其中包含的所有文件将设置为5的目录的名称。

21.列出您可以运行Hadoop的三种模式。

大数据采访中最常见的问题之一。这三种模式是:

独立模式-这是Hadoop的默认模式,它使用本地文件系统进行输入和输出操作。独立模式的主要目的是调试。它不支持HDFS,也缺乏mapred-site.xml、core-site.xml和HDFS-site.xml文件所需的自定义配置。

伪分布模式-也称为单节点集群,伪分布式模式包括同一台机器中的NameNode和DataNode。在这种模式下,所有Hadoop守护进程都将在一个节点上运行,因此,主节点和从节点是相同的。

全分布模式-这种模式称为多节点集群,其中多个节点同时工作以执行Hadoop工作。在这里,所有Hadoop守护进程都运行在不同的节点上。因此,主节点和从节点分别运行。

22.解释“过度适应”

过度拟合是指当一个函数受到有限的数据点的严格拟合(影响)时发生的建模错误。过度拟合导致了一个过于复杂的模型,使得进一步难以解释手头数据中的特性或特性。由于它对模型的泛化能力产生不利影响,因此确定过拟合模型的预测商具有挑战性。当应用于外部数据(不属于示例数据的数据)或新数据集时,这些模型无法执行。

过度拟合是机器学习中最常见的问题之一。当一个模型在训练集上表现更好,但在测试集上不幸失败时,它被认为是过度拟合的。然而,防止过拟合问题的方法有很多,如交叉验证、剪枝、早期停止、正则化和装配。

23.什么是特征选择?

特征选择是指仅从特定数据集中提取所需特征的过程。当从不同的来源提取数据时,并非所有的数据在任何时候都是有用的--不同的业务需求需要不同的数据洞察力。这就是特性选择来识别和选择那些与特定业务需求或数据处理阶段相关的特性的地方。

特征选择的主要目标是简化ML模型,使其分析和解释更加容易。特征选择提高了模型的泛化能力,消除了维数问题,从而防止了模型过度拟合的可能性。因此,特征选择提供了对研究数据的更好的理解,提高了模型的预测性能,大大缩短了计算时间。

特征选择可以通过三种技术完成:

滤波法

在该方法中,所选择的特征不依赖于指定的分类器。变量排序技术用于为排序目的选择变量。在分类过程中,变量排序技术考虑了特征的重要性和有用性。卡方检验、方差阈值和信息增益是滤波器方法的一些例子.

包装方法

在该方法中,用于特征子集选择的算法作为归纳算法的“包装器”存在。归纳算法的作用就像一个“黑匣子”,它产生一个分类器,将进一步用于特征分类。Wrappers方法的主要缺点或局限性是,要获得特征子集,需要执行大量的计算工作。遗传算法、序列特征选择和递归特征消除是包装方法的例子。

嵌入法

嵌入式方法结合了这两个世界的优点-它包括过滤器和包装方法的最佳特性。在这种方法中,变量选择是在培训过程中完成的,从而使您能够识别给定模型最精确的特征。L1正则化技术和岭回归是嵌入式方法的两个流行例子。

24.定义“离群人”

离群点是指与随机样本中的其他值存在异常距离的数据点或观测值。换句话说,离群值是远离组的值;它们不属于数据集中的任何特定集群或组。异常值的存在通常会影响模型的行为--它们会误导ML算法的训练过程。异常值的一些不利影响包括较长的培训时间、不准确的模型和糟糕的结果。

然而,异常值有时可能包含有价值的信息。这就是为什么必须对他们进行彻底的调查和相应的处理。

25.说出一些离群点检测技术。

再次,一个最重要的大数据采访问题。以下是六种异常点检测方法:

极值分析-该方法确定数据分布的统计尾部。像单变量数据上的“z分数”这样的统计方法是极值分析的一个很好的例子。

概率统计模型-这种方法从数据的“概率模型”确定“不可能的实例”。一个很好的例子是用“期望-最大化”优化高斯混合模型。

线性模型-这种方法将数据建模到较低的维度。基于邻近的模型-在这种方法中,从数据组中分离出来的数据实例由群集、密度或最近邻分析确定。

信息论模型-这一方法旨在将异常值作为增加数据集复杂性的坏数据实例进行检测。

高维孤立点检测-这种方法根据高维的距离测量来确定离群点的子空间。

26.在Hadoop中解释Rack意识。

机架意识是目前流行的大数据访问问题之一。RACH感知是一种基于其机架信息识别和选择靠近NameNode的DataNode的算法。它应用于NameNode,以确定如何放置数据块及其副本。在安装过程中,默认的假设是所有节点都属于同一机架。

机架意识有助于:

提高数据的可靠性和可访问性。

提高集群性能。

提高网络带宽。

在可能的情况下,保持散装流在机架上.

在机架完全失效的情况下防止数据丢失。

27.当NameNode关闭时,您能恢复它吗?如果是,怎么做?

是的,有可能在NameNode关闭时恢复它。你可以这样做:

使用FsImage(文件系统元数据副本)启动一个新的NameNode。

与客户端一起配置DataNodes,以便它们能够确认和引用新启动的NameNode。

当新创建的NameNode完成加载FsImage的最后一个检查点(现在已经从DataNodes收到了足够多的块报告)加载过程时,它就可以开始为客户端服务了。

然而,NameNode的恢复过程仅对较小的集群是可行的。对于大型Hadoop集群,恢复过程通常消耗大量时间,因此这是一项相当具有挑战性的任务。

28.命名MapReduce框架的配置参数。

MapReduce框架中的配置参数包括:

数据的输入格式。

数据的输出格式。

分布式文件系统中作业的输入位置。

分布式文件系统中作业的输出位置。

包含map函数的类。

包含约简函数的类。

包含映射器、还原器和驱动程序类的JAR文件。

29.什么是分布式缓存?它的好处是什么?

没有这个问题,任何大数据面试问题和答案指南都是不完整的。Hadoop中的分布式缓存是MapReduce框架提供的用于缓存文件的服务。如果文件是为特定作业缓存的,Hadoop使其可以在内存和同时执行map和Reduce任务的系统中的单个DataNodes上使用。这允许您快速访问和读取缓存的文件来填充任何集合(如数组、散列映射等)。在密码里。

分布式缓存具有以下优点:

它分发简单的、只读的文本/数据文件以及其他复杂类型,如JAR、存档等。

它跟踪缓存文件的修改时间戳,突出显示在作业成功执行之前不应该修改的文件。

30.什么是Hadoop中的序列文件?

在Hadoop中,SequenceFile是包含二进制键值对的平面文件.它是最常用的MapReduce I/O格式。映射输出在内部存储为SequenceFile,该文件提供读取器、写入器和排序器类。

有三种顺序文件格式:

未压缩键值记录

记录压缩的键值记录(只有“值”被压缩)。

块压缩键值记录(在这里,键和值都分别收集在块中,然后压缩)。

31.解释JobTracker的角色。

一个常见的大数据采访问题。JobTracker的主要功能是资源管理,本质上意味着管理任务跟踪器。除此之外,JobTracker还跟踪资源可用性并处理任务生命周期管理(跟踪任务的进度及其容错性)。

“JobTracker”的一些重要特点是:

它是一个运行在单独节点上(而不是在DataNode上)的进程。

它与NameNode通信以识别数据位置。

它跟踪MapReduce工作负载的执行情况。

它根据可用的时隙分配任务跟踪器节点。

它监视每个任务跟踪器,并向客户提交总体职务报告。

它找到在特定节点上执行特定任务的最佳TaskTracker节点。

32.在Hadoop中命名常见的输入格式。

Hadoop有三种常见的输入格式:

文本输入格式-这是Hadoop中的默认输入格式。

序列文件输入格式-此输入格式用于读取序列中的文件。

键值输入格式-此输入格式用于纯文本文件(文件分解成行)。

33.Hadoop中的数据局部性需要什么?

一个重要的大数据采访问题。在HDFS中,数据集作为块存储在Hadoop集群中的DataNodes中。在执行MapReduce作业时,单个Mapper处理数据块(输入分片)。如果数据不存在于Mapper执行作业的同一节点中,则必须将数据从其驻留在网络上的DataNode复制到Mapper DataNode。

当MapReduce作业有超过100个Mappers并且每个Mapper DataNode试图同时从集群中的另一个DataNode复制数据时,它将导致网络拥塞,从而对系统的总体性能产生负面影响。这是数据局部性进入场景的地方。数据局部性将数据计算移动到DataNode上的实际数据位置,而不是将大量数据移动到计算中。这有助于提高系统的整体性能,而不会造成不必要的延迟。

34.在Hadoop中实现安全性的步骤是什么?

在Hadoop中,Kerberos--一种网络身份验证协议--用于实现安全性。Kerberos旨在通过密钥加密为客户机/服务器应用程序提供健壮的身份验证。

当您使用Kerberos访问服务时,您必须经历三个步骤,每个步骤都涉及到与服务器的消息交换。这些步骤如下:

认证-这是通过认证服务器对客户进行身份验证的第一步,然后给客户端一个时间戳的TGT(票证授予票)。

授权-在第二步中,客户端使用TGT从TGS(票证授予服务器)请求服务票证。

服务请求-在最后一步中,客户端使用服务票证对服务器进行身份验证。

35.如何处理大数据中缺少的值?

最后的问题在我们的大数据采访问答指南。缺失值指列中不存在的值。当观察中的变量没有数据值时,就会发生这种情况。如果不正确处理丢失的值,势必导致错误的数据,从而产生不正确的结果。因此,强烈建议在处理数据集之前正确处理缺失的值。通常,如果缺失值的数量很小,数据就会被删除,但是如果有大量的缺失值,则数据估算是首选的操作方法。

在统计中,有不同的方法来估计丢失的值。这包括回归、多重数据估算、列表/配对删除、最大似然估计和近似贝叶斯自举。

结语

如果这些大数据面试题有帮助,给点个赞吧,希望各位小伙伴能够顺利通过面试到适合自己的工作。


相关推荐

Android开发基础入门(一):UI与基础控件

Android基础入门前言:从今天开始,我们开始分享Android客户端开发的基础知识。一、工具指南工欲善其事必先利其器,我们首先介绍一下开发Android常用的集成开发环境。小雨在上大学期间,开发a...

谷歌Material Design质感设计UI开发框架

谷歌MaterialDesign质感设计是一个新的用户界面设计概念,即将到来的Android版本称为“AndroidL”中会使用这种设计语言。在这篇文章中,我们收集出最新的和最好的Android...

Android主流UI开源库整理(android 开源ui)

前言最近老大让我整理一份Android主流UI开源库的资料,以补充公司的Android知识库。由于对格式不做特别限制,于是打算用博客的形式记录下来,方便查看、防丢并且可以持续维护、不断更新。标题隐...

系统工具类App的开发框架(系统开发方法工具)

系统工具类App的开发框架选择,很大程度上取决于目标平台(Android、iOS或两者兼有),以及对性能、系统级访问深度和开发效率的需求。由于这类App常常需要深入操作系统底层,因此原生开发框架通常是...

2025年vue前端框架前瞻(vue前端开发规范手册)

Vue是一个轻量且灵活的JavaScript框架,广受开发者喜爱,因其简单易用的API和组件化的开发方式而闻名。Vite是一个现代化的前端构建工具,以其极快的开发服务器启动速度和热模块替换...

前端流行框架Vue3教程:28. Vue应用

28.Vue应用应用实例每个Vue应用都是通过createApp函数创建一个新的应用实例main.jsimport{createApp}from'vue'import...

2024 Vue 最全的生态工具组合推荐指南

Vue3虽然Vue2很多项目在用,但是官方已经宣布不再维护Vue2,所以新项目肯定首选Vue3来进行开发,组合式API开发起来比选项式API方便多了,而且Vue3的响应式实现也更...

基于 Vue3 Element Plus 的中后台管理系统模板

PureAdmin是一个开源的前端中后台管理系统模板,基于Vue3、Element-Plus,支持移动端、国际化、多主题设置,支持前端静态路由、后端动态路由配置,旨在为开发人员提供一个易于使用、高...

重磅!滴滴开源全新跨端小程序框架,基于 Vue 3!

最近,滴滴出行开源了自主研发的全新轻量级跨端小程序框架——星河(Dimina),为开发者提供了“一次开发,多端运行”的高性能、低门槛解决方案。下面就来一览Dimina的魅力!什么是星河(Dim...

【推荐】一款基于 Vue + .NET 8 开源、免费、功能强大的快速开发框架

如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍Vue.NetCore是一款集高效、灵活、易于扩展于一体的快速开发框架(基于Vue提供Vue2/Vue...

搭建Trae+Vue3的AI开发环境(vue ide 开发工具)

从2024年2025年,不断的有各种AI工具会在自媒体中火起来,号称各种效率王炸,而在AI是否会替代打工人的话题中,程序员又首当其冲。作为一个后端开发,这篇文章基于Trae工具,来创建和运行一个简单的...

一款基于 Vue + .NET 8 开源、免费、功能强大的快速开发框架

项目介绍Vue.NetCore是一款集高效、灵活、易于扩展于一体的快速开发框架(基于Vue提供Vue2/Vue3版本和.NET8前后端分离),适用于多种应用场景。通过前后端分离的设计、强大的...

盘点一下这些年PHP在桌面应用方面的解决方案

今天作者给大家盘点一下近些年PHP在实现桌面客户端方面的项目。PHP-GTKPHP-GTK是2001年3月创立,是PHP的一个扩展,实现了与GTK+的绑定,提供面向对象的接口,极大地简化了客户端跨平台...

PHP+Uniapp校园圈子系统校园论坛小程序开发:踩坑与优化经验分享

一、系统架构与技术选型1.架构设计采用前后端分离架构,前端使用Uniapp实现跨端开发(支持微信小程序、H5、App),后端基于PHP(推荐ThinkPHP或Laravel框架)提供RESTful...

智能匹配+安全护航:PHP代练系统护航小程序如何提升用户信任?

在代练行业中,用户信任是平台发展的核心要素。基于PHP后端与uni-app跨端框架的代练系统,通过智能匹配与安全护航两大核心策略,能够有效提升用户信任,构建健康可持续的代练生态。以下从技术实现与用户体...

取消回复欢迎 发表评论: