十年大数据专家,手把手带你玩转大数据,Spark技术栈的深度解析
ccwgpt 2025-03-14 15:25 39 浏览 0 评论
Spark 简介
Spark官网为: http://spark.apache.org/, Spark也是用于海量数据处理的计算框架. 官方对Spark的定义是:
Apache SparkTM is a unified analytics engine for large-scale data processing.
翻译过来是: Spark是用于大规模数据处理的统一分析引擎。
Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发. Spark是基于内存计算的大数据并行计算框架, 可用于构建大型的、低延迟的数据分析应用程序. 2013年, Spark加入Apache孵化器项目后, 开始迅猛发展, 如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一.
Spark作为大数据计算平台的后起之秀, 在2014年打破了Hadoop保持的基准排序 (Sort Benchmark) 纪录, 使用206个节点在23分钟的时间里完成了100TB数据的排序; 而Hadoop则是使用2000个节点在72分钟的时间里完成同样数据的排序. 也就是说, Spark仅使用了Hadoop十分之一的计算资源, 获得了比Hadoop快3倍的速度. 新纪录的诞生, 使得Spark获得多方追捧, 也表明了Spark可以作为一个更加快速、高效的大数据计算平台.
Spark具有如下几个主要特点:
运行速度快, 高效: Spark使用先进的DAG(Directed Acyclic Graph, 有向无环图)执行引擎, 以支持循环数据流与内存计算, 减少了迭代过程中的数据落地. 基于内存的执行速度可比MapReduce快上百倍, 基于磁盘的执行速度能快十倍;
容易使用: Spark支持使用Scala、Java、Python和R语言进行编程, 简洁的API设计有助于用户轻松构建并行程序, 并且可以通过Spark Shell进行交互式编程;
通用性: Spark提供了完整而强大的技术栈, 包括SQL查询、流式计算、机器学习和图算法组件, 这些组件可以无缝整合在同一个应用中, 足以应对复杂的计算;
运行模式多样: Spark有4中运行模式, 分别是Local(多用于测试环境), Standalone(Spark自带资源调度器), Yarn(生产环境使用最多), Mesos. 其中Standalone, Yarn和Mesos都是资源调度器.
Spark源码托管在Github中,截至2018年11月,共有超过1300名来自不同公司的开发人员贡献了23000多次代码提交,可见Spark的受欢迎程度是非常高的。Spark源码仓库
Spark 历史
Spark相比于Hadoop, 其发展更加迅速. Hadoop 已经有12年的历史而Spark只有6年(2012开始), 但Spark在应用上逐渐取代Hadoop。
截至到目前为止, Spark已经更新到2.4.0版本. 目前常用的稳定版本是1.6.3, 初步学习也是建议使用这个版本.
Spark 技术栈
Spark诞生于AMP实验室, APM实验室在做数据分析时使用到的技术基本就是我们将要学习的技术. 接下来看看都有哪些技术:
从下往上来看:
Mesos(了解): 对Spark集群资源进行管理的工具, 其功能于Hadoop集群中Yarn的作用相似, 但国内用的较少, 基本上还是使用Yarn来进行集群资源管理.
HDFS: Hadoop生态圈中用来存储的分布式文件系统, HDFS是基于磁盘来进行存储的. 在之前的文章中进行过详细的介绍
Tachyon(了解): 基于内存的分布式存储系统.
HadoopMR: Hadoop生态圈中用来进行批量处理的计算框架.
Hive: 构建数据仓库的工具, Hive是基于HDFS和MR的, 它支持编写SQL语句同时支持创建多种类型的表.
Strom: 流式计算框架, 由于SparkStreaming的出现, Strom逐渐被SparkStreaming代替.
MPI(了解): 基于消息传递的分布式计算框架.
Spark Core: Spark的核心部分, 这是学习下面技术的基础, 我们会在之后进行重点讲解.
SparkStreaming: 流式计算框架, 能轻松构建可扩展的容错流应用程序.
SparkMlib(MLbase): Spark提供的可扩展机器学习库, 里面封装了大量用于机器学习的方法.
SparkSQL(Shark): 是Spark用于处理结构化数据的模块, SparkSQL除了支持编写SQL语句之外, 还可以操作Hive中的数据源.
GraphX: Spark用于图形和图形并行计算的API。
BlinkDB: 可指定容错率的数据库, 即在使用SQL语句查询时, 查询结果可以有一部分是错误的, 这部分数据量的比重可以指定.
了解技术栈之后, 就可以明白下面这句话了.
One stack rule them all.
即一栈式解决所有大数据的处理场景.
常见大数据处理场景以及对应解决的技术:
Spark之前的每个技术都需要搭建一套服务, MR需要搭建高可用的Hadoop集群, Strom也要搭建, Hive也需要安装工具, 然后再整合Mahout.
像这样集群搭建过多,容易带来许多问题: 1. 资源抢占; 2. 搭建成本高; 3.维护成本高.
如果选择Spark, 则只需要搭建一套Spark集群即可. SparkStreaming, SparkSQL与SparkCore之间的关系就类似于Struts2, SpringMVC和Servlet的关系. SparkCore和Servlet两者都是基础, 是核心部分.
Spark相较于Hadoop的优点
Hadoop虽引领大数据技术并成为大数据技术的标准, 但其本身还存在诸多不足, 最主要问题是MR计算框架的高延迟, 无法满足实时、快速计算的需求, 只适用离线批处理的场景.
MapReduce在其工作流程中存在如下缺点:
表达能力有限. --计算需要转化成Map和Reduce两个操作, 但这并不适合所有的情况, 难以描述复杂的数据处理过程;
磁盘IO开销大. --每次执行时都需要从磁盘读取数据, 并且在计算完成后需要将中间结果写入到磁盘中, IO开销较大;
延迟高. 一次计算可能需要分解成一系列按顺序执行的MR任务, 任务之间的衔接涉及IO开销, 从而产生较高延迟. 而且, 在前一个任务执行完成之前, 其他任务无法开始, 难以胜任复杂、多阶段的计算任务.
MR使用细粒度资源调度, 每一个Job都需要单独申请资源.
Spark在借鉴MR优点的同时, 又很好地解决了MR所面临的问题. 相比于MR, Spark主要具有如下优点:
Spark的计算模式也属于MR, 但不局限于Map和Reduce操作. 它还提供了多种数据集(RDD, DataFrame, DStream等)操作类型, 编程模型比MR更加灵活;
Spark支持内存计算, 中间结果直接放内存中, 带来了更高的迭代运算效率;
Spark基于DAG的任务调度执行机制, 要优于MR的迭代执行机制;
Spark支持粗粒度资源调度, Spark Application在执行时, 一次申请资源可以多个Job复用;
Spark可根据不同场景选择不同的shuffle(SortShuffle, HashShuffle).
Spark最大的优势就是将计算数据、中间结果都存储在内存中, 大大减少IO开销. 因此, Spark更适合于迭代运算比较多的数据挖掘与机器学习运算. 在使用Hadoop进行迭代计算时非常耗资源, 因为每次迭代都需要从磁盘中读取、写入中间数据, IO开销大. 而Spark将数据载入内存后, 之后的迭代计算都可以直接使用内存中的中间结果作运算, 避免了从磁盘中频繁读取数据.
在实际进行开发时, 使用Hadoop需要编写许多相对底层的代码, 不够高效. 相对而言, Spark提供了多种高层次、简洁的API, 通常情况下, 对于实现相同功能的应用程序, Spark的代码量要比Hadoop少2-5倍. 更重要的是, Spark提供了实时交互式编程反馈, 可以方便地验证、调整算法.
尽管Spark相对于Hadoop而言具有较大优势, 但Spark并不能完全替代Hadoop, 主要用于替代Hadoop中的MapReduce计算模型. 实际上, Spark已经很好地融入了Hadoop生态圈, 并成为其中的重要一员, 它可以借助于Yarn实现资源调度管理, 借助于HDFS实现分布式存储. 此外, 虽然Hadoop可以使用廉价、异构的机器来做分布式存储与计算, 但Spark对硬件的要求较高, 对内存与CPU有一定的要求.
好了,spark初始以及基本介绍完了,从这篇文章之后,我们会进入正式的数据处理阶段。
感谢大家的支持,多多转发,关注不迷路~~~
相关推荐
- 定时任务工具,《此刻我要...》软件体验
-
之前果核给大家介绍过一款小众但实用的软件——小说规则下载器,可以把网页里的小说章节按照规则下载到本地,非常适合喜欢阅读小说的朋友。有意思的是,软件作者当时看到果核写的体验内容后,给反推荐到他的帖子里去...
- 前端定时任务的神库:Node-cron,让你的项目更高效!
-
在前端开发中,定时任务是一个常见的需求。无论是定时刷新数据、轮询接口,还是发送提醒,都需要一个可靠且灵活的定时任务解决方案。今天,我要向大家介绍一个强大的工具——Node-cron,它不仅能解决定时任...
- Shutter Pro!一款多功能定时执行任务工具
-
这是一款可以在电脑上定时执行多种任务的小工具,使用它可以根据时间,电量等来设定一些定时任务,像定时打开程序、打开文件,定时关机重启,以及定时弹窗提醒等都可以轻松做到。这是个即开即用的小工具,无需安装,...
- 深度解析 Redis 缓存击穿及解决方案
-
在当今互联网大厂的后端开发体系中,Redis缓存占据着极为关键的地位。其凭借高性能、丰富的数据类型以及原子性操作等显著优势,助力众多高并发系统从容应对海量用户的访问冲击,已然成为后端开发从业者不可或...
- 从零搭建体育比分网站完整步骤(比较好的体育比分软件)
-
搭建一个体育比分网站是一个涉及前端、后端、数据源、部署和维护的完整项目。以下是从零开始搭建的详细流程:一、明确项目需求1.功能需求:实时比分展示(如足球、篮球、网球等)支持多个联赛和赛事历史数据查询比...
- 告别复杂命令行:GoCron 图形界面让定时任务触手可及
-
如果你是运维人员或者经常接触一些定时任务的配置,那么你一定希望有一款图形界面来帮助你方便的轻松配置定时任务,而GoCron就是这样一款软件,让你的配置可视化。什么是GoCron从名字你就可以大概猜到,...
- Java任务管理框架核心技术解析与分布式高并发实战指南
-
在当今数字化时代,Java任务管理框架在众多应用场景中发挥着关键作用。随着业务规模的不断扩大,面对分布式高并发的复杂环境,掌握其核心技术并进行实战显得尤为重要。Java任务管理框架的核心技术涵盖多个方...
- 链表和结构体实现:MCU软件定时器(链表在单片机中的应用)
-
在一般的嵌入式产品设计中,介于成本、功耗等,所选型的MCU基本都是资源受限的,而里面的定时器的数量更是有限。在我们软件设计中往往有多种定时需求,例如脉冲输出、按键检测、LCD切屏延时等等,我们不可能...
- SpringBoot定时任务(springboot定时任务每小时执行一次)
-
前言在我们开发中,经常碰到在某个时间点去执行某些操作,而我们不能人为的干预执行,这个时候就需要我们使用定时任务去完成该任务,下面我们来介绍下载springBoot中定时任务实现的方式。定时任务实现方式...
- 定时任务新玩法!systemd timer 完整实战详解
-
原文链接:「链接」Hello,大家好啊!今天给大家带来一篇使用systemdtimer实现定时任务调度的详细实战文章。相比传统的crontab,systemdtimer更加现代化、结构清晰...
- Celery与Django:打造高效DevOps的定时任务与异步处理神器
-
本文详细介绍了Celery这一强大的异步任务队列系统,以及如何在Django框架中应用它来实现定时任务和异步处理,从而提高运维开发(DevOps)的效率和应用性能。下面我们先认识一下Cele...
- 订单超时自动取消的7种方案,我用这种!
-
前言在电商、外卖、票务等系统中,订单超时未支付自动取消是一个常见的需求。这个功能乍一看很简单,甚至很多初学者会觉得:"不就是加个定时器么?"但真到了实际工作中,细节的复杂程度往往会超...
- 裸机下多任务框架设计与实现(gd32裸机配置lwip 网络ping不通)
-
在嵌入式系统中,特别是在没有操作系统支持的裸机环境下,实现多任务执行是一个常见的挑战。本文将详细介绍一种基于定时器的多任务框架设计,通过全局时钟和状态机机制,实现任务的非阻塞调度,确保任务执行中不会出...
- 亿级高性能通知系统构建,小白也能拿来即用
-
作者介绍赵培龙,采货侠JAVA开发工程师分享概要一、服务划分二、系统设计1、首次消息发送2、重试消息发送三、稳定性的保障1、流量突增2、问题服务的资源隔离3、第三方服务的保护4、中间件的容错5、完善...
- 运维实战:深度拆解Systemd定时任务原理,90%的人不知道的玩法
-
运维实战:深度拆解Systemd定时任务原理,90%的人不知道的高效玩法一、Systemd定时任务的核心原理Systemd定时任务是Linux系统中替代传统cron的现代化解决方案,通过...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- bootstrap框架 (43)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- express框架 (43)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)