十年大数据专家,手把手带你玩转大数据,Spark技术栈的深度解析
ccwgpt 2025-03-14 15:25 47 浏览 0 评论
Spark 简介
Spark官网为: http://spark.apache.org/, Spark也是用于海量数据处理的计算框架. 官方对Spark的定义是:
Apache SparkTM is a unified analytics engine for large-scale data processing.
翻译过来是: Spark是用于大规模数据处理的统一分析引擎。
Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发. Spark是基于内存计算的大数据并行计算框架, 可用于构建大型的、低延迟的数据分析应用程序. 2013年, Spark加入Apache孵化器项目后, 开始迅猛发展, 如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一.
Spark作为大数据计算平台的后起之秀, 在2014年打破了Hadoop保持的基准排序 (Sort Benchmark) 纪录, 使用206个节点在23分钟的时间里完成了100TB数据的排序; 而Hadoop则是使用2000个节点在72分钟的时间里完成同样数据的排序. 也就是说, Spark仅使用了Hadoop十分之一的计算资源, 获得了比Hadoop快3倍的速度. 新纪录的诞生, 使得Spark获得多方追捧, 也表明了Spark可以作为一个更加快速、高效的大数据计算平台.
Spark具有如下几个主要特点:
运行速度快, 高效: Spark使用先进的DAG(Directed Acyclic Graph, 有向无环图)执行引擎, 以支持循环数据流与内存计算, 减少了迭代过程中的数据落地. 基于内存的执行速度可比MapReduce快上百倍, 基于磁盘的执行速度能快十倍;
容易使用: Spark支持使用Scala、Java、Python和R语言进行编程, 简洁的API设计有助于用户轻松构建并行程序, 并且可以通过Spark Shell进行交互式编程;
通用性: Spark提供了完整而强大的技术栈, 包括SQL查询、流式计算、机器学习和图算法组件, 这些组件可以无缝整合在同一个应用中, 足以应对复杂的计算;
运行模式多样: Spark有4中运行模式, 分别是Local(多用于测试环境), Standalone(Spark自带资源调度器), Yarn(生产环境使用最多), Mesos. 其中Standalone, Yarn和Mesos都是资源调度器.
Spark源码托管在Github中,截至2018年11月,共有超过1300名来自不同公司的开发人员贡献了23000多次代码提交,可见Spark的受欢迎程度是非常高的。Spark源码仓库
Spark 历史
Spark相比于Hadoop, 其发展更加迅速. Hadoop 已经有12年的历史而Spark只有6年(2012开始), 但Spark在应用上逐渐取代Hadoop。
截至到目前为止, Spark已经更新到2.4.0版本. 目前常用的稳定版本是1.6.3, 初步学习也是建议使用这个版本.
Spark 技术栈
Spark诞生于AMP实验室, APM实验室在做数据分析时使用到的技术基本就是我们将要学习的技术. 接下来看看都有哪些技术:
从下往上来看:
Mesos(了解): 对Spark集群资源进行管理的工具, 其功能于Hadoop集群中Yarn的作用相似, 但国内用的较少, 基本上还是使用Yarn来进行集群资源管理.
HDFS: Hadoop生态圈中用来存储的分布式文件系统, HDFS是基于磁盘来进行存储的. 在之前的文章中进行过详细的介绍
Tachyon(了解): 基于内存的分布式存储系统.
HadoopMR: Hadoop生态圈中用来进行批量处理的计算框架.
Hive: 构建数据仓库的工具, Hive是基于HDFS和MR的, 它支持编写SQL语句同时支持创建多种类型的表.
Strom: 流式计算框架, 由于SparkStreaming的出现, Strom逐渐被SparkStreaming代替.
MPI(了解): 基于消息传递的分布式计算框架.
Spark Core: Spark的核心部分, 这是学习下面技术的基础, 我们会在之后进行重点讲解.
SparkStreaming: 流式计算框架, 能轻松构建可扩展的容错流应用程序.
SparkMlib(MLbase): Spark提供的可扩展机器学习库, 里面封装了大量用于机器学习的方法.
SparkSQL(Shark): 是Spark用于处理结构化数据的模块, SparkSQL除了支持编写SQL语句之外, 还可以操作Hive中的数据源.
GraphX: Spark用于图形和图形并行计算的API。
BlinkDB: 可指定容错率的数据库, 即在使用SQL语句查询时, 查询结果可以有一部分是错误的, 这部分数据量的比重可以指定.
了解技术栈之后, 就可以明白下面这句话了.
One stack rule them all.
即一栈式解决所有大数据的处理场景.
常见大数据处理场景以及对应解决的技术:
Spark之前的每个技术都需要搭建一套服务, MR需要搭建高可用的Hadoop集群, Strom也要搭建, Hive也需要安装工具, 然后再整合Mahout.
像这样集群搭建过多,容易带来许多问题: 1. 资源抢占; 2. 搭建成本高; 3.维护成本高.
如果选择Spark, 则只需要搭建一套Spark集群即可. SparkStreaming, SparkSQL与SparkCore之间的关系就类似于Struts2, SpringMVC和Servlet的关系. SparkCore和Servlet两者都是基础, 是核心部分.
Spark相较于Hadoop的优点
Hadoop虽引领大数据技术并成为大数据技术的标准, 但其本身还存在诸多不足, 最主要问题是MR计算框架的高延迟, 无法满足实时、快速计算的需求, 只适用离线批处理的场景.
MapReduce在其工作流程中存在如下缺点:
表达能力有限. --计算需要转化成Map和Reduce两个操作, 但这并不适合所有的情况, 难以描述复杂的数据处理过程;
磁盘IO开销大. --每次执行时都需要从磁盘读取数据, 并且在计算完成后需要将中间结果写入到磁盘中, IO开销较大;
延迟高. 一次计算可能需要分解成一系列按顺序执行的MR任务, 任务之间的衔接涉及IO开销, 从而产生较高延迟. 而且, 在前一个任务执行完成之前, 其他任务无法开始, 难以胜任复杂、多阶段的计算任务.
MR使用细粒度资源调度, 每一个Job都需要单独申请资源.
Spark在借鉴MR优点的同时, 又很好地解决了MR所面临的问题. 相比于MR, Spark主要具有如下优点:
Spark的计算模式也属于MR, 但不局限于Map和Reduce操作. 它还提供了多种数据集(RDD, DataFrame, DStream等)操作类型, 编程模型比MR更加灵活;
Spark支持内存计算, 中间结果直接放内存中, 带来了更高的迭代运算效率;
Spark基于DAG的任务调度执行机制, 要优于MR的迭代执行机制;
Spark支持粗粒度资源调度, Spark Application在执行时, 一次申请资源可以多个Job复用;
Spark可根据不同场景选择不同的shuffle(SortShuffle, HashShuffle).
Spark最大的优势就是将计算数据、中间结果都存储在内存中, 大大减少IO开销. 因此, Spark更适合于迭代运算比较多的数据挖掘与机器学习运算. 在使用Hadoop进行迭代计算时非常耗资源, 因为每次迭代都需要从磁盘中读取、写入中间数据, IO开销大. 而Spark将数据载入内存后, 之后的迭代计算都可以直接使用内存中的中间结果作运算, 避免了从磁盘中频繁读取数据.
在实际进行开发时, 使用Hadoop需要编写许多相对底层的代码, 不够高效. 相对而言, Spark提供了多种高层次、简洁的API, 通常情况下, 对于实现相同功能的应用程序, Spark的代码量要比Hadoop少2-5倍. 更重要的是, Spark提供了实时交互式编程反馈, 可以方便地验证、调整算法.
尽管Spark相对于Hadoop而言具有较大优势, 但Spark并不能完全替代Hadoop, 主要用于替代Hadoop中的MapReduce计算模型. 实际上, Spark已经很好地融入了Hadoop生态圈, 并成为其中的重要一员, 它可以借助于Yarn实现资源调度管理, 借助于HDFS实现分布式存储. 此外, 虽然Hadoop可以使用廉价、异构的机器来做分布式存储与计算, 但Spark对硬件的要求较高, 对内存与CPU有一定的要求.
好了,spark初始以及基本介绍完了,从这篇文章之后,我们会进入正式的数据处理阶段。
感谢大家的支持,多多转发,关注不迷路~~~
相关推荐
- FastUI:用Python构建高性能React应用,告别JavaScript
-
在现代Web开发中,前后端分离已经成为主流趋势。然而,前端开发往往需要深入掌握JavaScript和各种框架,这对于许多Python开发者来说是一个不小的挑战。今天,我们要介绍一个革命性的UI框架——...
- Python + Flet 开发网站的最佳数据库模块组合
-
对于使用Python和Flet开发网站并需要数据库支持的应用,以下是推荐的模块组合方案。方案一:SQLite+SQLAlchemy(推荐轻量级方案)**适用场景**:中小型应用、单用户或...
- 前端程序员应该往全栈方向发展吗?还是坚守前端?
-
这是一个非常经典且重要的问题,几乎每一位走到职业生涯十字路口的前端程序员都会思考。它没有一个绝对的“正确答案”,但我们可以从多个维度来分析,帮你找到最适合你的那条路。简单来说,这不是一个“要不要”的...
- Python交互仪表盘工具:Panel 进阶学习路线图
-
Panel作为Python生态系统中最强大的交互式仪表盘工具之一,其学习曲线既平缓又深远。这里我将为您构建一个系统化的进阶学习框架,包含实战项目和关键学习节点。1.现代化Web集成开发1....
- PuePy:将Python带入浏览器的革命性框架
-
在现代网络开发中,JavaScript无疑是主导地位的编程语言。但最近,随着WebAssembly和PyScript的崛起,Python的使用场景逐渐扩展到了前端开发领域。PuePy应运而生,作为一...
- 不容易!找到一个python的超简易网站搭建神器
-
作者:清香客来源:Python技术相信很多学习python的酱友们,大部分和我一样是为了提升工作效率,但是在提升自己的工作效率时,也会想着做同样工作的同事能不能也用上自己写的脚本(视工作环境而定)...
- PyWebView:用 Python 构建桌面应用的神器
-
作为一个Python开发者,我一直希望能找到一种简便的方法来构建桌面应用,而不是去学习诸如Electron这种重度依赖JavaScript的技术栈。就在我为桌面应用开发寻找替代方案时,遇到...
- Python Django框架中级教程:深入探索Django的核心功能
-
在Python的Web开发领域中,Django框架以其强大的功能和高效的开发模式占据着重要地位。对于已经掌握了Django基础的开发者来说,进一步深入学习中级知识能让我们开发出更复杂、更强大的Web应...
- 【Python程序开发系列】使用Flask实现前后端分离(案例)
-
这是我的第398篇原创文章。一、引言随着web开发的不断发展,前后端分离已成为越来越流行的架构设计。Flask是一个轻量级的Pythonweb框架,非常适合用于构建API,然后配合前端框...
- 每天一个Python库:Flask超轻量Web框架,灵活高效!
-
为什么要学Flask?Flask是一个「微型但强大的」Web框架:极简上手,几行代码即可跑起来灵活扩展,想加啥加啥(RESTful、JWT、数据库…)文档齐全,适合入门API开发或快...
- Python个人量化投资系统:后台搭建
-
独立搞量化系统的程序员最烦啥?重复造权限管理的轮子绝对排前三。技术老手用Python+PearAdminFlask两天搭出量化后台,实测开源框架真能省下80%基础工作量。开源后台框架选对,一人项目...
- python后端学什么(python后端好找工作吗)
-
在当今数字化的时代,Python后端开发成为了众多开发者追逐的热门领域。那么,想要在这个领域崭露头角,我们究竟应该学些什么呢?学习Python后端开发需要掌握全栈技术栈,涵盖从基础语法到分布式...
- Motia:重新定义后端与智能体整合的未来平台
-
在AIagent技术飞速发展的今天,我们拥有了诸如Dify、RAGFlow、LangChain等一系列优秀平台。然而,随着场景复杂度增加,开发者正面临一个共同问题:后端越来越碎片化,Agen...
- Python数据校验不再难:Pydantic库的工程化实践指南
-
在FastAPI框架横扫Python后端开发领域的今天,其默认集成的Pydantic库正成为处理数据验证的黄金标准。这个看似简单的库究竟隐藏着哪些让开发者爱不释手的能力?本文将通过真实项目案例,带您解...
- Python Flask 建站框架实操教程(flask框架网页)
-
下面我将带您从零开始构建一个完整的Flask网站,包含用户认证、数据库操作和前端模板等核心功能。##第一部分:基础项目搭建###1.创建项目环境```bash#创建项目目录mkdirfl...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- FastUI:用Python构建高性能React应用,告别JavaScript
- Python + Flet 开发网站的最佳数据库模块组合
- 前端程序员应该往全栈方向发展吗?还是坚守前端?
- Python交互仪表盘工具:Panel 进阶学习路线图
- PuePy:将Python带入浏览器的革命性框架
- 不容易!找到一个python的超简易网站搭建神器
- PyWebView:用 Python 构建桌面应用的神器
- Python Django框架中级教程:深入探索Django的核心功能
- 【Python程序开发系列】使用Flask实现前后端分离(案例)
- 每天一个Python库:Flask超轻量Web框架,灵活高效!
- 标签列表
-
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- mfc框架 (52)
- abb框架断路器 (48)
- ui自动化框架 (47)
- beego框架 (52)
- java框架spring (58)
- grpc框架 (65)
- tornado框架 (48)
- 前端框架bootstrap (54)
- ppt框架 (48)
- 内联框架 (52)
- cad怎么画框架 (58)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)