当前位置：网站首页 > 技术文章 > 正文

3 Spark 运行框架及 Spark 核心编程

ccwgpt 2025-07-03 12:42 1 浏览 0 评论

运行架构

Driver 表示 master，负责管理整个集群中的作业任务调度。
Executor 则是 slave，负责实际执行任务。

核心组件

Spark 包含两个核心组件：Driver、Executor。

Driver

Spark 驱动器节点，用于执行 Spark 任务中的 main 方法，负责实际代码的执行工作。Driver 在 Spark 作业执行时主要负责：

将用户程序转化为作业（job）；
在 Executor 之间调度任务(task)；
跟踪 Executor 的执行情况；
通过 UI 展示查询运行情况。

简单理解，所谓的 Driver 就是驱使整个应用运行起来的程序，也称之为 Driver 类。

Executor

Executor 是集群中工作节点（Worker）中的一个 JVM 进程，负责在 Spark 作业中运行具体任务（Task），任务彼此之间相互独立。Spark 应用启动时，Executor 节点被同时启动，并且始终伴随着整个 Spark 应用的生命周期而存在。如果有 Executor 节点发生了故障或崩溃，Spark 应用也可以继续执行，会将出错节点上的任务调度到其他 Executor 节点上继续运行。

Executor 有两个核心功能：

负责运行组成 Spark 应用的任务，并将结果返回给驱动器进程。任务运行时，任务之间彼此独立。
它们通过自身的块管理器（Block Manager）为用户程序中要求缓存的 RDD 提供内存式存储。RDD 是直接缓存在 Executor 进程内的，因此任务可以在运行时充分利用缓存数据加速运算。

Spark 集群的独立部署环境中，不需要依赖其他的资源调度框架，自身就实现了资源调度的功能，所以环境中还有其他两个核心组件：Master 和 Worker，这里的 Master 是一个进程，主要负责资源的调度和分配，并进行集群的监控等职责，类似于 Yarn 环境中的 RM, 而Worker 呢，也是进程，一个 Worker 运行在集群中的一台服务器上，由 Master 分配资源对数据进行并行的处理和计算，类似于 Yarn 环境中 NM。

ApplicationMaster

Spark 在计算与资源之间交互式，如上图所示。Driver 与 Master 之间交互，就会使两者耦合在一起，同样，Executor 与 Worker 也可能存在耦合，为避免耦合，Spark 在两者之间增加 ApplicationMaster 作为抽象。

核心概念

Executor 与 Core

Executor 是集群中运行在工作节点（Worker）中的一个 JVM 进程，是整个集群中的专门用于计算的节点。在提交应用中，可以提供参数指定计算节点的个数，以及对应的资源。这里的资源一般指的是工作节点 Executor 的内存大小以及使用的虚拟 CPU 核（Core）数量。

任务启动的相关参数如下：

名称	说明
--num-executors	配置 Executor 的数量
--executor-memory	配置每个 Executor 的内存大小
--executor-cores	配置每个 Executor 的虚拟 CPU core 数量。如果CPU Core 数比物理 CPU 核数多，则体现的是CPU 的并发性；如果 CPU Core 能够满足 Executor 的核数要求，则体现的时并行性。

并行度（Parallelism）

CPU 物理核数足够任务运行时，计算能够达到并行。要与操作系统的并发区分来看。

有向无环图（DAG）

DAG(Directed Acyclic Graph)，DAG 是由一组顶点（节点）和一组有方向的边组成的图结构，且不存在任何循环路径（即无法从一个节点出发通过有向边回到自身）。

关键特性包括：

有向性：边具有明确的方向性，表示节点间的单向依赖关系。
无环性：确保依赖关系不会形成闭环，适用于任务调度等场景。

与 Maven 类似，不允许循环依赖。Spark 任务也一样，不能出现任务之间循环调用的情况，否则任务打包时，将陷入死循环无法进行打包。

提交流程

所谓的提交流程，其实就是我们开发人员根据需求写的应用程序通过 Spark 客户端提交给 Spark 运行环境执行计算的流程。在不同的部署环境中，这个提交过程基本相同，但是又有细微的区别，下图以 Spark + YARN 的部署方式为例介绍提交流程。

Spark 程序提交 YARN 时，一般有两种部署方式：

Client：Driver 在 Client 端运行；
Cluster：Driver 在集群/YARN 上运行。

两者区别就是 Driver 的运行位置。

YARN Client 模式

Client 模式将用于监控和调度的 Driver 模块在客户端执行，而不是在 Yarn 中，所以一般用于测试。

Driver 在任务提交的本地机器上运行；
Driver 启动后会和 ResourceManager 通讯申请启动 ApplicationMaster；
ResourceManager 分配 container，在合适的 NodeManager 上启动 ApplicationMaster，负责向 ResourceManager 申请 Executor 内存；
ResourceManager 接到 ApplicationMaster 的资源申请后会分配 container，然后 ApplicationMaster 在资源分配指定的 NodeManager 上启动 Executor 进程；
Executor 进程启动后会向 Driver 反向注册，Executor 全部注册完成后 Driver 开始执行 main 函数；
之后执行到 Action 算子时，触发一个 Job，并根据宽依赖开始划分 stage，每个 stage 生成对应的 TaskSet，之后将 task 分发到各个 Executor 上执行。

YARN Cluster 模式

Cluster 模式将用于监控和调度的 Driver 模块启动在 Yarn 集群资源中执行。一般应用于实际生产环境。

在 YARN Cluster 模式下，任务提交后会和 ResourceManager 通讯申请启动 ApplicationMaster；
随后 ResourceManager 分配 container，在合适的 NodeManager 上启动 ApplicationMaster，此时的 ApplicationMaster 就是 Driver。
Driver 启动后向 ResourceManager 申请 Executor 内存，ResourceManager 接到 ApplicationMaster 的资源申请后会分配 container，然后在合适的 NodeManager 上启动 Executor 进程；
Executor 进程启动后会向 Driver 反向注册，Executor 全部注册完成后 Driver 开始执行 main 函数；
之后执行到 Action 算子时，触发一个 Job，并根据宽依赖开始划分 stage，每个 stage 生成对应的 TaskSet，之后将 task 分发到各个 Executor 上执行。

Spark 核心编程

Spark 计算框架的目的是为了能高并发、高吞吐量的数据处理。为了达到此目的，Spark 定义了三大核心数据结构。

三大数据结构：

RDD（Resilient Distribute Data）：弹性分布式数据集的简称。
累加器：分布式共享只写变量。
广播变量：分布式共享只读变量。

什么是数据结构？计算机存储、组织数据的方式。

今天就介绍到这儿，下次将会系统介绍 RDD。

spark框架

上一篇：软件开发接口通信总结（软件开发接口）
下一篇：大数据内存计算Spark框架原理详细整理

3 Spark 运行框架及 Spark 核心编程

运行架构

核心组件

核心概念

Spark 核心编程

相关推荐

取消回复欢迎你发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

(转载)Python爬虫框架Scrapy入门与实践

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

3 Spark 运行框架及 Spark 核心编程

运行架构

核心组件

核心概念

Spark 核心编程

相关推荐

取消回复欢迎 你 发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

(转载)Python爬虫框架Scrapy入门与实践

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

取消回复欢迎你发表评论: