01
初识 Spark
Spark 是一个通用的并行计算框架,由加州伯克利大学的 AMP 实验室在 2009 年开发,并且在 2010 年以 0.6 版本开源,2013 年左右成为 Apache 旗下在大数据领域最活跃的开源项目之一。
02
Spark 有哪些特点
Spark 的基本特点可归纳为以下五点:灵活的内存管理,灵活的并行度控制,可选的 Shuffle 排序,避免重新计算,减少磁盘 I/O。
1. 灵活的内存管理
减少了内存溢出的问题,用逻辑规划将 JVM 内存按照堆内/堆外,存储/计算分为四个象限。其中执行和存储内存的边界并不固定,通过逻辑规划来进行约定,可以相互借用,以此来提高内存资源的利用率,减少资源的浪费。Spark 1.4 版本在内存管理器上通过“钨丝计划(Tungsten)”实现了一种与操作系统内存页非常相似的数据结构,内存管理可以直接向操作系统申请/释放内存,避免了 JVM 额外的开销,使得内存分配效率更加接近硬件。同时 Spark 有任务级别的内存管理,任务的计算属于执行内存的一部分。
2. 灵活的并行度控制
Spark 通过 Shuffle 依赖的关系把不同的环节抽象为 Stage 的概念,允许多个 Stage 既可以串行执行,又可以并行执行提升并行度。同时 Stage 内部由一系列的 RDD 组成,RDD 允许用户自定义自身的并行度,能够更加有效应对海量数据的场景。
3. 科学的 Shuffle 排序
Hadoop 早期的 MR 在 Shuffle 之前会有固定的排序,便于后期 Reduce 端拉取数据。对于 Spark 这点是可选步骤,根据场景特点可在 Shuffle 之前的 Map 端或者之后的 Reduce 端进行排序。
4. 避免重新计算
从 Stage 构建出来的 DAG 血缘关系能够在执行失败的时候重新调度,加上对检查点的支持可以避免重复计算,这点对于大数据量场景下的稳定运行非常关键。
5. 减少磁盘 I/O
最早期的时候,Spark 和 MapReduce 类似,在 Map 端生成中间数据时,会针对每个 Reduce 端生成文件,从而产生很多小文件。后期 Spark 版本优化引入分区索引,Map 端不会为下游 Reduce 端单独生成小文件,而是通过索引构建文件的方式,用偏移量为下游 Reduce 端拉取数据做服务。每个分区是顺序写的方式,在 Reduce 端读数据的时候也是顺序读取,避免了随机读,减少了大量的磁盘 I/O 开销。同时 Spark Driver 端支持把通过 spark-submit 命令提交的 jar 包等资源文件缓存到本地服务内存中,在 Executor 端执行的时候可以直接通过 Netty 拉过去,也是一个节省 I/O 方面的改进;
6. Spark 的其他特点包括
检查点支持,易于使用(支持 Java,Scala,Python 等编程语言),交互式(Spark Shell)和 SQL 分析(借鉴了 ANSI SQL 等标准的实用语法和功能),批流一体,丰富的数据支持,高可用,丰富的文件格式支持。
03
Spark 基本概念
1. 弹性分布式数据集 RDD
Spark 的转换(transform)API 可以将 RDD 封装为一系列具有血缘关系(DAG)的 RDD。
Spark 的动作(action)API 会将 RDD 及其 DAG 提交到 DAGScheduler。
转换 API 和动作 API 总归都是在处理数据,因此 RDD 的祖先一定是一个跟数据源相关的 RDD,负责从数据源迭代读取数据。
上图展示了 Stage 抽象和 RDD 分区的概念,体现了并行性;同时也展示了宽窄依赖的关系:图内的 map 和 union 是窄依赖,join 和 groupby 是宽依赖;
2. 有向无环图 DAG
在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG 图)。Spark 使用 DAG 来反映各 RDD 之间的依赖或血缘关系。
3. 分区 Partition
上图 A RDD 有三个分区(Partition),通过分区器(Partitioner)(用户可以自定义)来进行区分,这样在 Stage 内部来进一步实现并行。
4. 宽窄依赖 Dependency
Narrow Dependency 为窄依赖:子 RDD 依赖于父 RDD 中固定的 Partition。分为 OneToOne Dependency 和 Range Dependency 两种;
Shuffle Dependency 为宽依赖:子 RDD 对父 RDD 中所有的 Partition 都可能产生依赖。子 RDD 对父 RDD 各个 Partition 的依赖将取决于分区计算器(Partitioner)的算法。
5. Job/Stage/Task
执行一个动作 API 产生一个 Job。Spark 会在 DAGscheduler 阶段来划分不同的 Stage, Stage 分为 ShuffleMapStage 和 ResultStage 两种。每个 Stage 中都会按照 RDD 的 Partition 数量创建多个 Task。ShuffleMapStage 中的 Task 为 ShuffleMapTask。ResultStage 中的 Task 为 ResultTask,类似于 Hadoop 中的 Map 任务和 Reduce 任务。
6. Spark 为什么用 Scala(vs Java)
相比早期的 Java,Scala 能更好地支持面向函数的编程。同时对比 Java,Scala 拥有丰富的类型推断,丰富的语法糖和更现代的语法特性。但是同时其学习成本较高,可读性也不如 Java。
04
Spark 核心功能
1. 基础设施
SparkConf:用于管理 Spark 应用程序的各种配置信息;
Spark 内置的 RPC 框架:用于跨机器节点不同组件间的通信,使用 Netty 实现,有同步和异步的多种方式,Spark 各个组件的通信都依赖于此 RPC 框架。
事件总线:SparkContext 内部各个组件是如何通信的;
度量系统:由 Spark 中的多种度量源(Source)和多种度量输出(Sink)构成,完成对整个 Spark 集群中各个组件运行状态的监控。
2. SparkContext
内部隐藏了网络通信,分布式部署,消息通信,存储体系,计算引擎,度量系统,文件服务,Web UI 等内容,应用程序开发者只需要使用 SparkConext 提供的 API 完成功能开发。
3. SparkEnv
是 Spark 中的 Task 运行所必须的组件,内部封装了 RPC 环境(RPCEnv),序列化管理器(Spark 可以参数指定序列化方式),广播管理器(BroadcastManager),map 任务输出跟踪器(MapOutputTracker),存储体系,度量系统(MetricsSystem),输出提交协调器(OutputCommitCoordinator)等 Task 运行所需的各种组件。
4. 存储体系
Spark 优先考虑使用内存,在内存不足时才会考虑使用磁盘,在大数据场景下有性能提升。执行和存储内存之间是软边界,可以互相借用。同时通过钨丝计划可以更有效地利用系统的内存资源。在 Spark 早期还提供了以内存为中心的高容错的分布式文件系统 Alluxio(原名 Tachyon)供用户选择,除了 JVM 内存和磁盘,用户还可以写入 Alluxio。这个支持才从原码里被移除前,用户可以从 Spark 外围比如 S3 把数据加载到 Alluxio,使 Alluxio 和 Spark 之间可以更好的进行配合。
5. 调度系统
DAG 调度(DAGScheduler)负责创建 Job,将 DAG 中的 RDD 划分到不同的 Stage,给 Stage 创建对应的 Task,抽象成 Taskset,并将 Taskset 批量提交给 TaskScheduler。
Task 调度(TaskScheduler)负责按照 FIFO 或者 FAIR 等调度算法对批量 Task 进行调度;TaskScheduler 的资源来自外部的调度系统(如 Standalone,Yarn 或者 K8s),外部调度系统分配过资源后,TaskScheduler 会进一步把资源分配给 Task;同时将 Task 发送到集群管理器,分配给当前应用的 executor,由 executor 负责执行工作。以 Yarn 为例,Yarn 把资源分配给 Spark Driver 后,Spark Driver 与 Yarn 的 NodeManager 进行通信,NodeManager 会帮 Spark 启动对应的 Executor,之后 Spark Diver 会分发任务到 Executor 上,Executor 会在本地的 JVM 中经过反序列化之后去调用对应的方法函数。
6. 计算引擎
内存管理器:分为堆外/堆内,计算/存储;
任务内存管理器:计算内存被 Task 分享,每个 Task 会有自己的任务内存管理器;
Tungten(钨丝):除了 JVM 内存外,可以将计算和存储在堆外去进行开辟;
外部排序器:根据任务的不同,可以在 Map 端或者 Reduce 端对 ShuffleMapTask 计算的中间结果进行排序聚合等操作;
Shuffle 管理器:用于将各个分区对应的 ShuffleMapTask 产生的中介结果持久化到磁盘,并在 Reduce 端按照分区远程拉取 ShuffleMapTask 产生的中间结果;
05
Spark 的模型设计
1. 编程模型
如上图 word count 的代码,通过动作 API 触发提交到 Driver 里,Driver 环境下有一些类,比如 DAGScheduler 会进行任务的划分,血缘的构建;TaskScheduler 进行资源的调度;BlockManager 管理需要存储的任务;RpcEnv 进行通信。Driver 环境与集群资源管理器交互来进行资源的申请,并分发任务到对应的工作节点比如 Yarn 的 NodeManager,节点帮助拉起 Executor 去执行计算,Executor 的中间或最终结果会访问存储。
2. RDD 计算模型
RDD 的每个分区(Partition)是靠分区计算器(Partitioner)得到,他们可以在多个节点的多个 Executor 上并行的执行。
06
Spark 的部署架构
1. 集群管理器(Cluster Manager)
资源需要稳健的平台进行管理,不管是 Spark 自带的 Standalone 还是 Yarn 或者 K8s 都有自己自带的多节点分布式的管理能力,同时支持故障容错等功能。
2. Worker
在拉起 Executor 的过程中,不同的集群管理器会选择不同的 Worker;比如 Standalone 的 Worker,Yarn 的 NodeManager,K8s 的 Node。Cluster 和 Worker 在技术选型阶段让 Spark 提交到哪种集群上就已经确定了。
3. Executor
Executor 是在集群内拉起。
4. Driver
Driver 对于 Yarn 和 K8s 可以选择在集群外或者内部执行。
5. Application
举个例子:用户写了一个类,其中的 main 方法调了一批 Spark API,把这个打成 jar 包,用 spark-submit 命令提交,运行在客户端,即为应用程序。如果 Driver 运行在客户端,Driver 是应用程序 JVM 进程的一部分。如果 Driver 运行在集群上,Driver 的进程和应用程序的JVM进程是分开的。在资源分配上,集群管理器分配给应用程序 /Driver 的是一级资源,拉起 Executor 将资源分配给任务是二级分配。