当前位置: 首页> 教育> 幼教 > 建筑企业查询_免费云服务器试用7天_手机app安装下载_论坛发帖

建筑企业查询_免费云服务器试用7天_手机app安装下载_论坛发帖

时间:2025/7/12 20:17:34来源:https://blog.csdn.net/2502_90677924/article/details/147098480 浏览次数:1次
建筑企业查询_免费云服务器试用7天_手机app安装下载_论坛发帖

Spark运行架构

 

1. 运行架构  

   Spark采用标准的masterslave结构:  

    Driver:作为master,负责执行Spark任务的main方法,管理作业调度、任务分配、Executor跟踪及UI展示。  

    Executor:作为slave,是Worker节点中的JVM进程,负责运行具体任务(Task),并将结果返回给Driver。Executor通过块管理器(Block Manager)缓存RDD数据,加速计算。  

 

2. 核心组件  

    Master & Worker:在独立部署环境中,Master负责资源调度和集群监控(类似YARN的RM),Worker负责数据处理(类似YARN的NM)。  

    ApplicationMaster:在YARN环境中,解耦ResourceManager(资源)和Driver(计算),负责申请资源、监控任务状态及处理异常。  

 

3. 核心概念  

    Executor与Core:Executor是计算节点,可通过参数指定其内存和CPU核数。  

    并行度(Parallelism):集群并行执行任务的数量,可动态调整。  

    有向无环图(DAG):Spark程序的拓扑结构,将计算逻辑映射为图形化依赖关系,支持Job内部的DAG划分和实时计算。  

 

4. 提交流程(YARN模式)  

    Client模式:Driver在本地运行,适用于测试。  

    Cluster模式:Driver在YARN集群中运行,适用于生产环境。  

   流程包括:申请资源、启动ApplicationMaster、分配Executor、任务划分(Job→Stage→Task)及任务分发。  

 

 

 

 第四节 RDD相关概念

 

1. RDD定义  

   RDD(弹性分布式数据集)是Spark的基本数据处理模型,特性包括:  

    弹性:自动容错、计算重试、存储切换、动态分片。  

    分布式:数据跨节点存储。  

    不可变:通过生成新RDD实现数据转换。  

    可分区:支持并行计算。  

 

2. 核心属性  

    分区列表、分区计算函数、RDD依赖关系、分区器(可选)、首选位置(可选)。  

 

3. 执行原理  

   Spark先申请资源,将逻辑分解为任务并分发到Executor执行。RDD封装计算逻辑,生成Task传递给Executor。  

 

4. RDD序列化  

    闭包检测:确保算子外数据可序列化。  

    Kryo序列化:高效序列化框架,速度是Java序列化的10倍。  

 

5. 依赖关系  

    窄依赖:父RDD的每个分区最多被子RDD的一个分区依赖(独生子女)。  

    宽依赖:父RDD的分区被多个子RDD依赖,引发Shuffle(多生)。  

    阶段划分:DAG根据宽依赖划分Stage,任务分为Application→Job→Stage→Task。  

 

6. 持久化  

    Cache/Persist:缓存数据到内存或磁盘,血缘关系保留。  

    Checkpoint:将数据写入HDFS等可靠存储,切断血缘关系,适合长依赖链场景。  

 

7. 分区器  

    Hash分区:按key的哈希值分配分区(默认)。  

    Range分区:按key范围均匀分配,保证有序性。  

 

8. 文件读写  

   支持多种格式(text、sequence、object文件)和系统(本地、HDFS、HBase等)。 3

关键字:建筑企业查询_免费云服务器试用7天_手机app安装下载_论坛发帖

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: