b站推广有用吗_美工设计培训网_浙江短视频seo优化网站_seo还有用吗

时间:2025/8/27 7:20:21来源：https://blog.csdn.net/2502_90677924/article/details/147114761 浏览次数: 2次

今天是Spark Core编程算子

Value类型算子

1. map

将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换。Map算子是分区内一个数据一个数据的执行，类似于串行操作。

特点：

- 主要目的将数据源中的数据进行转换和改变

- 不会减少或增多数据

- 性能较低，类似于串行操作

2. mapPartitions

将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤数据。

与map的区别：

- 数据处理角度：mapPartitions算子是以分区为单位进行批处理操作

- 功能角度：可以增加或减少数据

- 性能角度：性能较高，但会长时间占用内存

3. mapPartitionsWithIndex

将待处理的数据以分区为单位发送到计算节点进行处理，在处理时同时可以获取当前分区索引。

4. flatMap

将处理的数据进行扁平化后再进行映射处理，所以算子也称之为扁平映射。

与map的区别：

- map会将每一条输入数据映射为一个新对象

- flatMap会将每一个输入对象输入映射为一个新集合，然后把这些新集合连成一个大集合

5. glom

将同一个分区的数据直接转换为相同类型的内存数组进行处理，分区不变。

6. groupBy

将数据根据指定的规则进行分组，分区默认不变，但是数据会被打乱重新组合，我们将这样的操作称之为shuffle。极限情况下，数据可能被分在同一个分区中。一个组的数据在一个分区中，但是并不是说一个分区中只有一个组。

7. filter

将数据根据指定的规则进行筛选过滤，符合规则的数据保留，不符合规则的数据丢弃。当数据进行筛选过滤后，分区不变，但是分区内的数据可能不均衡，生产环境下，可能会出现数据倾斜。

8. sample

根据指定的规则从数据集中抽取数据，支持两种算法：

- 伯努利算法（不放回）：又叫0、1分布，根据种子和随机算法算出一个数和第二个参数设置几率比较

- 泊松算法（放回）：每一个元素被期望抽取到的次数

双Value类型算子

13. intersection

对源RDD和参数RDD求交集后返回一个新的RDD。

14. union

对源RDD和参数RDD求并集后返回一个新的RDD（重复数据不会去重）。

15. subtract

以源RDD元素为主，去除两个RDD中重复元素，将源RDD的其他元素保留下来（求差集）。

16. zip

将两个RDD中的元素，以键值对的形式进行合并。其中，键值对中的Key为第1个RDD中的元素，Value为第2个RDD中的相同位置的元素。

Key-Value类型算子

17. partitionBy

将数据按照指定Partitioner重新进行分区。Spark默认的分区器是HashPartitioner。

18. groupByKey

将数据源的数据根据key对value进行分组。

与reduceByKey的区别：

- shuffle角度：reduceByKey可以在shuffle前对分区内相同key的数据进行预聚合，减少落盘数据量

- 功能角度：reduceByKey包含分组和聚合功能，groupByKey只能分组

19. reduceByKey

可以将数据按照相同的Key对Value进行聚合。

20. aggregateByKey

将数据根据不同的规则进行分区内计算和分区间计算。

21. foldByKey

当分区内计算规则和分区间计算规则相同时，aggregateByKey就可以简化为foldByKey。

22. combineByKey

最通用的对key-value型rdd进行聚集操作的聚集函数。类似于aggregate()，但允许用户返回值的类型与输入不一致。

23. sortByKey

在一个(K,V)的RDD上调用，K必须实现Ordered接口(特质)，返回一个按照key进行排序的RDD。

24. join

在类型为(K,V)和(K,W)的RDD上调用，返回一个相同key对应的所有元素连接在一起的(K,(V,W))的RDD。

25. leftOuterJoin

类似于SQL语句的左外连接。

26. cogroup

在类型为(K,V)和(K,W)的RDD上调用，返回一个(K,(Iterable<V>,Iterable<W>))类型的RDD。

关键字：b站推广有用吗_美工设计培训网_浙江短视频seo优化网站_seo还有用吗

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：