当前位置: 首页> 财经> 产业 > 建设云个人证件查询系统_网页设计布局分析_长沙网站优化推广方案_游戏网站交换友情链接

建设云个人证件查询系统_网页设计布局分析_长沙网站优化推广方案_游戏网站交换友情链接

时间:2025/7/10 7:55:16来源:https://blog.csdn.net/weixin_58305115/article/details/142832088 浏览次数:0次
建设云个人证件查询系统_网页设计布局分析_长沙网站优化推广方案_游戏网站交换友情链接

目录

广播变量

总结

累加器


广播变量

如果我们要在分布式计算里面分发大的变量数据,这个都会由Driver端进行分发,一般来讲,如果这个变量不是广播变量,那么每个task就会分发一份,这在task数目十分多的情况下Driver的带宽会成为系统的瓶颈,而且会大量消耗task服务器上的资源,如果将这个变量声明为广播变量,那么每个executor拥有一份,这个executor启动的task会共享这个变量,节省了通信的成本和服务器的资源。

减少task线程对应变量的定义,节省内存空间

例:定义广播变量,让进程中的线程共用变量num

# 广播变量
from pyspark import SparkContextsc  = SparkContext()num = 10
# 将变量定义成广播变量
b_obj = sc.broadcast(num)rdd = sc.parallelize([1,2,3,4])# 转化计算
def func(x):# 广播变量无法修改# b_obj.value=20# 获取广播变量值return x+b_obj.valuerdd_map = rdd.map(func)# 查看数据
res = rdd_map.collect()
print(res)

总结

广播变量将Driver中的变量数据传递到Executor的内存中,让Executor的多个task共用变量值

累加器

避免资源抢占造成的计算错误

例:

# 累加器
from pyspark import SparkContextsc  = SparkContext()num = 10
# 将变量定义成累加器
a_obj = sc.accumulator(num)
# 生成rdd
rdd = sc.parallelize([1,2,3,4])# 对rdd进行计算
def func(x):print(x) # 输出rdd中元素数据# 对累加器的值进行修改 每次加1a_obj.add(1)return (x,1)rdd_map = rdd.map(func)# 查看数据
res = rdd_map.collect()
print(res)# 查看累加器的数据
print(a_obj.value)

 

关键字:建设云个人证件查询系统_网页设计布局分析_长沙网站优化推广方案_游戏网站交换友情链接

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: