访谈 |股票 |创投人物 |产业 |金融 |维修 |车展 |报价 |行情 |时评 |新车 |数码 |互联网 |名企 |IT业 |能源

当前位置：首页> 财经> 访谈 > 软件开发的三种基本方法_中国建设银行官方网站登录_建站模板网站_高端网站建设深圳

软件开发的三种基本方法_中国建设银行官方网站登录_建站模板网站_高端网站建设深圳

时间:2025/7/19 2:13:30来源：https://blog.csdn.net/lx104921/article/details/144650804 浏览次数:0次

软件开发的三种基本方法_中国建设银行官方网站登录_建站模板网站_高端网站建设深圳

一、Mapreduce工作流程

（1）数据切片Split。数据切片数决定maptask并行度，默认情况下，一个切片大小=块大小。切片不是针对整体数据集，而是针对每一个文件单独切片，所以会有小文件问题（CombineTextInputFormat可用于小文件过多的场景，可以将多个小文件在逻辑上划分到一个切片中）。

（2）map。每个maptask并行执行，调用map方法对数据进行业务逻辑处理，并输出kv键值对。

（3）shuffle。shuffle过程从map方法输出outk outv键值对开始，键值对会被写入到环形缓冲区中，同时记录该条数据的分区信息（环形缓冲区一半记录数据的元数据信息，一半记录真实数据信息）当环形缓冲区写到80%的时候，环形缓冲区开始反向写入数据，并且已写入的80%数据开始溢写到磁盘（在真正写入磁盘之前，会在内存中首先按照key进行快速排序），一个mapTask可能会有多个溢写文件，这些文件在进入reduce之前，还会进行归并排序成一个大的溢写文件（如果有combiner，会在这先进行部分聚合）。reduceTask会从不同的mapTask主动拉取自己分区的数据，并对这些来自不同mapTask的数据再次进行归并排序，合并成一个大的文件，到这里shuffle阶段就结束了，之后就是调用reduce方法完成最终的聚合操作了。

（4）reduce。调用reduce方法，完成最后的逻辑聚合。

二、MapTask工作机制

一个MapTask总体上包含read、map、collect、溢写、merge五个阶段。

（1）read阶段。读取数据。

（2）map阶段。调用map方法处理输入的kv键值对。

（3）collect阶段。将map计算结果进行收集，写入到环形缓冲区。

（4）溢写阶段。环形缓冲区达到80%时会进行溢写，注意溢写前会先进行快排。

（5）merge阶段。一个maptask的多个溢写文件进行归并，形成一个大的溢写文件。

三、ReduceTask工作机制

一个ReduceTask总体上包含Copy、Sort、reduce三个阶段。

（1）Copy阶段。从不同的Maptask主动拷贝自己分区的数据文件。

（2）Sort阶段。对来自不同maptask的文件进行归并排序，整合为一个文件。

（3）reduce阶段。调用reduce方法，按照聚合逻辑进行聚合运算。

四、Shuffle机制

map方法结束到reduce方法之前的过程都属于shuffle过程。shuffle过程的理解主要就是三次排序过程（一次快排，两次归并）。

（1）一个maptask在溢写每个文件到磁盘前，都会在内存中对不同的分区内部进行快排，保证了每个溢写文件内部的分区内有序

（2）一个maptask可能会有多个溢写文件，每个溢写文件都划分了分区且分区内有序，这些溢写文件会进行归并排序合并成一个大的溢写文件，保留分区且分区内有序

（3）reduceTask会主动从不同的maptask拉取自己分区的数据，从不同maptask拷贝的文件在进入reduce方法之前还会进行一次归并排序。

五、部分调优参数

（1）shuffle中的缓冲区大小会影响溢写次数，缓冲区越大，溢写次数越少，磁盘的io越少，执行速度越快。缓冲区大小可以通过mapreduce.task.io.sort.mb参数进行调整。

关键字：软件开发的三种基本方法_中国建设银行官方网站登录_建站模板网站_高端网站建设深圳

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：

>> 相关文章

>> 热门图片

小程序外包公司发展前景_优化方案数学2024电子版_成都网络营销搜索推广_百度一下首页登录

小程序外包公司发展前景_优化方案数学2024电子版_成都网络营销搜索推广_百度一下首页登录

官网维护是什么意思_公开招标网站_最新舆情信息网_怎么找到当地的微信推广

官网维护是什么意思_公开招标网站_最新舆情信息网_怎么找到当地的微信推广

手机银行网站建设_广告联盟平台哪个好_网络黄页推广软件哪个好_关键词规划师工具

手机银行网站建设_广告联盟平台哪个好_网络黄页推广软件哪个好_关键词规划师工具

流程图制作网页_简历电子模版免费下载_武汉seo搜索引擎_网络营销活动策划方案模板

流程图制作网页_简历电子模版免费下载_武汉seo搜索引擎_网络营销活动策划方案模板

无锡网站制作优化排名_网页生成app在线_友情链接平台网站_亚马逊站外推广网站

无锡网站制作优化排名_网页生成app在线_友情链接平台网站_亚马逊站外推广网站

seo发展现状_成都教育行业网站建设_百度广告电话号码是多少_百度竞价账户

seo发展现状_成都教育行业网站建设_百度广告电话号码是多少_百度竞价账户

东莞广告设计公司排名_北京实创装修公司官网_无限制访问国外的浏览器_seogw

东莞广告设计公司排名_北京实创装修公司官网_无限制访问国外的浏览器_seogw

有创意的网络公司名字大全_简述网站开发技术_什么是seo技术_公司地址怎么弄在百度上显示

有创意的网络公司名字大全_简述网站开发技术_什么是seo技术_公司地址怎么弄在百度上显示

>> 热门搜索

评论排行

图片新闻

朔州网站建设公司_51源码网_网站统计代码_seo技术外包

夜莺监控使用指南

在线客服系统免费版_长沙小程序开发_深圳货拉拉_经济新闻最新消息财经

无人区在线高清免费看_大学生网页设计与制作模板_免费观看行情软件网站进入_建一个网站需要多少钱?

点击排行