艺术 |文化 |酒店 |旅游 |美景 |影视 |明星 |八卦 |攻略 |评测 |单机 |网游 |手游 |游戏

当前位置：首页> 文旅> 文化 > 电子工程世界app下载_乌鲁木齐最新消息_企业培训机构排名_优惠活动推广文案

电子工程世界app下载_乌鲁木齐最新消息_企业培训机构排名_优惠活动推广文案

时间:2025/8/28 14:32:05来源：https://blog.csdn.net/weixin_37990186/article/details/144727460 浏览次数:0次

电子工程世界app下载_乌鲁木齐最新消息_企业培训机构排名_优惠活动推广文案

作者：Sheng Fan, Rui Liu, Wenguan Wang, and Yi Yang
单位：浙江大学
原文链接：Navigation Instruction Generation with BEV Perception and Large Language Models （https://link.springer.com/chapter/10.1007/978-3-031-72670-5_21）
代码链接：https://github.com/FanScy/BEVInstructor

主要贡献

论文提出BEVInstructor，通过将鸟瞰图（BEV）特征与多模态大模型（MLLMs）结合，显著提高了导航指令生成的性能。
BEV编码器将多视角图像特征转换为BEV网格特征，保留三维几何和对象语义，提供更全面的场景理解。
通过参数高效的提示调优和实例引导的迭代精调策略，BEVInstructor逐步优化指令，生成更准确和详细的导航指令。
实验表明，该方法在R2R、REVERIE和UrbanWalk数据集上均优于现有方法，验证了其在复杂环境中生成高质量导航指令的有效性。

研究背景

研究问题

论文主要解决的问题是如何生成导航指令，使得具身智能体能够描述导航路线。现有的研究直接将2D透视观测序列映射到路线描述，但这种方法忽略了3D环境的几何信息和对象语义。

研究难点

如何有效融合3D几何信息和对象语义以生成准确的导航指令；
如何在零样本情况下利用多模态大模型（MLLMs）生成高质量的导航指令。

相关工作

早期的解决方案依赖于手工制作的规则或模板，缺乏灵活性。
后续研究采用神经网络进行端到端学习，如LSTM和Transformer。
最近的多模态大模型展示了强大的视觉-语言理解和生成能力，但在零样本情况下仍无法完全满足导航指令生成的需求。

研究方法

BEVINSTRUCTOR通过引入BEV特征并结合2D视角特征来编码3D环境的语义和几何信息。视觉嵌入被用作视觉提示，并通过透视-BEV提示调整来实现跨模态对齐。此外，提出了实例引导的迭代细化策略，以逐步提高生成指令的质量。

Perspective-BEV编码器

论文构建了BEV编码器，通过3D检测的监督，将透视特征转换为3D信息。

该编码器使用deformable注意力层来采样图像特征，并通过深度一致性权重来区分不同深度的参考点。

Perspective-BEV融合模块

这是一种参数高效的更新策略，它将3D几何信息融入提示中，以利用MLLMs的跨模态能力。

通过在视觉嵌入序列中插入可学习的嵌入作为透视Perspective-BEV提示来实现。

Perspective-BEV提示调优

为了参数高效更新，提出了Perspective-BEV提示调优方法。

该方法在MLLMs的最后几层插入可学习的嵌入作为提示，并通过自注意力和线性层来调节深度特征。

实例引导的迭代精调

采用了实例引导的迭代精调策略，逐步改进生成的指令。

初始阶段，BEVInstructor输出一系列候选实例词作为初始地标token，然后在模型中结合这些粗粒度地标来细化指令。

这一过程通过多轮迭代实现，以提高指令的质量和相关性。

实验设计

数据集

实验在三个数据集上进行：R2R、REVERIE和UrbanWalk。R2R和REVERIE用于室内场景，UrbanWalk用于室外场景。

评估指标

使用五个标准指标进行评估：BLEU、CIDEr、METEOR、ROUGE和SPICE。其中，SPICE被作为主要指标。

实现细节

BEVInstructor使用PyTorch实现，所有模型在单台机器上使用2个NVIDIA A40 GPU训练。多模态大模型使用LLaMA-7B初始化，具有32层。

结果与分析

定量结果

在R2R、REVERIE和UrbanWalk数据集上，BEVINSTRUCTOR在所有指标上都取得了最佳性能。
在R2R val seen和val unseen上，BEVINSTRUCTOR分别在SPICE上提高了1.9%和1.4%，在CIDEr上提高了4.6%和3.0%。

在REVERIE val seen和val unseen上，BEVINSTRUCTOR在SPICE上分别提高了7.0%和4.2%，在CIDEr上分别提高了12.6%和8.3%。

在UrbanWalk测试集上，BEVINSTRUCTOR在SPICE上提高了11.3%，在Bleu-4上提高了12.5%，在Meteor上提高了7.3%，在Rouge上提高了13.1%。

定性结果

在REVERIE数据集上，BEVINSTRUCTOR在识别与动作视图相关的场景和对象方面表现出增强的能力，并在细化阶段将这些元素明确地纳入指令中。

诊断实验

通过一系列消融研究评估了BEVINSTRUCTOR的关键模块的有效性，证明了各个组件的互补性和整体设计的有效性。

指令质量分析

通过与HAMT和DUET模型的比较，验证了BEVINSTRUCTOR生成的指令在实际视觉-语言导航任务中的路径引导能力和数据增强效果。

总结

BEVInstructor通过结合BEV特征和多模态大模型，显著提高了3D感知和语言能力。

该方法在多个数据集上均表现出色，验证了其生成高质量导航指令的有效性。

关键字：电子工程世界app下载_乌鲁木齐最新消息_企业培训机构排名_优惠活动推广文案

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：

>> 相关文章

>> 热门图片

手机浏览web网页_找建筑工程平台_网络推广方法怎么做_seo网络推广报价

手机浏览web网页_找建筑工程平台_网络推广方法怎么做_seo网络推广报价

投资10元一小时赚500导师_劳务派遣许可证_seo网址_杭州seo整站优化

投资10元一小时赚500导师_劳务派遣许可证_seo网址_杭州seo整站优化

中国十大企业_淮南论坛_免费网站流量_seo整站优化

中国十大企业_淮南论坛_免费网站流量_seo整站优化

国内域名和国外域名区别_北京建筑工程公司大全_产品线上推广渠道_竞价排名规则

国内域名和国外域名区别_北京建筑工程公司大全_产品线上推广渠道_竞价排名规则

自己建网站免费_亚洲b2b网站_深圳外贸seo_西安关键词seo公司

自己建网站免费_亚洲b2b网站_深圳外贸seo_西安关键词seo公司

军事新闻2023_全球军事网站_百度问一问免费咨询_泉州百度广告

军事新闻2023_全球军事网站_百度问一问免费咨询_泉州百度广告

python培训骗局_乌鲁木齐网站设计公司_北京排名seo_做一套二级域名网站怎么做

python培训骗局_乌鲁木齐网站设计公司_北京排名seo_做一套二级域名网站怎么做

虚拟偶像定制app_服务公司logo_疫情死亡最新数据消息_惠州网站seo排名优化

虚拟偶像定制app_服务公司logo_疫情死亡最新数据消息_惠州网站seo排名优化

>> 热门搜索

评论排行

图片新闻

电子工程世界app下载_乌鲁木齐最新消息_企业培训机构排名_优惠活动推广文案

上海服装设计公司排名_深圳装修公司哪家好_打广告的免费软件_如何做推广宣传

云原生周刊：Harbor v2.11 版本发布｜ 2024.6.17

Java 入门指南：JVM（Java虚拟机）垃圾回收机制 —— 内存分配和回收规则

点击排行