攻略 |评测 |单机 |网游 |手游 |游戏 |艺术 |文化 |酒店 |旅游 |美景 |影视 |明星 |八卦

当前位置：首页> 游戏> 网游 > 4399小游戏网页在线玩_邢台做网站的公司_品牌宣传策划公司_广东seo推广费用

4399小游戏网页在线玩_邢台做网站的公司_品牌宣传策划公司_广东seo推广费用

时间:2025/7/9 15:21:23来源：https://blog.csdn.net/LFM3320829529/article/details/146081922 浏览次数:0次

4399小游戏网页在线玩_邢台做网站的公司_品牌宣传策划公司_广东seo推广费用

前言

本工作的主要贡献有：

（1）实时构建拓扑图，以便在全球行动空间中进行高效探索；

（2）使用图Transformer对拓扑图进行编码，并学习与指令的跨模态关系，以便动作预测可以依赖于远程导航记忆。

一、模型整体框架

1.1 任务描述

在VLN的离散情况下，环境是无向图 $G=\begin{Bmatrix} V, E \end{Bmatrix}$ ，其中 $V=\begin{Bmatrix} V_{i} \end{Bmatrix}^{K}_{i=1}$ 表示 $K$ 个可导航节点， $E$ 表示连接边。在时间步 $t$ ：

（1） $W=\begin{Bmatrix} w_{i} \end{Bmatrix}^{L}_{i=1}$ 是具有 $L$ 个单词的指令嵌入；

（2）代理接收其当前节点 $V_{t}$ 的全景图和位置坐标。其中全景图被分成 $n$ 个图像 $R_{t}=\begin{Bmatrix} r_{i} \end{Bmatrix}^{n}_{i=1}$ ，每个图像由图像特征向量 $r_{i}$ 和唯一方向表示；

（3）为了实现精细的视觉感知，使用带注释的对象边界框或自动对象检测器在全景图中提取 $m$ 个对象特征 $O_{t}=\begin{Bmatrix} o_{i} \end{Bmatrix}^{m}_{i=1}$ ；

（4）此外，代理还感知与其邻近节点集 $N(V_{t})$ 对应的若干可导航视图，以及这些节点的空间坐标，可能的局部动作空间 $A_{t}$ 包含导航到 $V_{i}\in N(V_{t})$ 并在 $V_{t}$ 停止；

（4）在代理决定在某个位置停止后，它需要预测全景中目标对象的位置。

1.2 模型介绍

模型的整体框架如下图所示：

可以看出，主要由以下几部分组成：

（1）视觉编码器：多层Transformer，输入为RGB特征和目标特征，输出为总的视觉特征；

（2）文本编码器：多层Transformer，输出为文本特征；

（3）拓扑图映射模块：动态构建已访问、当前、未访问节点，并输出节点的特征；

（4）细尺度多模态注意力模块 + 局部动作预测模块：整合对齐局部视觉特征和文本特征，并得到局部预测动作；

（5）粗尺度多模态注意力模块 + 全局动作预测模块：整合对齐全局视觉特征和文本特征，并得到全局预测动作；

（6）动态融合模块：融合局部和全局动作预测，得到最终动作预测结果。

二、难点

2.1 图谱图映射

环境图 $G$ 最初是代理未知的，代理沿路径逐渐构建自己的映射：

（1）总共包含三类节点：（a）访问过的节点；（b）当前节点；（c）可导航的节点：

（2）代理可以访问已访问节点和当前节点的全景视图。可导航节点还未经探索，只能从已访问的位置部分观察到；

（3）当代理到达新的节点后，需当前访问过的节点和可导航节点的视觉表示，如下图所示：

上图表示由节点 $d$ 到达节点 $e$ 后，将节点 $e$ 及其邻近的节点一同添加到当前时刻的环境图 $G$ 中。

2.1.1 节点的视觉表示

在时间步 $t$ ，代理接受节点 $V_{t}$ 的图像特征 $R_{t}$ 和目标特征 $O_{t}$ ：

（1）使用多层Transformer建模图像和目标的空间关系：

为了表示方便，将通过注意力层后的图像和目标特征仍然表示为 $R_{t}$ 和 $O_{t}$ 。

然后，通过 $R_{t}$ 和 $O_{t}$ 的平均池化来更新当前节点的视觉表示。由于代理也在 $V_{t}$ 处部分观察到 $N(V_{t})$ ：

（1）根据 $R_{t}$ 中相应的视图嵌入来累积这些可导航节点的视觉表示；

（2）如果从多个位置看到了一个可导航节点，将所有部分视图嵌入的平均作为其视觉表示。使用 $v_{i}$ 来表示每个节点 $V_{i}$ 的合并视觉表示。

2.2 粗交叉模态编码器

节点视觉特征 $v_{i}$ 添加位置编码和导航步编码：

（1）位置编码：将节点在地图中的位置嵌入到以自我为中心的视图中，即相对于当前节点的方向和距离；

（2）导航步编码：对于访问过的节点，编码最后一次访问时间步，对于未访问过的节点，编码为0。通过这种方式，访问的节点被编码为不同的导航历史，以提高与指令的一致性。

在图中添加一个“停止”节点 $v_{o}$ 来表示停止动作，并将其与所有其他节点连接。

2.2.1 图感知交叉模态编码器

（1）标准注意力仅考虑节点之间的视觉相似性，因此它可能会忽略比远处节点更相关的附近节点；

（2）为了解决这个问题，我们提出了图感知自注意力（GASA），它进一步考虑了图的结构来计算注意力。公式如下：

其中 $E$ 是从 $\varepsilon _{t}$ 得到的成对距离矩阵。

2.3 细交叉模态编码器

在 $R_{t}$ 中添加了两种类型的位置嵌入：

（1）第一种类型是地图中相对于起始节点的当前位置。这种嵌入有助于理解指令中的绝对位置，例如“去一楼的客厅”；

（2）对于 $V_{i}\in N(V_{t})$ ，我们添加了第二个位置嵌入，即每个相邻节点与当前节点的相对位置。它有助于编码器实现以自我为中心的方向，如“右转”。

为停止操作添加了一个特殊的“停止”标记 $r_{0}$ 。

2.4 动态融合

动态融合粗尺度和细尺度动作预测，以获得更好的全局动作预测。

（1）由于细尺度编码器预测是在局部空间，与粗尺度编码器的全局空间不匹配，因此，首先将局部动作得分转换为空间动作得分：

（2）计算融合预测的加权标量：

（3）得到最终动作的预测：

三、总结

（1）怎么判断一个模型是连续VLN还是离散VLN？

（2）拓扑图具体怎么实现的？

（2）拓扑图能应用到连续VLN中吗？

关键字：4399小游戏网页在线玩_邢台做网站的公司_品牌宣传策划公司_广东seo推广费用

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：

>> 相关文章

>> 热门图片

深圳市建设交易宝安_海口自助建站系统_培训班招生方案有哪些_点石关键词排名优化软件

深圳市建设交易宝安_海口自助建站系统_培训班招生方案有哪些_点石关键词排名优化软件

郑州知名做网站_返回邢台最新规定_重庆百度关键词推广_seo外推软件

郑州知名做网站_返回邢台最新规定_重庆百度关键词推广_seo外推软件

大连模板建站代理_纯字母logo设计_seo综合查询站长工具关键词_如何提高网站搜索排名

大连模板建站代理_纯字母logo设计_seo综合查询站长工具关键词_如何提高网站搜索排名

开发公司资质办理_东莞城乡建设规划官网_推广普通话绘画_刷外链

开发公司资质办理_东莞城乡建设规划官网_推广普通话绘画_刷外链

在线api_求推荐建设网站_官网seo关键词排名系统_站长之家app

在线api_求推荐建设网站_官网seo关键词排名系统_站长之家app

建设工程价款结算暂行办法_拓者设计吧官网案例_链爱生态怎么交易_郑州网站建设

建设工程价款结算暂行办法_拓者设计吧官网案例_链爱生态怎么交易_郑州网站建设

下载一个手机app_跨境电商七大骗局_近期国际新闻热点大事件_市场调研的方法有哪些

下载一个手机app_跨境电商七大骗局_近期国际新闻热点大事件_市场调研的方法有哪些

图片在线设计_苏州的网络公司网站建设_推广app赚佣金平台_免费网站服务器安全软件下载

图片在线设计_苏州的网络公司网站建设_推广app赚佣金平台_免费网站服务器安全软件下载

>> 热门搜索

评论排行

图片新闻

4399小游戏网页在线玩_邢台做网站的公司_品牌宣传策划公司_广东seo推广费用

成都百度seo代理_黄冈网站建设网络推广_上海做网络口碑优化的公司_获取排名

机器学习笔记——循环神经网络

淄博一推网络科技有限公司_扬中富裕吗_广州seo网站管理_百度客服人工电话24小时

点击排行