实时 3D 场景重建新突破：LingBot-Map 前馈式模型，万帧视频秒变点云

📅 2026/7/3 12:36:14

一个前馈式 3D 基础模型从流式数据实时重建场景——20 FPS 推理速度10000 帧稳定输出不依赖迭代优化。这个项目解决什么问题传统 3D 场景重建需要先拍完所有照片或视频然后用 COLMAP/NeRF 做离线优化——等几个小时甚至几天才能看到结果。LingBot-Map 换了一种思路前馈式feed-forward看到一帧重建一帧不需要回头优化。20 FPS 的推理速度让它可以处理超过 10000 帧的长视频序列这在之前的前馈式模型里是做不到的。核心亮点Geometric Context TransformerGCTLingBot-Map 的核心架构把三种能力统一到一个框架里Anchor Context——锚点上下文建立全局坐标基准Pose-Reference Window——姿态参考窗口用相邻帧约束局部几何Trajectory Memory——轨迹记忆长程漂移校正Paged KV Cache Attention借鉴了 LLM 推理的分页缓存思想让模型在 10000 帧的长序列上保持稳定推理不会因为序列过长而崩溃。全流式推理不需要 COLMAP 做预处理不需要全局 BA 优化模型看到每帧就输出该帧的深度和姿态。518×378 分辨率下 ~20 FPS。快速上手conda create-nlingbot-mappython3.10-yconda activate lingbot-map pipinstalltorch2.8.0torchvision0.23.0 --index-url https://download.pytorch.org/whl/cu128 pipinstall-e.pipinstallflashinfer-python# 下载模型HuggingFacepython demo.py--model_pathlingbot-map-long.pt\--image_folderexample/courthouse--mask_sky# 浏览器打开 http://localhost:8080 查看 3D 点云我的评价LingBot-Map 在学术上确实有突破——前馈式流式 3D 重建做到 20 FPS 和 10000 帧稳定输出。对比 DUSt3R 和 MASt3R 等同类工作它在长序列上的表现明显更好。但离实际落地还有距离。安装依赖链复杂PyTorch 2.8.0 FlashInfer KaolinGPU 需求 24GB VRAM而且目前只出了 demo 和论文离开箱即用还差一个完整的应用层。如果你在做 3D 视觉研究这个项目值得关注如果你只是想拍个视频生成 3D 模型建议再等等后续的封装版本。

新闻详情

相关阅读

STM32F417ZG与ASM330LHH的运动跟踪系统设计与优化

30年制造企业的数字化蝶变——福建华泰电力如何用ERP重构管理

如何用番茄小说下载器一键获取海量小说资源：终极指南

工业4-20mA电流环设计与STM32F746ZG应用实践

工业4-20mA电流环原理与XTR116芯片应用设计

数据从 Oracle 迁移到 GBase 8a 后，分页查询的不同实现方式总结（附：分片、分区、分桶的区别）

QQ机器人脚本开发指南：从入门到实践

Goby实战指南：从安装到漏洞扫描的完整流程解析

ICM-42688-P与PIC18F85K90在机器人控制与工业监测中的应用

iOS自动化测试：基于facebook-wda与weditor的稳定元素定位实战

AI Agent五大设计模式解析与实战优化

AutoRaise终极指南：3分钟掌握macOS鼠标悬停自动激活窗口技巧

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！