实时 3D 场景重建新突破:LingBot-Map 前馈式模型,万帧视频秒变点云

📅 2026/7/3 12:36:14
实时 3D 场景重建新突破:LingBot-Map 前馈式模型,万帧视频秒变点云
一个前馈式 3D 基础模型从流式数据实时重建场景——20 FPS 推理速度10000 帧稳定输出不依赖迭代优化。这个项目解决什么问题传统 3D 场景重建需要先拍完所有照片或视频然后用 COLMAP/NeRF 做离线优化——等几个小时甚至几天才能看到结果。LingBot-Map 换了一种思路前馈式feed-forward看到一帧重建一帧不需要回头优化。20 FPS 的推理速度让它可以处理超过 10000 帧的长视频序列这在之前的前馈式模型里是做不到的。核心亮点Geometric Context TransformerGCTLingBot-Map 的核心架构把三种能力统一到一个框架里Anchor Context——锚点上下文建立全局坐标基准Pose-Reference Window——姿态参考窗口用相邻帧约束局部几何Trajectory Memory——轨迹记忆长程漂移校正Paged KV Cache Attention借鉴了 LLM 推理的分页缓存思想让模型在 10000 帧的长序列上保持稳定推理不会因为序列过长而崩溃。全流式推理不需要 COLMAP 做预处理不需要全局 BA 优化模型看到每帧就输出该帧的深度和姿态。518×378 分辨率下 ~20 FPS。快速上手conda create-nlingbot-mappython3.10-yconda activate lingbot-map pipinstalltorch2.8.0torchvision0.23.0 --index-url https://download.pytorch.org/whl/cu128 pipinstall-e.pipinstallflashinfer-python# 下载模型HuggingFacepython demo.py--model_pathlingbot-map-long.pt\--image_folderexample/courthouse--mask_sky# 浏览器打开 http://localhost:8080 查看 3D 点云我的评价LingBot-Map 在学术上确实有突破——前馈式流式 3D 重建做到 20 FPS 和 10000 帧稳定输出。对比 DUSt3R 和 MASt3R 等同类工作它在长序列上的表现明显更好。但离实际落地还有距离。安装依赖链复杂PyTorch 2.8.0 FlashInfer KaolinGPU 需求 24GB VRAM而且目前只出了 demo 和论文离开箱即用还差一个完整的应用层。如果你在做 3D 视觉研究这个项目值得关注如果你只是想拍个视频生成 3D 模型建议再等等后续的封装版本。