具身智能与机器人学习资源全景图:从SLAM到大模型再到VLA/VLN的技术演进

📅 2026/6/16 12:51:54
具身智能与机器人学习资源全景图:从SLAM到大模型再到VLA/VLN的技术演进
1. 引言随着人工智能技术的飞速发展具身智能Embodied AI正在成为连接数字世界与物理世界的关键桥梁。与传统的纯软件AI系统不同具身智能强调智能体必须拥有物理形态能够通过传感器感知环境、通过执行器与环境交互并在这种持续的感知-行动循环中学习和适应。这一研究范式的兴起标志着人工智能从理解世界向改变世界的重要转变也被认为是通向通用人工智能AGI的必经之路。本文基于GitHub上多个优质开源资源库的深度分析系统梳理了从同步定位与建图SLAM、大语言模型LLM到视觉语言动作模型VLA/VLN的完整技术演进路径为研究者和工程师提供一份全面的学习路线图。这一技术栈遵循感知定位、语义理解、决策行动的逻辑递进关系SLAM提供环境感知与定位能力使机器人能够构建环境地图并确定自身位置LLM/VLM提供语义理解与推理能力使机器人能够理解自然语言指令和视觉场景VLA/VLN则实现从感知到行动的端到端闭环将高层语义理解转化为具体的运动控制指令。2. 深度学习与强化学习基础深度学习和强化学习是支撑整个具身智能技术栈的理论基石。深度学习提供了从原始感知数据中提取高层语义特征的能力使机器人能够看懂周围的世界强化学习则提供了通过试错学习最优行为策略的框架使机器人能够在复杂环境中做出正确的决策。这两大技术的深度融合催生了深度强化学习这一强大的学习范式成为当前机器人控制和决策的主流方法。2.1awesome-deep-learning深度学习领域的综合资源库作为所有AI技术的基础支撑涵盖CNN、RNN、Transformer等核心架构的论文、教程、代码和工具。该仓库系统整理了深度学习从感知机到现代大模型的完整发展历程包括卷积神经网络在图像识别中的突破性应用、循环神经网络在序列建模中的广泛使用、以及Transformer架构引发的自然语言处理革命。对于具身智能研究者而言深度学习是理解视觉感知、语言理解、多模态融合等核心技术的必备基础该仓库与awesome-rl共同构成了理解现代AI系统的理论基础是入门深度学习和进阶具身智能的必备参考资源。2.2awesome-rl强化学习领域的经典资源库虽然目前已停止维护但仍是入门RL的重要参考。强化学习的核心思想是让智能体通过与环境的交互来学习最优策略这与具身智能的本质需求高度契合。仓库系统整理了理论基础包括David Silver在DeepMind开设的强化学习课程被誉为RL入门的黄金标准、UC Berkeley CS294深度强化学习课程、以及Sutton和Barto合著的经典教材《Reinforcement Learning: An Introduction》。在应用领域方面仓库涵盖了游戏AI如AlphaGo、Atari游戏、机器人控制如机械臂操作、四足行走、自动驾驶等多个方向。代码实现部分收录了OpenAI Baselines、Stable Baselines3、PyTorch Deep RL等主流框架以及Gymnasium、Jumanji等仿真平台是将RL应用于具身智能的基础学习资源。类型资源课程David Silver RL课程、UC Berkeley CS294教材Sutton《Reinforcement Learning》代码OpenAI Baselines、PyTorch Deep RL平台Gymnasium、Jumanji3. SLAM与视觉定位同步定位与建图Simultaneous Localization and MappingSLAM是机器人自主导航的核心技术解决的是机器人在未知环境中同时构建环境地图并确定自身位置的问题。这一技术对于具身智能至关重要因为任何需要在物理世界中移动和操作的智能体都必须首先知道我在哪里以及周围环境是什么样的。SLAM技术经过数十年的发展已经从早期基于滤波器的方法演进到现代基于图优化和深度学习的方法在精度、鲁棒性和实时性方面都取得了显著进步。3.1awesome-visual-slam这是视觉SLAM领域最全面的开源资源汇总之一系统整理了视觉SLAM和视觉里程计相关的开源项目、依赖库、数据集和开发工具。视觉SLAM相比激光雷达SLAM具有成本低、信息丰富的优势是消费级机器人和AR/VR设备的首选方案。仓库梳理了核心依赖库基础视觉处理使用OpenCV进行图像预处理和特征提取Eigen和Sophus用于高效的矩阵运算和李群李代数表示图优化使用g2o、GTSAM、Ceres-Solver等后端优化库地图表示使用OctoMap进行三维占据栅格建图、Grid Map用于二维导航地图。在经典算法方面收录了ORB-SLAM系列基于特征点的方法以其出色的鲁棒性和精度成为视觉SLAM的标杆、LSD-SLAM直接法的代表能够构建大规模半稠密地图、DSO直接稀疏里程计在光照变化场景下表现优异、SVO半直接法专为高速无人机设计等单目SLAM代表作以及DVO-SLAMRGBD稠密里程计和KimeraMIT开发的实时度量-语义SLAM系统等是SLAM开发者的必备参考。类型算法特点单目ORB-SLAM特征点法鲁棒性强单目LSD-SLAM直接法大规模稠密单目DSO直接稀疏里程计单目SVO半直接法高速RGBDDVO-SLAM稠密视觉里程计语义Kimera实时度量-语义定位3.2awesome-slam-datasets这是SLAM数据集领域最权威的资源汇总提供了一个可交互的Google Spreadsheet完整版本方便研究者按需筛选和比较不同数据集的特性。高质量的数据集对于SLAM算法的开发、测试和基准比较至关重要该仓库的价值在于其全面性和系统性的分类方式。仓库按照里程计、建图、场景识别、定位、感知等任务类型对数据集进行分类同时提供传感器配置相机、LiDAR、IMU、GPS、环境特征室内/室外、城市/乡村、动态/静态等多维度筛选条件。收录的数据集涵盖KITTI城市驾驶场景的经典基准包含立体相机、激光雷达和GPS/IMU数据、TUM RGB-D室内手持RGB-D相机数据集提供精确的运动捕捉真值、EuRoC MAV无人机室内飞行数据集包含立体相机和IMU、Oxford RobotCar覆盖一年四季的城市长期变化数据、nuScenes和Waymo Open大规模自动驾驶数据集包含3D目标检测标注、4Seasons专注于多季节长期定位挑战等业界标准基准并集成了evo等轨迹评估工具是SLAM算法开发者选择测试数据集的必备参考。数据集传感器场景特点KITTICameraLiDARGPS城市驾驶经典基准TUM RGB-DRGB-D室内手持设备EuRoC MAVStereoIMU室内飞行无人机Oxford RobotCar多传感器城市长期变化nuScenes全传感器城市驾驶3D检测Waymo OpenCameraLiDAR城市驾驶大规模4Seasons多传感器多季节长期定位3.3Awesome-camera-relocalization-in-prior-map专注于视觉重定位Visual Relocalization研究的资源库系统梳理了在已有先验地图中估计相机位姿的各类方法。视觉重定位是SLAM系统中的关键组件用于解决机器人绑架问题即机器人在未知初始位置时如何定位和回环检测问题。与SLAM的增量式定位不同重定位需要在没有连续观测的情况下仅凭单张或少量图像确定相机在已知地图中的精确位姿。仓库按照地图表示类型进行系统分类图像数据库地图方法包括基于图像检索的方法如NetVLAD利用深度学习提取全局描述子、DBoW2使用词袋模型进行快速匹配和端到端位姿回归方法如PoseNet直接从图像预测6DoF位姿、MapNet引入时序约束提升精度点云地图方法包括传统的2D-3D特征匹配和基于深度学习的场景坐标回归如DSAC系列、ACE等稠密地图方法涵盖Mesh、Surfel、SDF等表示形式如iMAP、NICE-SLAM等神经隐式表示方法此外还有基于NeRF神经辐射场的新兴定位方法。这种分类方式清晰展示了视觉定位技术从传统几何方法到深度学习方法的演进路径对于自动驾驶、AR/VR等应用场景的研究者具有重要参考价值。地图类型方法代表工作图像数据库Image RetrievalNetVLAD, DBoW2图像数据库Pose RegressionPoseNet, MapNet点云地图特征匹配2D-3D对应点云地图场景坐标回归DSAC, ACE稠密地图Mesh/Surfel/SDFiMAP, NICE-SLAMNeRF地图神经辐射场NeRF-Loc3.4awesome-lidar-place-recognitionLiDAR场景识别领域的专业资源库系统整理了基于激光雷达的场景识别研究。与视觉场景识别相比LiDAR场景识别具有对光照变化不敏感、几何信息精确等优势在自动驾驶和大规模户外机器人导航中应用广泛。仓库将方法分为手工特征和学习方法两大类手工特征方法包括SOLiD专为视场角受限场景设计、BTC结合二进制描述子和三角形几何约束、NDTMC基于正态分布变换的地图编码等学习方法包括BEVPlace利用鸟瞰图特征进行场景匹配、RangePlace基于距离图像的Transformer架构等最新算法。该仓库是从事机器人SLAM回环检测和自动驾驶场景识别研究的重要资源。类型2024年代表工作特点HandcraftSOLiDFOV受限场景HandcraftBTC二进制三角形描述子HandcraftNDTMCNDT地图编码LearningBEVPlaceBEV特征学习LearningRangePlace距离图像Transformer4. 大语言模型LLM大语言模型的崛起为具身智能带来了革命性的变化。传统机器人系统依赖于预定义的规则和有限的语义理解能力而LLM的引入使机器人能够理解复杂的自然语言指令、进行常识推理、生成执行计划甚至与人类进行自然对话。这种能力的提升使得机器人从执行预设程序的机器向理解意图并自主规划的智能体转变成为可能。2023年以来将LLM应用于机器人控制的研究呈现爆发式增长SayCan、Code as Policies、RT-2等工作展示了LLM在机器人任务规划和执行中的巨大潜力。4.1Awesome-LLM这是GitHub上最具影响力的大语言模型资源库之一拥有超过20k Star以LLM have taken the Whole World by storm为开篇系统梳理了从2017年Transformer架构诞生到2025年DeepSeek-R1的完整LLM发展历程。仓库以里程碑论文时间线的形式清晰展示了GPT系列、BERT、LLaMA、Mistral、Mamba等关键模型的演进脉络。从2017年Google提出的Attention Is All You Need奠定Transformer基础到2018年BERT开创预训练-微调范式再到2020年GPT-3展示大规模语言模型的涌现能力2022年Chain-of-Thought Prompting和InstructGPT引入推理链和人类反馈强化学习直至2024-2025年DeepSeek-V3和DeepSeek-R1在开源领域取得突破性进展。仓库内容涵盖里程碑论文、开源LLM模型、训练数据、评估基准如HELM、BIG-bench、MMLU、训练框架如Megatron-LM、DeepSpeed、FSDP、推理优化如vLLM、TensorRT-LLM、应用案例和教程课程等完整生态是追踪LLM前沿进展的首选资源。时间关键词机构论文2017-06TransformersGoogleAttention Is All You Need2018-10BERTGooglePre-training of Deep Bidirectional Transformers2020-05GPT-3OpenAILanguage models are few-shot learners2022-01CoTGoogleChain-of-Thought Prompting2022-03InstructGPTOpenAITraining with human feedback2023-02LLaMAMetaOpen and Efficient Foundation Models2023-12MambaCMULinear-Time Sequence Modeling2024-12DeepSeek-V3DeepSeekFirst open-sourced GPT-4o level model2025-01DeepSeek-R1DeepSeekReasoning via Reinforcement Learning4.2Awesome-Chinese-LLM专注于中文大语言模型的资源库由哈尔滨工业大学团队维护以规模较小、可私有化部署、训练成本较低为筛选标准为国内研究者和企业提供从模型选型到部署落地的完整指南。中文LLM的发展对于国内具身智能研究具有重要意义因为机器人与用户的自然语言交互往往需要使用中文。仓库系统整理了适合国内场景使用的中文LLM资源包括底座模型ChatGLM系列、Baichuan系列、Qwen系列、Yi系列等主流开源模型这些模型在中文理解和生成方面经过专门优化以及各垂直领域的微调模型医疗领域有华佗GPT、本草等专业医学问答模型可用于医疗机器人的知识问答法律领域有智海-录问、LaWGPT等法律咨询模型金融领域有轩辕、FinGPT等金融分析模型教育领域有桃李、EduChat等教育辅助模型。此外仓库还收录了BELLE、Firefly、COIG等高质量中文训练数据集以及LLaMA-Factory、ChatGLM-Tuning等实用的微调训练教程是中文LLM研究和应用的一站式参考资源。分类代表模型/资源底座模型ChatGLM、Baichuan、Qwen、Yi医疗领域华佗GPT、本草法律领域智海-录问、LaWGPT金融领域轩辕、FinGPT教育领域桃李、EduChat数据集BELLE、Firefly、COIG训练教程LLaMA-Factory、ChatGLM-Tuning5. 具身智能与VLA/VLN视觉-语言-动作Vision-Language-ActionVLA模型和视觉-语言-导航Vision-Language-NavigationVLN模型代表了具身智能领域的最新研究前沿。这类模型的核心目标是实现从多模态感知输入到机器人动作输出的端到端映射被认为是机器人领域的GPT时刻。与传统的模块化机器人系统不同VLA模型将感知、理解、规划、控制统一在一个神经网络中通过大规模数据训练获得泛化能力能够执行开放词汇的机器人任务。2024-2025年间Physical Intelligence的Pi系列、Google的RT-2/Gemini Robotics、Nvidia的GR00T等模型的发布标志着VLA技术正在从学术研究走向产业应用。5.1awesome-embodied-vla-va-vln该仓库是当前最全面的视觉-语言-动作VLA模型资源集合由Jony Zhang和Sage两位研究者共同维护涵盖了从2024年到2026年的最新研究成果。仓库的核心价值在于其对VLA、VLN、VA三大类模型的系统性整理VLAVision-Language-Action模型将视觉理解与语言指令转化为机器人动作是当前最受关注的研究方向VLNVision-Language-Navigation模型专注于视觉感知与语言导航指令的路径规划在室内导航和服务机器人领域有广泛应用VAVision-Action模型则实现从视觉输入到动作输出的直接映射适用于不需要语言交互的场景。仓库收录了Science Robotics、IJRR等顶级期刊的综述论文以及Physical Intelligence的Pi0系列展示了扩散策略在灵巧操作中的强大能力、Nvidia GR00T N1面向人形机器人的通用基础模型、Google Gemini Robotics将Gemini多模态能力扩展到机器人控制等业界领先模型同时追踪动作Token化、世界模型、扩散策略、强化学习后训练等关键技术方向的最新进展。5.2Awesome-Embodied-Robotics-and-Agent由同济大学Haonan Zhang团队维护的具身机器人与智能体资源库专注于将视觉语言模型VLM和大语言模型LLM应用于机器人领域的前沿研究。该仓库的独特价值在于其系统性的分类体系和配套的综述论文支撑团队于2025年10月在arXiv发布了《A Survey on Efficient Vision-Language-Action Models》综述论文对VLA模型的效率优化进行了全面分析。仓库内容涵盖Survey综述、VLA模型如Pi0系列展示的扩散策略、OpenVLA的开源实现、RT-2的视觉-语言-动作统一架构、自进化智能体能够从经验中持续学习改进、LLM与强化学习/世界模型的结合如UniSim统一仿真器、Genie生成式交互环境、规划与操作如SayCan将LLM用于任务规划、Code as Policies将代码作为策略表示、多智能体协调如MetaGPT多角色协作框架、CAMEL角色扮演通信、视觉语言导航、3D场景理解、评测基准等多个研究方向。5.3Awesome-Embodied-AI-Job这是一个由Lumina社区维护的具身智能领域招聘信息聚合平台每日更新为求职者提供从实习到全职、从学术界到工业界的全方位职业发展参考。具身智能作为一个快速发展的新兴领域人才需求旺盛但信息分散该仓库的价值在于将分散的招聘信息集中整理帮助求职者快速了解行业动态和岗位需求。招聘信息涵盖头部企业智元机器人、字节跳动Seed团队、小米机器人、理想汽车等岗位方向包括VLA算法研发、运动控制、灵巧手设计、科技巨头大疆创新、Physical Intelligence等专注感知算法和具身智能基础研究、学术机构清华大学、北京大学、浙江大学、香港科技大学等提供博士/博后/研究实习机会、研究院所智源研究院、中科院自动化所等涉及数据采集和强化学习研究以及初创公司生数科技、松延动力、自变量机器人等招聘全栈工程师。5.4haoranD/Awesome-Embodied-AI…详情请参照古月居