图片制作pdf_成都工装设计公司_百度一下打开网页_营销型企业网站有哪些平台

时间:2025/7/11 11:39:10来源：https://blog.csdn.net/qq_36603091/article/details/146170782 浏览次数:2次

R1-Searcher，这是一种使用 RL 增强 LLM 的 RAG 能力的新框架，通过两阶段强化学习（RL）实现LLM在推理过程中自主调用外部检索系统，突破模型固有知识限制。
为了通过探索外部检索环境来激励大语言模型的搜索能力，设计了一种基于结果的两阶段强化学习方法，通过定制的奖励设计，使模型能够在推理过程中自由探索如何调用外部检索系统以获取相关知识。具体来说，在第一阶段，我们采用检索奖励来激励模型进行检索操作，而不考虑最终答案的准确性。这样，大语言模型可以快速学习正确的检索调用格式。在第二阶段，我们进一步引入答案奖励，以鼓励模型学习有效地利用外部检索系统正确解决问题。我们的方法仅依赖于基于结果的强化学习，使模型能够通过探索和学习自主学习，而无需任何知识蒸馏或使用有监督微调（SFT）进行冷启动。为了支持大语言模型与外部检索环境在训练过程中的探索，我们进一步提出了一种基于 Reinforce++的改进强化学习训练方法，该方法具有基于检索增强生成的展开和基于检索掩码的损失计算。

2. 方法框架

在这里插入图片描述

2.1 两阶段强化学习设计

第一阶段（检索激励）：
- 目标：训练模型主动发起检索请求。
- 奖励机制：检索奖励（+0.5/次） + 格式奖励（0.5）。
  $R_{retrieval} = \begin{cases} 0.5, & \text{if } n \geq 1 \\ 0, & \text{if } n = 0 \end{cases}$

关键字：图片制作pdf_成都工装设计公司_百度一下打开网页_营销型企业网站有哪些平台

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：