首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

大语言模型强化学习训练

HybridFlow: A Flexible and Efficient RLHF Framework

发表：2024/9/28

大语言模型强化学习训练混合控制器强化学习框架人类反馈强化学习数据流计算模型分布式计算优化

HybridFlow提出了一种结合单控制器与多控制器的混合框架，以解决现有基于人类反馈的强化学习(RLHF)系统中效率低下和灵活性不足的问题。通过层次化API解耦计算与数据依赖并设计3DHybridEngine，该框架在训练与生成阶段实现模型权重的零冗余重分区。实验结果显示，HybridFlow的吞吐量提升了1.53至20.57倍，显著优于现有系统。

A-LAMP: Agentic LLM-Based Framework for Automated MDP Modeling and Policy Generation

发表：2025/12/12

大语言模型强化学习训练马尔可夫决策过程建模自动化政策生成可验证阶段化建模高级强化学习应用

本研究提出了ALAMP框架，旨在自动化从自然语言任务描述到马尔可夫决策过程（MDP）建模和策略生成的流程。通过将建模、编码和训练分解为可验证的阶段，ALAMP显著提高了策略生成能力，超越了传统大型语言模型的表现，且其轻量级变体也能达到较大模型的性能。

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

发表：2025/6/2

大语言模型强化学习训练负强化学习机制数学推理数据集正负样本强化学习推理能力提升策略

本文探讨了具有可验证奖励的强化学习（RLVR）的机制，将学习信号分解为正样本强化（PSR）和负样本强化（NSR）。研究发现，仅通过负样本训练模型，显著提升了多样性和推理能力，超越了传统的PPO和GRPO算法。基于此，提出了WeightedREINFORCE算法，有效提升数学推理任务的表现。

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

发表：2025/12/9

大语言模型强化学习训练大语言模型推理能力增强序列策略优化长上下文建模强化学习数学推理

本文研究强化学习（RL）是否真正扩展了语言模型的推理能力，提出一个透明的合成推理框架，分析预训练、中期训练和RL的因果贡献。主要发现包括：RL仅在模型能力边缘时有效提升能力，且仅需1%的预训练种子数据即可实现跨场景迁移，而中期训练显著优于纯RL，并有效降低奖励作弊。

Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

发表：2025/10/9

大语言模型强化学习训练混合奖励优化数学推理基准测试基于奖励模型的学习稀疏奖励问题

本文提出的混合强化学习框架HERO结合了可验证奖励和奖励模型的优势，以解决稀疏奖励信号在大规模语言模型推理任务中的局限性。HERO采用分层归一化和方差感知加权方法，显著提升了模型在数学推理基准测试中的表现，证明了混合奖励设计能够保留稳定性与细致性。

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

发表：2025/10/21

大语言模型强化学习训练平衡策略优化自适应剪辑机制离线策略优化高效样本重放

本文介绍了一种新方法BAPO，通过自适应裁剪的平衡策略优化，旨在稳定大语言模型的离策略强化学习。研究揭示了优化不平衡和固定裁剪机制导致的效率下降问题，并提出动态调整裁剪界限的策略，有效改善样本使用效率和训练稳定性。

HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation

发表：2025/10/8

大语言模型强化学习训练代理检索增强生成层次化过程奖励知识驱动的过程奖励检索决策优化

HiPRAG提出了一种新颖的分层过程奖励方法，解决了智能体检索增强生成中常见的过度搜索和欠搜索问题。通过将推理轨迹分解为可解析步骤，该方法实时评估每个搜索决策的必要性并提供细粒度奖励，显著提高了搜索效率和准确率。实验表明，HiPRAG在多个QA基准上超越基线模型，展示了优化推理过程的重要性。

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

大语言模型强化学习训练长上下文建模大语言模型推理能力增强稀疏注意力机制

本文介绍了DeepSeekV3.2模型，平衡高计算效率与推理能力，核心技术包括：1. 深度稀疏注意力机制，降低计算复杂性；2. 可扩展强化学习框架，性能媲美GPT5；3. 大规模智能体任务合成流水线，提升泛化能力和指令遵循的鲁棒性。

Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM

发表：2021/4/9

大语言模型强化学习训练大语言模型微调基于 transformer 的高效前向预测GPU集群训练管道并行训练

本文提出了一种新的交错流水线并行调度，结合张量、流水线和数据并行方法，有效提高了大规模语言模型在GPU集群上的训练效率。在3072个GPU上可达到502 petaFLOP/s的训练速度，吞吐量提高超过10%。

$π^{*}_{0.6}$: a VLA That Learns From Experience

发表：2025/11/19

视觉-语言-动作模型大语言模型强化学习训练基于经验的强化学习机器人数据收集与优化优势条件化策略

研究视觉语言行动(VLA)模型如何通过真实世界部署提升性能。提出RECAP方法，通过优势条件化整合异构数据，以强化学习训练VLA模型。预训练的通用模型

π^{}{0.6}

经过机器人收集数据后，能够在多项复杂任务中显著提升表现，包括折叠衣物和制作拿铁等。

FlowRL: Matching Reward Distributions for LLM Reasoning

发表：2025/9/19

大语言模型强化学习训练流平衡优化方法奖励分布匹配基于KL散度的策略优化数学推理任务

本文提出了一种新方法FlowRL，通过流平衡匹配完整的奖励分布，以替代传统的奖励最大化策略。与传统方法不同，FlowRL促进多样化探索和更具泛化性的推理轨迹。在数学和代码推理任务的实验中，FlowRL分别比GRPO和PPO提高了10%和5.1%的性能，显示了奖励分布匹配在LLM强化学习中的关键作用。

USB-Rec: An Effective Framework for Improving Conversational Recommendation Capability of Large Language Model

发表：2025/9/21

大语言模型强化学习训练对话式推荐系统基于大语言模型的推荐系统用户模拟器基础框架偏好优化数据集构建

本文提出USBRec框架，旨在提升大语言模型在对话式推荐系统中的能力。通过基于用户模拟器的偏好优化数据集构建和自增强策略，可以有效增强模型在训练和推理阶段的表现。实验证明，该方法在多种数据集上均优于以往的最先进技术。

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

发表：2025/9/12

视觉语言动作模型强化学习数学推理大语言模型强化学习训练多环境渲染高效强化学习框架

本文提出了框架，通过强化学习提升视觉语言动作(VLA)模型的训练效率，解决了大规模人类操作数据的稀缺和泛化能力有限的问题。实验表明，该框架在模型上达到了最先进的性能，降低了对标注数据的依赖。

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

发表：2025/5/18

大语言模型强化学习训练群体相对策略优化判别约束优化框架长推理模型数学推理能力增强

本文提出了一种新的判别约束优化（DisCO）框架，以增强大型推理模型（LRMs）的性能。相较于现有的群组相对策略优化（GRPO），DisCO通过引入判别目标和非裁剪评分函数，解决了难度偏差和熵不稳定的问题，从而实现长期稳定的训练动态，提升了模型的数学推理能力。

Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs

发表：2025/10/29

大语言模型强化学习训练序列策略优化大语言模型微调

本文提出LearntoAsk框架，通过利用离线专家日志中的观察未来，重塑离线策略学习，实现无模拟器主动式大型语言模型训练。该方法精准推断逐轮奖励，有效分解长时程任务，并辅以自动化评分校准，在医疗领域展现优异性能，成功部署在线服务。

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

发表：2025/9/30

大语言模型强化学习训练大语言模型推理能力增强序列策略优化大语言模型记忆机制测试时扩展技术

本文提出ReasoningBank记忆框架，通过提炼智能体自我评估的成功与失败经验，形成可泛化推理策略，并在测试时检索相关记忆辅助决策，支持持续自我演化。结合记忆感知测试时扩展MaTTS，显著提升智能体在连续任务中的学习效率和表现。

MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation

发表：2025/10/28

生成式推荐系统大语言模型微调大语言模型强化学习训练序列策略优化残差量化变分自编码器

提出MiniOneRec开源框架，实现生成式推荐端到端流程，利用残差量化VAE构建SID，针对0.5B7B参数Qwen模型进行后训练。验证了生成式推荐的规模效应及参数效率，通过全流程SID对齐和带约束强化学习显著提升排序精度和推荐多样性。

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents

发表：2023/11/1

大语言模型微调大语言模型强化学习训练基于大语言模型的动作规划对话策略规划自回归强化学习自演练

提出PPDPP，一种可插拔对话策略规划器，通过监督微调与基于自玩模拟的强化学习提升大型语言模型在主动对话中的策略制定能力。该方法不仅增强了策略泛化和适应性，还在多场景主动对话任务中显著优于现有方案。

Self-Improving LLM Agents at Test-Time

发表：2025/10/8

大语言模型微调大语言模型强化学习训练大语言模型推理能力增强大语言模型置信度校准自我增强大语言模型

本文提出测试时自改进方法，通过不确定性检测、自我数据增强和测试时微调三步，实现大型语言模型智能体即时强化。TTSI显著提升准确率并大幅降低训练样本需求，TTD进一步优化复杂情境表现，展现了低成本高效自演化智能体新范式。

Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations

发表：2025/10/8

大语言模型微调序列策略优化大语言模型强化学习训练长时序一致性建模大语言模型推理能力增强

本文提出事后监督学习(HSL)框架，通过辅助LLM重新标记智能体轨迹中的实际达成目标，结合不相关动作掩蔽和样本重加权，提升长时程部分可观环境中LLM智能体的微调效果。实验在ALFWorld和WebShop验证了HSL的高数据效率和兼容性，显著优于传统方法。

1 - 20 / 39

跳转至

© 2025 AiPaper · 友情链接 · 站点地图