AiPaper

论文

登录后可查看剩余解析次数。
标签筛选
Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
发表:2025/10/8
大语言模型强化学习训练大语言模型微调序列策略优化大语言模型推理能力增强
本文提出GRAO统一框架,融合监督微调与强化学习优势,通过多样本生成、组直接对齐损失及成对偏好感知更新,提升模型对齐效率和稳定性。理论和实验证明,GRAO在复杂人类对齐任务中显著优于现有方法。
017
Preference-Based Process Reward Model for Robust Mathematical Reasoning
发表:2025/10/8
偏好驱动过程奖励模型强化学习数学推理基于MCTS的数据构建步骤级监督机制序列策略优化
本文提出基于偏好的过程奖励模型(PPRM),结合蒙特卡洛树搜索构建高质量偏好数据,利用BradleyTerry损失缓解启发式搜索偏见。通过改进组相对策略优化算法,实现稳定高效训练,在数学推理中提高中间步骤准确率23%。
06
Learning from Synthetic Data Improves Multi-hop Reasoning
发表:2025/10/8
大语言模型强化学习训练多跳推理任务合成数据增强大语言模型推理能力增强
本文提出利用纯合成数据进行强化学习微调,以提升大语言模型多跳推理能力。实验证明,即使合成数据包含虚构知识,模型在真实问答基准上的表现依然显著提升,揭示合成数据促进了推理中知识组合这一通用技能的学习。
012
Flexible Feature Distillation for Large Language Models
发表:2025/10/8
大语言模型知识蒸馏特征层蒸馏方法参数免费知识蒸馏框架任务驱动特征选择大语言模型压缩
本文提出FlexKD,一种无参数的任务驱动特征蒸馏方法,通过梯度评分识别教师模型隐藏层中最重要维度,仅蒸馏关键信息子空间,避免了传统线性投影的参数增加和信息扭曲问题,有效提升了学生模型在分类与生成任务中的表现。
08