AiPaper

论文

登录后可查看剩余解析次数。
标签筛选
无训练加速方法
Training LLM Agents to Empower Humans
发表:2025/10/8
大语言模型微调基于大语言模型的动作规划无训练加速方法强化学习保持先验能力机制
本文提出一种基于最大化人类赋能的LLM微调方法,仅依赖离线文本数据,无需额外人类反馈,实现智能体更有效辅助人类。用户研究及编码环境评测显示,该方法显著提升用户接受度和编码任务成功率,缓解智能体过度独立完成任务的问题。
012
RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward
发表:2025/10/8
大语言模型强化学习训练序列策略优化无训练加速方法大语言模型推理能力增强
RLPIR提出一种无需验证器的强化学习框架,通过前缀推演和组内一致性奖励减少训练时长和推理序列长度。在数学与通用基准测试中,达到与依赖真实标注RLVR相当的效果,训练效率提升近7倍,显著优化大型语言模型推理性能。
01
JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR
发表:2025/10/8
大语言模型强化学习训练无训练加速方法强化学习数学推理序列策略优化
JURYRL提出一种无标签可验证奖励强化学习框架,通过模型投票生成答案候选,由Lean定理证明器验证并决定奖励,结合ResZero机制处理不可验证情况,避免虚假共识,提升训练稳定性和推理性能,在数学推理和代码生成等任务上优于无标签基线,媲美甚至超越监督训练。
03
PEARL: Towards Permutation-Resilient LLMs
发表:2025/2/20
大语言模型强化学习训练大语言模型推理能力增强序列策略优化无训练加速方法
本文提出排列弹性学习(PEARL),通过分布鲁棒优化和排列提议网络结合最优传输算法,针对最坏排列情况提升大型语言模型的鲁棒性。PEARL有效抵御排列攻击,并在多样上下文场景下显著增强模型性能和泛化能力。
06
EdgeShard: Efficient LLM Inference via Collaborative Edge Computing
发表:2024/5/23
大语言模型推理能力增强无训练加速方法边缘计算协同推理模型分片部署动态规划优化算法
EdgeShard提出协作边缘计算框架,将大语言模型分片并部署于分布式异构设备,通过动态规划优化设备选择和模型切分,实现推理延迟降低50%、吞吐量提升两倍,有效缓解云端依赖带来的延迟、带宽和隐私问题。
04
Learning to Reason without External Rewards
发表:2025/5/26
大语言模型强化学习训练序列策略优化无训练加速方法强化学习数学推理
本文提出InTuIToR,一种基于模型自我确信度的无外部奖励强化学习方法,实现大型语言模型的无监督复杂推理训练。利用组相对策略优化替代传统奖励函数,InTuIToR在数学和代码生成任务中展现优异泛化能力,免除对标注数据依赖。
03
dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching
发表:2025/5/17
Diffusion模型微调扩散模型高效推理大语言模型推理能力增强无训练加速方法自回归扩散模型
本文针对扩散大语言模型(dLLMs)推理延迟高问题,提出未经训练的自适应缓存框架dLLMCache。其结合长间隔提示缓存与基于特征相似性的部分响应更新,实现了对中间计算的高效重用,在LLaDA 8B和Dream 7B上最高加速9.1倍,同时保证输出质量。
04
OneFlowSeq: Achieving One-Step Generation for Diffusion Language Models via Lightweight Distillation
发表:2025/10/8
Diffusion 模型微调自回归扩散模型大语言模型微调序列策略优化无训练加速方法
OneFlowSeq提出一种轻量蒸馏框架,将多步扩散教师模型精炼为单步生成器,利用MeanFlow监督和Jacobianvector乘积信号提高指导质量。显著提升生成速度和性能,参数量缩减1600倍,实验证明在多任务上超越传统方法。
016