论文
登录后可查看剩余解析次数。
标签筛选
大语言模型推理能力增强
SPECTRA: Faster Large Language Model Inference with Optimized Internal and External Speculation
发表:2025/1/1
大语言模型推理能力增强无训练加速方法训练无关推理优化内部与外部推测利用
本文提出了SPECTRA,一个新颖框架,通过优化内部和外部推测,加速大型语言模型(LLM)的推理,避免了额外训练和对原始模型的修改。SPECTRA引入两种新技术,各自独立超越现有的最先进方法,二者结合下在多种基准上实现高达4.08倍的加速,超出现有免训练方法的效果,且实现已公开。
02
S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
发表:2025/5/12
序列策略优化强化学习在推理模型中的应用链式思维生成长度扩展大语言模型推理能力增强测试时扩展
本研究提出串行组衰减奖励策略优化(SGRPO),利用强化学习允许推理模型在思维链生成过程中进行“提前退出”,以提升推理效率。SGRPO通过对中间推理步骤的评估,改善了传统强化学习中存在的冗余推理问题,展现出优于现有方法的潜力。
02
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
发表:2025/12/9
大语言模型强化学习训练大语言模型推理能力增强序列策略优化长上下文建模强化学习数学推理
本文研究强化学习(RL)是否真正扩展了语言模型的推理能力,提出一个透明的合成推理框架,分析预训练、中期训练和RL的因果贡献。主要发现包括:RL仅在模型能力边缘时有效提升能力,且仅需1%的预训练种子数据即可实现跨场景迁移,而中期训练显著优于纯RL,并有效降低奖励作弊。
04
Self-Consistency Improves Chain of Thought Reasoning in Language Models
发表:2022/3/22
链式思维推理自一致性解码策略大语言模型推理能力增强复杂推理任务数学推理基准测试
本文提出了一种新的解码策略——自一致性,以改善大语言模型的链式思维推理能力。该方法通过采样多样化的推理路径,选取最一致的答案,显著提升了模型在数学和常识推理任务上的表现,如GSM8K提高17.9%。
02
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
发表:2025/4/19
强化学习验证奖励大语言模型推理能力增强数学推理基准测试编程任务推理能力RL算法对比分析
本研究探讨了强化学习与可验证奖励(RLVR)在提升大型语言模型(LLMs)推理能力中的有效性。尽管RLVR在数学和编程任务中展现了良好表现,研究发现当前的训练设置未能激发新的推理模式,基础模型在更大k值下表现更佳,强调了改进RL方法的必要性。
01
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
大语言模型强化学习训练长上下文建模大语言模型推理能力增强稀疏注意力机制
本文介绍了DeepSeekV3.2模型,平衡高计算效率与推理能力,核心技术包括:1. 深度稀疏注意力机制,降低计算复杂性;2. 可扩展强化学习框架,性能媲美GPT5;3. 大规模智能体任务合成流水线,提升泛化能力和指令遵循的鲁棒性。
072
ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute
发表:2025/8/30
大语言模型推理能力增强强化学习数学推理
本文提出了‘ParaThinker’,一种新型的大语言模型(LLM)扩展范式,利用原生思维并行技术来克服测试时计算的‘隧道视野’瓶颈。通过并行生成多样化推理路径并综合结果,显著提升了推理能力,且在多个基准测试中显示出相较于传统顺序方法的显著准确性提升。
04
Inference Performance of Large Language Models on a 64-core RISC-V CPU with Silicon-Enabled Vectors
大语言模型推理能力增强基于RISC-V的硬件优化硅启用向量计算能源效率计算架构矩阵乘法性能基准
本研究探讨了在64核RISCV CPU上配备硅增强向量的LLM推理性能。通过对Llama2模型的基准测试,结果表明SEV在吞吐量和能量效率上显著超过传统架构,尤其在小模型上效果更佳。研究提供了针对未来异构计算平台部署LLMs的实用见解。
07
CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG
发表:2025/4/11
大语言模型微调检索增强推理大语言模型安全机制可信度感知注意力修改大语言模型推理能力增强
本文提出可信度感知注意力修改(CrAM)方法,通过调整大型语言模型关键注意力头的权重,减少低可信度文档对检索增强生成(RAG)的负面影响。实验证明,CrAM在多种模型和数据集上显著提升了对错误信息的抵抗力,优于监督微调。
03
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
发表:2025/9/30
大语言模型强化学习训练大语言模型推理能力增强序列策略优化大语言模型记忆机制测试时扩展技术
本文提出ReasoningBank记忆框架,通过提炼智能体自我评估的成功与失败经验,形成可泛化推理策略,并在测试时检索相关记忆辅助决策,支持持续自我演化。结合记忆感知测试时扩展MaTTS,显著提升智能体在连续任务中的学习效率和表现。
06
Self-Improving LLM Agents at Test-Time
发表:2025/10/8
大语言模型微调大语言模型强化学习训练大语言模型推理能力增强大语言模型置信度校准自我增强大语言模型
本文提出测试时自改进方法,通过不确定性检测、自我数据增强和测试时微调三步,实现大型语言模型智能体即时强化。TTSI显著提升准确率并大幅降低训练样本需求,TTD进一步优化复杂情境表现,展现了低成本高效自演化智能体新范式。
011
Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations
发表:2025/10/8
大语言模型微调序列策略优化大语言模型强化学习训练长时序一致性建模大语言模型推理能力增强
本文提出事后监督学习(HSL)框架,通过辅助LLM重新标记智能体轨迹中的实际达成目标,结合不相关动作掩蔽和样本重加权,提升长时程部分可观环境中LLM智能体的微调效果。实验在ALFWorld和WebShop验证了HSL的高数据效率和兼容性,显著优于传统方法。
04
RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward
发表:2025/10/8
大语言模型强化学习训练序列策略优化无训练加速方法大语言模型推理能力增强
RLPIR提出一种无需验证器的强化学习框架,通过前缀推演和组内一致性奖励减少训练时长和推理序列长度。在数学与通用基准测试中,达到与依赖真实标注RLVR相当的效果,训练效率提升近7倍,显著优化大型语言模型推理性能。
01
Learning to Focus: Causal Attention Distillation via Gradient-Guided
Token Pruning
发表:2025/6/9
因果注意力机制注意力剪枝基于梯度的知识蒸馏大语言模型推理能力增强长上下文建模
本文提出LeaF框架,通过梯度引导的词元剪枝识别并移除训练数据中的混淆词元,消除虚假关联,促使学生模型聚焦于关键上下文,实现因果注意力蒸馏。该方法显著提升了数学推理、代码生成和多跳问答的准确性,增强模型推理的可靠性和可解释性。
06
PEARL: Towards Permutation-Resilient LLMs
发表:2025/2/20
大语言模型强化学习训练大语言模型推理能力增强序列策略优化无训练加速方法
本文提出排列弹性学习(PEARL),通过分布鲁棒优化和排列提议网络结合最优传输算法,针对最坏排列情况提升大型语言模型的鲁棒性。PEARL有效抵御排列攻击,并在多样上下文场景下显著增强模型性能和泛化能力。
06
EdgeShard: Efficient LLM Inference via Collaborative Edge Computing
发表:2024/5/23
大语言模型推理能力增强无训练加速方法边缘计算协同推理模型分片部署动态规划优化算法
EdgeShard提出协作边缘计算框架,将大语言模型分片并部署于分布式异构设备,通过动态规划优化设备选择和模型切分,实现推理延迟降低50%、吞吐量提升两倍,有效缓解云端依赖带来的延迟、带宽和隐私问题。
06
MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Static Quantization
发表:2025/10/25
多模态大语言模型静态量化方法后训练量化框架视觉与文本模态量化大语言模型推理能力增强
本文提出MQuant,一种针对多模态大型语言模型的训练后静态量化框架。通过模态特定静态量化、注意力不变灵活切换和旋转幅度抑制,显著降低推理延迟和异常值影响,提高推理效率,支持多主流模型部署。
04
EcoServe: Enabling Cost-effective LLM Serving with Proactive Intra- and
Inter-Instance Orchestration
发表:2025/4/25
大语言模型推理能力增强基于大语言模型的推理调度多实例协同调度部分解耦推理策略大规模GPU集群服务
EcoServe提出部分解耦策略,结合时间解耦和滚动激活,主动协调实例内外调度,显著减少预填充与解码干扰,提升吞吐和降低延迟。通过自适应调度和分裂扩容,实现经济高效的LLM集群服务,实测在NVIDIA L20 GPU集群上性能显著优于现有方案。
06
dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive
Caching
发表:2025/5/17
Diffusion模型微调扩散模型高效推理大语言模型推理能力增强无训练加速方法自回归扩散模型
本文针对扩散大语言模型(dLLMs)推理延迟高问题,提出未经训练的自适应缓存框架dLLMCache。其结合长间隔提示缓存与基于特征相似性的部分响应更新,实现了对中间计算的高效重用,在LLaDA 8B和Dream 7B上最高加速9.1倍,同时保证输出质量。
05
Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory
发表:2025/4/11
大语言模型推理能力增强测试时学习持久自适应记忆机制无监督推理增强
本文提出动态备忘录(DC),赋予黑盒大模型持久且可演进记忆,实现测试时学习。DC在推理过程中储存并复用策略和代码,显著提升多任务性能,无需真实标签或人为反馈,弥合孤立推理与经验积累的鸿沟。
014