论文
登录后可查看剩余解析次数。
标签筛选
大语言模型推理能力增强
Inference Performance of Large Language Models on a 64-core RISC-V CPU with Silicon-Enabled Vectors
大语言模型推理能力增强基于RISC-V的硬件优化硅启用向量计算能源效率计算架构矩阵乘法性能基准
本研究探讨了在64核RISCV CPU上配备硅增强向量的LLM推理性能。通过对Llama2模型的基准测试,结果表明SEV在吞吐量和能量效率上显著超过传统架构,尤其在小模型上效果更佳。研究提供了针对未来异构计算平台部署LLMs的实用见解。
06
CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG
发表:2025/4/11
大语言模型微调检索增强推理大语言模型安全机制可信度感知注意力修改大语言模型推理能力增强
本文提出可信度感知注意力修改(CrAM)方法,通过调整大型语言模型关键注意力头的权重,减少低可信度文档对检索增强生成(RAG)的负面影响。实验证明,CrAM在多种模型和数据集上显著提升了对错误信息的抵抗力,优于监督微调。
03
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
发表:2025/9/30
大语言模型强化学习训练大语言模型推理能力增强序列策略优化大语言模型记忆机制测试时扩展技术
本文提出ReasoningBank记忆框架,通过提炼智能体自我评估的成功与失败经验,形成可泛化推理策略,并在测试时检索相关记忆辅助决策,支持持续自我演化。结合记忆感知测试时扩展MaTTS,显著提升智能体在连续任务中的学习效率和表现。
04
Self-Improving LLM Agents at Test-Time
发表:2025/10/8
大语言模型微调大语言模型强化学习训练大语言模型推理能力增强大语言模型置信度校准自我增强大语言模型
本文提出测试时自改进方法,通过不确定性检测、自我数据增强和测试时微调三步,实现大型语言模型智能体即时强化。TTSI显著提升准确率并大幅降低训练样本需求,TTD进一步优化复杂情境表现,展现了低成本高效自演化智能体新范式。
010
Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations
发表:2025/10/8
大语言模型微调序列策略优化大语言模型强化学习训练长时序一致性建模大语言模型推理能力增强
本文提出事后监督学习(HSL)框架,通过辅助LLM重新标记智能体轨迹中的实际达成目标,结合不相关动作掩蔽和样本重加权,提升长时程部分可观环境中LLM智能体的微调效果。实验在ALFWorld和WebShop验证了HSL的高数据效率和兼容性,显著优于传统方法。
04
RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward
发表:2025/10/8
大语言模型强化学习训练序列策略优化无训练加速方法大语言模型推理能力增强
RLPIR提出一种无需验证器的强化学习框架,通过前缀推演和组内一致性奖励减少训练时长和推理序列长度。在数学与通用基准测试中,达到与依赖真实标注RLVR相当的效果,训练效率提升近7倍,显著优化大型语言模型推理性能。
01
Learning to Focus: Causal Attention Distillation via Gradient-Guided
Token Pruning
发表:2025/6/9
因果注意力机制注意力剪枝基于梯度的知识蒸馏大语言模型推理能力增强长上下文建模
本文提出LeaF框架,通过梯度引导的词元剪枝识别并移除训练数据中的混淆词元,消除虚假关联,促使学生模型聚焦于关键上下文,实现因果注意力蒸馏。该方法显著提升了数学推理、代码生成和多跳问答的准确性,增强模型推理的可靠性和可解释性。
06
PEARL: Towards Permutation-Resilient LLMs
发表:2025/2/20
大语言模型强化学习训练大语言模型推理能力增强序列策略优化无训练加速方法
本文提出排列弹性学习(PEARL),通过分布鲁棒优化和排列提议网络结合最优传输算法,针对最坏排列情况提升大型语言模型的鲁棒性。PEARL有效抵御排列攻击,并在多样上下文场景下显著增强模型性能和泛化能力。
06
EdgeShard: Efficient LLM Inference via Collaborative Edge Computing
发表:2024/5/23
大语言模型推理能力增强无训练加速方法边缘计算协同推理模型分片部署动态规划优化算法
EdgeShard提出协作边缘计算框架,将大语言模型分片并部署于分布式异构设备,通过动态规划优化设备选择和模型切分,实现推理延迟降低50%、吞吐量提升两倍,有效缓解云端依赖带来的延迟、带宽和隐私问题。
04
MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Static Quantization
发表:2025/10/25
多模态大语言模型静态量化方法后训练量化框架视觉与文本模态量化大语言模型推理能力增强
本文提出MQuant,一种针对多模态大型语言模型的训练后静态量化框架。通过模态特定静态量化、注意力不变灵活切换和旋转幅度抑制,显著降低推理延迟和异常值影响,提高推理效率,支持多主流模型部署。
04
EcoServe: Enabling Cost-effective LLM Serving with Proactive Intra- and
Inter-Instance Orchestration
发表:2025/4/25
大语言模型推理能力增强基于大语言模型的推理调度多实例协同调度部分解耦推理策略大规模GPU集群服务
EcoServe提出部分解耦策略,结合时间解耦和滚动激活,主动协调实例内外调度,显著减少预填充与解码干扰,提升吞吐和降低延迟。通过自适应调度和分裂扩容,实现经济高效的LLM集群服务,实测在NVIDIA L20 GPU集群上性能显著优于现有方案。
04
dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive
Caching
发表:2025/5/17
Diffusion模型微调扩散模型高效推理大语言模型推理能力增强无训练加速方法自回归扩散模型
本文针对扩散大语言模型(dLLMs)推理延迟高问题,提出未经训练的自适应缓存框架dLLMCache。其结合长间隔提示缓存与基于特征相似性的部分响应更新,实现了对中间计算的高效重用,在LLaDA 8B和Dream 7B上最高加速9.1倍,同时保证输出质量。
04
Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory
发表:2025/4/11
大语言模型推理能力增强测试时学习持久自适应记忆机制无监督推理增强
本文提出动态备忘录(DC),赋予黑盒大模型持久且可演进记忆,实现测试时学习。DC在推理过程中储存并复用策略和代码,显著提升多任务性能,无需真实标签或人为反馈,弥合孤立推理与经验积累的鸿沟。
011
Towards LLM-Based Failure Localizationin Production-Scale Networks
基于大语言模型的故障定位大规模生产网络故障诊断网络监控数据分析Root Cause Analysis (RCA)大语言模型推理能力增强
本文提出了基于大语言模型的故障定位框架BiAn,通过文本推理处理网络监控数据,生成带解释的故障设备排序。BiAn在生产级云网络中应用,显著缩短了根因分析时间,提高故障定位准确率,验证了LLM在网络运维的有效性。
03
Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference
Learning
发表:2025/9/27
大语言模型推理能力增强基于大语言模型的动作规划自演化偏好学习多阶段微调策略信息熵引导采样
本文提出ToolLight框架,通过信息熵分析工具调用影响,结合自演化采样与多阶段微调,实现大型语言模型工具集成推理的高效准确,显著缓解工具滥用与不足问题,提升推理链稳定性与性能。
05
Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping
via Reinforcement Learning
发表:2025/7/24
大语言模型强化学习训练大语言模型推理能力增强基于大语言模型的动作规划模拟人类行为在线购物行为建模
本文提出ShopR1框架,通过强化学习分别奖励推理生成和行动预测两个阶段,利用模型内信号和层次化难度感知奖励,显著提升LLM在线购物行为的模拟能力,实验显示性能较基线提升65%以上。
016
Large Language Model Agent: A Survey on Methodology, Applications and
Challenges
发表:2025/3/27
大语言模型代理系统综述大语言模型强化学习训练基于大语言模型的动作规划大语言模型推理能力增强多模态大语言模型
本文系统综述大型语言模型代理,从方法论出发构建分类体系,解析其架构、协作与演化机制,统一零散研究,揭示设计原则与复杂环境中行为的内在联系,涵盖评估、工具及应用,指明未来发展方向。
09
Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
发表:2025/10/8
大语言模型强化学习训练大语言模型微调序列策略优化大语言模型推理能力增强
本文提出GRAO统一框架,融合监督微调与强化学习优势,通过多样本生成、组直接对齐损失及成对偏好感知更新,提升模型对齐效率和稳定性。理论和实验证明,GRAO在复杂人类对齐任务中显著优于现有方法。
017
Learning from Synthetic Data Improves Multi-hop Reasoning
发表:2025/10/8
大语言模型强化学习训练多跳推理任务合成数据增强大语言模型推理能力增强
本文提出利用纯合成数据进行强化学习微调,以提升大语言模型多跳推理能力。实验证明,即使合成数据包含虚构知识,模型在真实问答基准上的表现依然显著提升,揭示合成数据促进了推理中知识组合这一通用技能的学习。
012