论文

登录后可查看剩余解析次数。
标签筛选
无训练加速方法
SPECTRA: Faster Large Language Model Inference with Optimized Internal and External Speculation
发表:2025/1/1
大语言模型推理能力增强无训练加速方法训练无关推理优化内部与外部推测利用
本文提出了SPECTRA,一个新颖框架,通过优化内部和外部推测,加速大型语言模型(LLM)的推理,避免了额外训练和对原始模型的修改。SPECTRA引入两种新技术,各自独立超越现有的最先进方法,二者结合下在多种基准上实现高达4.08倍的加速,超出现有免训练方法的效果,且实现已公开。
02
Information to Users
发表:1989/9/1
无训练加速方法大语言模型安全机制机器人动作学习数学推理基准测试文本到图像生成
本文讨论了实时数据库系统中的并发控制算法,旨在确保多个用户能够安全、有效地访问数据。研究指出,当前文献中存在的技术缺陷及提高算法效率的潜在方法。这些发现对提升实时数据处理的可靠性具有重要意义。
02
Inductive Generative Recommendation via Retrieval-based Speculation
发表:2024/10/4
生成式推荐系统无训练加速方法在线推荐系统优化序列推荐系统图像生成
本文提出了,一种基于检索的归纳式生成推荐框架,旨在弥补生成式推荐模型在推荐未见物品时的不足。通过引入具有归纳能力的草拟模型来提出候选物品,并由生成式模型进行验证,显著提升了推荐精准度和性能。
03
Denoising Diffusion Probabilistic Models
发表:2020/6/20
扩散模型图像合成无训练加速方法CIFAR10数据集渐进式有损解压缩
本文提出了一种新型去噪扩散概率模型,灵感来源于非平衡热力学,实现了高质量图像合成。通过在加权变分下界上训练,建立了模型与去噪分数匹配之间的新联系。该模型支持渐进式有损解压缩方案,在CIFAR10数据集上达成9.46的Inception Score和3.17的Fréchet Inception Distance,展示出与当前最佳成果相媲美的样本质量。
02
Training LLM Agents to Empower Humans
发表:2025/10/8
大语言模型微调基于大语言模型的动作规划无训练加速方法强化学习保持先验能力机制
本文提出一种基于最大化人类赋能的LLM微调方法,仅依赖离线文本数据,无需额外人类反馈,实现智能体更有效辅助人类。用户研究及编码环境评测显示,该方法显著提升用户接受度和编码任务成功率,缓解智能体过度独立完成任务的问题。
012
RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward
发表:2025/10/8
大语言模型强化学习训练序列策略优化无训练加速方法大语言模型推理能力增强
RLPIR提出一种无需验证器的强化学习框架,通过前缀推演和组内一致性奖励减少训练时长和推理序列长度。在数学与通用基准测试中,达到与依赖真实标注RLVR相当的效果,训练效率提升近7倍,显著优化大型语言模型推理性能。
01
JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR
发表:2025/10/8
大语言模型强化学习训练无训练加速方法强化学习数学推理序列策略优化
JURYRL提出一种无标签可验证奖励强化学习框架,通过模型投票生成答案候选,由Lean定理证明器验证并决定奖励,结合ResZero机制处理不可验证情况,避免虚假共识,提升训练稳定性和推理性能,在数学推理和代码生成等任务上优于无标签基线,媲美甚至超越监督训练。
04
PEARL: Towards Permutation-Resilient LLMs
发表:2025/2/20
大语言模型强化学习训练大语言模型推理能力增强序列策略优化无训练加速方法
本文提出排列弹性学习(PEARL),通过分布鲁棒优化和排列提议网络结合最优传输算法,针对最坏排列情况提升大型语言模型的鲁棒性。PEARL有效抵御排列攻击,并在多样上下文场景下显著增强模型性能和泛化能力。
06
EdgeShard: Efficient LLM Inference via Collaborative Edge Computing
发表:2024/5/23
大语言模型推理能力增强无训练加速方法边缘计算协同推理模型分片部署动态规划优化算法
EdgeShard提出协作边缘计算框架,将大语言模型分片并部署于分布式异构设备,通过动态规划优化设备选择和模型切分,实现推理延迟降低50%、吞吐量提升两倍,有效缓解云端依赖带来的延迟、带宽和隐私问题。
06
Learning to Reason without External Rewards
发表:2025/5/26
大语言模型强化学习训练序列策略优化无训练加速方法强化学习数学推理
本文提出InTuIToR,一种基于模型自我确信度的无外部奖励强化学习方法,实现大型语言模型的无监督复杂推理训练。利用组相对策略优化替代传统奖励函数,InTuIToR在数学和代码生成任务中展现优异泛化能力,免除对标注数据依赖。
05
dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching
发表:2025/5/17
Diffusion模型微调扩散模型高效推理大语言模型推理能力增强无训练加速方法自回归扩散模型
本文针对扩散大语言模型(dLLMs)推理延迟高问题,提出未经训练的自适应缓存框架dLLMCache。其结合长间隔提示缓存与基于特征相似性的部分响应更新,实现了对中间计算的高效重用,在LLaDA 8B和Dream 7B上最高加速9.1倍,同时保证输出质量。
05
OneFlowSeq: Achieving One-Step Generation for Diffusion Language Models via Lightweight Distillation
发表:2025/10/8
Diffusion 模型微调自回归扩散模型大语言模型微调序列策略优化无训练加速方法
OneFlowSeq提出一种轻量蒸馏框架,将多步扩散教师模型精炼为单步生成器,利用MeanFlow监督和Jacobianvector乘积信号提高指导质量。显著提升生成速度和性能,参数量缩减1600倍,实验证明在多任务上超越传统方法。
017