论文
登录后可查看剩余解析次数。
标签筛选
Process Reinforcement through Implicit Rewards
发表:2025/2/3
隐式奖励的过程强化学习大语言模型在线训练数学推理基准测试过程奖励模型多步推理任务
本文提出PRIME(通过隐式奖励进行过程强化),旨在提升大型语言模型(LLMs)在复杂多步推理任务中的强化学习效率。PRIME仅依赖策略推演和结果标签进行在线过程奖励模型(PRM)更新,解决了高质量过程标签收集成本高和奖励破解等问题。研究显示,PRIME在数学和编码基准任务中的平均性能提升了15.1%。
03
A Survey on Personalized Content Synthesis with Diffusion Models
发表:2024/5/9
个性化内容合成扩散模型测试时微调方法预训练适应方法对象个性化
本文综述了扩散模型在个性化内容合成(PCS)中的应用,分析了超过150种方法,并将其框架分为测试时微调和预训练适应两类。讨论了面临的挑战,如过拟合及主题保真度与文本对齐的权衡,为未来研究提供发展方向。
02
Qwen3 Technical Report
发表:2025/5/14
大语言模型系列Mixture-of-Expert架构动态模型切换思维预算机制多语言支持扩展
Qwen3是最新的Qwen语言模型系列,结合了稠密和专家混合架构,参数范围从0.6亿到2350亿。其核心创新在于统一框架下的思维模式与非思维模式整合,支持动态切换。引入思维预算机制使用户能根据任务复杂性自适应分配计算资源,优化性能。同时,Qwen3多语言支持由29种扩展至119种,显著提高了全球可访问性。
02
UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
发表:2025/6/29
城市智能多模态大语言模型城市指令数据集空间推理增强多阶段训练框架城市任务性能评估
本文介绍了UrbanLLaVA,一种面向城市智能的多模态大语言模型,能够同时处理四种城市数据,显著提升了对城市任务的表现。通过策划多样化的城市指令数据集UData和提出多阶段训练框架UTrain,UrbanLLaVA在空间推理和领域知识学习中取得良好平衡,展示了强大的跨城市泛化能力。
01
RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
发表:2023/6/19
远程感知视觉语言模型自监督学习与图像建模多任务遥感应用远程感知对象计数统一图像-文本数据格式
本文提出RemoteCLIP,这是首个针对遥感的视觉语言基础模型,解决了现有模型对低层特征的依赖和语言理解不足的问题。通过数据扩展策略,结合异构注释转化为统一的图像文本格式,构建了12倍于现有数据集规模的预训练数据集,显著提升了零shot和多任务遥感应用能力。
02
A Survey on Remote Sensing Foundation Models: From Vision to Multimodality
发表:2025/3/28
遥感基础模型多模态数据融合遥感任务分析光学与雷达数据大规模注释数据集
本文综述了遥感基础模型的快速发展,重点关注视觉与多模态方法。这些模型通过整合光学、雷达、LiDAR图像与文本和地理信息,提升了智能地球空间数据的分析能力,改善了物体检测与土地分类的性能。尽管进展显著,但在数据多样性、大规模标注数据集需求及计算资源等方面仍面临挑战。
08
End-to-End Training for Autoregressive Video Diffusion via Self-Resampling
发表:2025/12/18
自回归视频扩散模型自重采样训练方法长时间生成能力时序因果掩码参数无关历史检索机制
自回归视频扩散模型在世界模拟中具有潜力,但易受训练与测试不匹配引起的暴露偏差影响。为实现端到端训练,提出一种自重采样方法,通过模拟历史帧推理误差,在不依赖教师模型的情况下,支持大规模训练,并通过稀疏因果掩码和帧级扩散损失实现高效且长时域的视频生成。
04
Development and validation of an autonomous artificial intelligence agent for clinical decision-making in oncology
发表:2025/6/6
多模态临床决策支持系统视觉 Transformer 在肿瘤学中的应用精确肿瘤学工具集成自动化人工智能临床代理GPT-4 在医疗决策中的应用
本研究开发了一种自主人工智能智能体,结合了GPT4和多模态精准肿瘤学工具。通过评估20个真实病例,该智能体显示出87.5%工具使用准确率和91.0%正确临床结论,决策准确率显著提高至87.2%。这些结果为个性化肿瘤学支持系统的部署奠定基础。
02
Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation
发表:2025/12/21
实时视频生成视频生成框架历史记忆保持记忆压缩与生成自回归模型
本文提出了MAG(记忆与生成)框架,通过解耦内存压缩与帧生成解决实时视频生成中的历史一致性问题。采用专用内存模型将历史信息压缩为紧凑的键值缓存,并利用生成器模型合成新帧。引入MAGBench基准评估历史记忆保持能力,实验表明在保持实时性能的同时显著提升场景一致性。
03
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
发表:2025/10/1
人形机器人牵引与交互数据生成交互保持数据生成引擎动态运动重定向机器人长时间任务执行能力运动捕捉数据集
本文提出了OmniRetarget,一个旨在弥补人形机器人与人类之间“体现差异”的数据生成引擎。通过引入交互网格,最小化拉普拉斯变形并强制物理约束,该引擎在与环境和物体的关键交互中,生成高质量的运动轨迹并有效支持RL策略训练,实际测试显示支持长达30秒的复杂任务。
03
Quantum Subgradient Estimation for Conditional Value-at-Risk Optimization
发表:2025/10/6
条件价值-at-风险优化量子子梯度估计蒙特卡罗模拟复杂性随机投影子梯度下降幅度估计量子算法
本研究提出了一种量子次梯度预言机,用于条件风险价值(CVaR)优化。通过幅度估计,该方法在估计CVaR次梯度时展现出的量子查询复杂度,相比传统蒙特卡罗方法的实现了接近二次方的改善,且在模拟中验证了其鲁棒性。
02
EvoLM: In Search of Lost Language Model Training Dynamics
发表:2025/6/19
大语言模型训练动态监督微调与强化学习持续预训练的重要性降维与泛化能力分析大规模语言模型实验套件
本文提出了EvoLM模型套件,以系统性地分析语言模型的训练动态,涵盖预训练、继续预训练、监督微调和强化学习四个阶段。研究发现过度的预训练和后训练会导致收益递减,继续预训练在连接各阶段中起关键作用。此外,作者提供了模型及数据集,促进开放研究与可复现性。
03
S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
发表:2025/5/12
序列策略优化强化学习在推理模型中的应用链式思维生成长度扩展大语言模型推理能力增强测试时扩展
本研究提出串行组衰减奖励策略优化(SGRPO),利用强化学习允许推理模型在思维链生成过程中进行“提前退出”,以提升推理效率。SGRPO通过对中间推理步骤的评估,改善了传统强化学习中存在的冗余推理问题,展现出优于现有方法的潜力。
02
A Survey of Controllable Learning: Methods and Applications in Information Retrieval
发表:2024/7/4
可控学习方法综述信息检索中的可控学习应用动态目标适应策略多目标优化方法用户画像与场景适应
可控学习已成为可信机器学习的关键,能够帮助学习器动态适应复杂的信息需求。本文正式定义了可控学习,探讨其在信息检索中的应用,分类包括控制内容、控制主体及实施方式等。同时识别了在训练、评估和在线部署中的挑战,并提出未来的研究方向。
02
LocationSpark: In-memory Distributed Spatial Query Processing and Optimization
发表:2019/7/9
分布式空间查询处理内存优化查询调度器空间索引技术查询偏斜处理
本文提出了一种新的分布式内存空间查询处理系统LocationSpark,旨在解决海量空间数据处理中的可扩展性问题。通过引入基于新成本模型的查询调度器和空间索引技术sFilter,LocationSpark有效处理查询倾斜并减少通信成本,性能提升可达一个数量级。
02
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
发表:2023/12/14
6D物体姿态估计与跟踪神经隐式表示基于转换器的架构对比学习方法大规模合成训练
本文提出了FoundationPose,一个统一的6D物体位姿估计与跟踪框架,支持基于模型和无模型的设置。通过大规模合成数据训练、Transformer架构与对比学习,该模型能够在没有微调的情况下,高效处理新型物体的位姿推断,表现超越现有专门方法。
03
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
发表:2016/12/2
点云分类与分割深度学习点集Permutation不变性几何数据结构网络性能评估
PointNet是首个直接处理原始点云的深度学习架构,避免了对点云进行体素化或图像转换带来的数据膨胀和细节丢失。该模型通过单一对称函数尊重输入的排列不变性,适用于物体分类、部件分割及场景解析。实验结果显示,PointNet在性能上超越了现有技术,理论分析则阐明了其对输入扰动的鲁棒性。
04
Generalizable Humanoid Manipulation with 3D Diffusion Policies
发表:2024/10/15
人形机器人操作3D扩散模型机器人数据采集系统动态环境中的自主操作人类类似的数据收集
本研究提出了一种新型的人形机器人操作系统,结合了全上半身远程操作控制与改进的3D扩散策略。通过2000次的真实场景评估,该系统使机器人能在未见过的厨房、会议室等多种环境中自主执行任务,突破了以往依赖特定训练场景的限制。
02
NetLLM: Adapting Large Language Models for Networking
发表:2024/2/4
基于大语言模型的网络任务适应多模态数据处理适应性比特率流媒体传输网络预测与优化低成本微调框架
本研究提出了NetLLM框架,旨在通过适配大型语言模型(LLM)来高效解决网络任务。与传统深度学习算法相比,该框架降低了模型工程成本并提高了泛化能力,实现了“一个模型解决所有任务”的理念。在三个具体的应用案例中,NetLLM显著优于现有最先进算法。
04
DiTFastAttn: Attention Compression for Diffusion Transformer Models
发表:2024/6/13
扩散 Transformer 注意力压缩窗口注意力与残差共享时间步共享注意力条件生成跳过冗余计算高分辨率图像生成加速
本文提出DiTFastAttn,一种后训练压缩方法,旨在解决扩散Transformer模型在图像和视频生成中的计算瓶颈。通过窗口注意力残差共享、跨时间步和条件生成的注意力共享等技术,显著减少空间、时间及条件冗余,实现最高76%的FLOPs减少和1.8倍的生成加速。
02
…