AiPaper

论文

登录后可查看剩余解析次数。
标签筛选
PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability
发表:2025/3/11
视觉语言动作模型机器人物理可达性表示多机器人多模态数据集Phys100K机器人视觉语言推理环境感知与空间表示
本文提出PhysVLM模型,结合空间物理可达性图(SP Map)统一表示多种机器人物理可达性,突破视觉语言模型缺乏物理约束的瓶颈。该方法通过额外编码器融合可达性特征,实现具身视觉推理能力提升,且验证于大规模多机器人数据集Phys100K。
05
Flexible sensors for force detection: A review
发表:2025/8/6
柔性力传感器多轴力检测仿生微结构传感器可降解柔性材料传感器结构设计
本文综述了用于力检测的柔性传感器,涵盖电阻、磁性和光学等多种传感机制,重点介绍了仿生微结构、可降解材料及抗弯曲设计等结构创新。评析不同机制性能,探讨其在智能穿戴、机器人及医疗假肢中的应用前景与挑战。
04
Integrating large language models with explainable fuzzy inference systems for trusty steel defect detection
发表:2025/3/20
钢铁缺陷检测大语言模型解释性模糊推理系统局部训练全局预测方法遗传算法优化
提出LEFIS方法,结合大型语言模型与可解释模糊推理系统,通过局部训练全局预测策略进行钢铁缺陷检测,利用遗传算法优化模糊系统参数,并用LLMs解释结果,实现高效、透明且可信的工业缺陷识别。
01
Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details
发表:2025/6/20
高保真3D资产生成3D扩散模型形状基础模型LATTICE物理渲染纹理生成多视角纹理生成架构
Hunyuan3D 2.5通过引入参数达百亿的LATTICE形状基础模型和基于物理渲染的多视角纹理生成架构,实现了高保真、细节丰富且纹理真实的三维资产生成,有效缩小了生成形状与手工制作之间差距,性能超越先前方法。
05
Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material
发表:2025/6/18
高质量3D资产生成基于扩散Transformer的3D形状生成PBR材质合成3D生成模型训练流程游戏与工业设计中的3D内容创作
Hunyuan3D 2.1提出了一个端到端高保真3D资产生成系统,结合基于扩散变换器的形状生成与生产级PBR纹理合成,实现从单张图像自动生成高质量带纹理的3D网格。该系统公开了完整训练与评估流程,推动3D AIGC应用于游戏、虚拟现实及工业设计。
03
Robust Speech Recognition via Large-Scale Weak Supervision
发表:2022/12/9
大规模弱监督语音识别多语言多任务语音模型零样本迁移学习无微调语音识别互联网音频转录数据
本文通过大规模弱监督训练多语言多任务模型,使用68万小时互联网音频转录数据,实现了无微调下的零样本迁移语音识别。模型在多个基准测试中表现优异,鲁棒性和准确度接近人类水平,推动了开箱即用的鲁棒语音识别技术发展。
04
Experimental investigation on effect of ion cyclotron resonance heating on density fluctuation in SOL at EAST
发表:2021/7/19
电离回旋共振加热刮除层湍流波动EAST托卡马克实验湍流斑块结构抑制Er×B剪切流增强
首次在EAST超导托卡马克实验中发现,ICRF加热能全局抑制刮削层(SOL)中高强度blob结构,降低湍流波动。其机制或为ICRF增强了SOL中的Er×B剪切流,改变电位剖面,从而抑制湍流输运,提高等离子体约束性能。
05
Animate3D: Animating Any 3D Model with Multi-view Video Diffusion
发表:2024/11/6
多视角视频扩散模型3D模型动画生成4D Score Distillation Sampling时空注意力机制多视角视频数据集
提出Animate3D框架,利用多视角视频扩散模型(MVVDM)和大规模多视角视频数据集,结合重建与四维得分蒸馏采样,实现对任意静态三维模型的高一致性动画生成。设计新型时空注意力模块,强化时空连续性并保持模型身份特征。
07
Training LLM Agents to Empower Humans
发表:2025/10/8
大语言模型微调基于大语言模型的动作规划无训练加速方法强化学习保持先验能力机制
本文提出一种基于最大化人类赋能的LLM微调方法,仅依赖离线文本数据,无需额外人类反馈,实现智能体更有效辅助人类。用户研究及编码环境评测显示,该方法显著提升用户接受度和编码任务成功率,缓解智能体过度独立完成任务的问题。
012
Self-Improving LLM Agents at Test-Time
发表:2025/10/8
大语言模型微调大语言模型强化学习训练大语言模型推理能力增强大语言模型置信度校准自我增强大语言模型
本文提出测试时自改进方法,通过不确定性检测、自我数据增强和测试时微调三步,实现大型语言模型智能体即时强化。TTSI显著提升准确率并大幅降低训练样本需求,TTD进一步优化复杂情境表现,展现了低成本高效自演化智能体新范式。
09
Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations
发表:2025/10/8
大语言模型微调序列策略优化大语言模型强化学习训练长时序一致性建模大语言模型推理能力增强
本文提出事后监督学习(HSL)框架,通过辅助LLM重新标记智能体轨迹中的实际达成目标,结合不相关动作掩蔽和样本重加权,提升长时程部分可观环境中LLM智能体的微调效果。实验在ALFWorld和WebShop验证了HSL的高数据效率和兼容性,显著优于传统方法。
03
WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent
发表:2025/10/8
多模态大语言模型视觉语言动作模型大语言模型强化学习训练复杂信息检索基准视觉语言推理
WebWatcher提出一种多模态深度研究智能体,结合视觉语言推理能力,通过高质量合成轨迹冷启动训练和强化学习提升泛化性能。提出BrowseCompVL基准测试,验证其在复杂视觉文本信息检索中的领先表现,突破了传统文本中心限制。
01
ATLAS: Actor-Critic Task-Completion with Look-ahead Action Simulation
发表:2025/10/8
基于Actor-Critic的任务完成环境认知地图构建动作前瞻模拟无微调适应性网络WebArena-Lite基准测试
提出了ATLAS,一种结合记忆增强和前瞻动作模拟的ActorCritic智能体,通过构建认知地图并基于环境模型在认知空间中模拟动作后果,实现无微调适应新环境。在WebArenaLite基准中,成功率达63%,显著优于现有方法。
03
RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward
发表:2025/10/8
大语言模型强化学习训练序列策略优化无训练加速方法大语言模型推理能力增强
RLPIR提出一种无需验证器的强化学习框架,通过前缀推演和组内一致性奖励减少训练时长和推理序列长度。在数学与通用基准测试中,达到与依赖真实标注RLVR相当的效果,训练效率提升近7倍,显著优化大型语言模型推理性能。
01
JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR
发表:2025/10/8
大语言模型强化学习训练无训练加速方法强化学习数学推理序列策略优化
JURYRL提出一种无标签可验证奖励强化学习框架,通过模型投票生成答案候选,由Lean定理证明器验证并决定奖励,结合ResZero机制处理不可验证情况,避免虚假共识,提升训练稳定性和推理性能,在数学推理和代码生成等任务上优于无标签基线,媲美甚至超越监督训练。
03
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
发表:2025/10/8
大语言模型强化学习训练序列策略优化强化学习数学推理
本文提出ROVER算法,基于数学推理中RLVR问题的特殊MDP结构,证明最优动作可由固定随机策略估值恢复,绕过复杂策略迭代。ROVER简洁高效,保持多样性,显著提升LLM数学推理质量与多样性。
02
Tree Search for LLM Agent Reinforcement Learning
发表:2025/10/8
大语言模型强化学习训练序列策略优化树搜索强化学习方法基于组的相对优势估计
本文提出基于树搜索的群组相对策略优化(TreeGRPO),解决大型语言模型多轮强化学习中推演预算有限和稀疏监督问题。该方法通过共享前缀提高采样效率,并利用树状轨迹生成步级监督信号,显著提升多数据集问答任务表现。
03
Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents
发表:2025/10/8
大语言模型强化学习训练序列策略优化跨层次偏差校正分层优势归一化基于结构异质性的强化学习
本文针对LLM搜索智能体轨迹的结构异质性问题,提出分层GRPO方法及分层优势标准化(SAN),通过将轨迹划分为同质层内计算优势值,消除跨层偏差,实现更稳定且无偏的信用分配。实验验证其在多步问答中显著优于传统方法,提高训练奖励和稳定性。
03
Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks
发表:2025/10/8
序列策略优化基于层级分组的策略优化长时序任务强化学习大语言模型强化学习训练 (RL Training for Large Language Mode历史上下文一致性建模
本文针对长视界智能体任务中的上下文不一致问题,提出层级组策略优化(HGPO)方法。HGPO通过多层级划分步骤并自适应加权多组优势估计,有效平衡偏差与方差,无需额外模型,实现大幅提升策略优化效果,在复杂任务中超越现有方法。
01
Octo: An Open-Source Generalist Robot Policy
发表:2024/5/21
通用机器人策略多模态动作表示与建模Transformer架构大规模机器人演示数据集机器人动作学习
Octo是首个基于Transformer、在80万条多机器人操作轨迹上预训练的开源通用机器人策略,支持语言指令和目标图像导向。它能快速适配多种传感器和动作空间,实现高效微调,实验证明其在9个平台泛化优越,为通用机器人智能奠定基础。
05