论文
登录后可查看剩余解析次数。
标签筛选
Omnigrasp: Grasping Diverse Objects with Simulated Humanoids
发表:2024/7/16
基于模拟人形机器人的抓取控制多样物体抓取与移动人形运动表示学习不需要配对数据集的训练方法物体轨迹跟随任务
本文提出了一种名为Omnigrasp的方法,用于控制模拟人形机器人抓取和移动多样物体。该方法通过学习一套人形运动表示来增强机器人控制精度,支持1200多种物体沿随机轨迹移动。训练过程中无需配对数据,仅依靠简单的奖励和状态表示,展现出卓越的可扩展性与性能。
02
Stable-Predictive Optimistic Counterfactual Regret Minimization
发表:2019/2/14
反事实悔恨最小化稳定预测悔恨最小化大规模博弈求解收敛速率优化决策树中的稳定性
本文提出了一种新型的反事实遗憾最小化(CFR)变体,显著提高了大规模扩展形式博弈(Nash均衡)的收敛速率,达到了。通过结合预测性和稳定性遗憾最小化的进展,引入"稳定预测性"概念,为决策树中的每个最小化器设置了稳定性,使算法表现优于传统CFR。
05
Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies
发表:2024/10/16
Lipschitz约束政策腿部机器人的平稳运动控制强化学习与仿真到现实转移机器人平滑行为开发低通滤波与平滑奖励
本文提出了一种通过Lipschitz约束策略(LCP)来提升类人机器人运动控制的有效方法。LCP在强化学习框架中强制实施平滑行为,取代了传统的平滑奖励和低通滤波器,并且易于与自动微分集成。实验表明,LCP生成的控制器在模拟和现实世界中具有良好的平滑性和鲁棒性。
03
Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model
发表:2025/10/14
视觉语言动作模型空间理解能力增强隐式空间表示对齐3D基础模型对齐机器人任务精准执行
本文提出了一种名为“空间强制”(SF)的方法,通过隐式对齐策略增强视觉语言行为(VLA)模型的空间理解能力。SF通过将VLA模型的视觉嵌入与预训练的3D基础模型的几何表示对齐,提高机器人在三维世界中的操作精度,避免了依赖显式3D输入的问题。
05
$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
发表:2025/10/30
流式视觉语言动作模型在线强化学习微调LIBERO基准测试多任务强化学习环境交互中的去噪建模
本文提出了框架,利用在线强化学习技术对基于流的视觉语言动作(VLA)模型进行微调,解决了大规模应用中行动日志似然性的挑战。该方法在LIBERO和ManiSkill基准测试中表现优异,显著提高模型性能,证明了其有效性和实用性。
06
ManiSkill-HAB: A Benchmark for Low-Level Manipulation in Home Rearrangement Tasks
发表:2024/12/9
低级操作基准测试家庭物体重排任务强化学习与模仿学习基线GPU加速家庭助手基准数据生成与演示过滤
本文提出了ManiSkillHAB,一个针对家庭重排任务的低级别操控基准,以满足对于快速模拟和复杂环境的需求。通过GPU加速实现,该基准显著提高了速度并降低了内存使用,同时训练了强化学习和模仿学习模型,并开发了基于规则的演示过滤系统,推动了未来研究的比较和数据生成。
03
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
发表:2025/5/18
大语言模型强化学习训练群体相对策略优化判别约束优化框架长推理模型数学推理能力增强
本文提出了一种新的判别约束优化(DisCO)框架,以增强大型推理模型(LRMs)的性能。相较于现有的群组相对策略优化(GRPO),DisCO通过引入判别目标和非裁剪评分函数,解决了难度偏差和熵不稳定的问题,从而实现长期稳定的训练动态,提升了模型的数学推理能力。
04
Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
发表:2025/10/5
低精度Transformer训练失败分析快速注意力机制训练动态稳定性低秩表示与偏置误差模型训练中的误差积累
本文分析了低精度 Transformer 训练中遇到的损失爆炸,首次提供了机制性解释。研究发现, 机制中的低秩表示及 算术中的偏差舍入误差相互作用,形成误差累积恶性循环,导致训练不稳定。通过对 的小幅修改,有效稳定了训练过程,验证了分析结果。
014
Transformations in exposure to debris flows in post-earthquake Sichuan, China
地震后泥石流风险暴露四川省泥石流模拟与评估排水设施对泥石流的影响高分辨率卫星影像分析城市发展与自然灾害关系
本研究探讨了四川省三个沟谷中地震后流域干预措施(例如修建拦渣坝和堤防)如何影响泥石流的暴露度。结果显示,震后城市发展增加了对2019年泥石流的风险,拦渣坝在管理低和高流量事件中有效,但对极端事件无效。
03
Distributed LLM Serving on Consumer-Grade GPUs by Reconciling Computation and Communication
发表:2025/1/1
基于消费者级GPU的分布式大语言模型服务MoLink 服务系统预填充请求传输调度算法大语言模型通信效率优化分布式推理计算架构
本文提出了MoLink,一个高效的分布式大型语言模型(LLM)服务系统,通过协调计算与通信,以消费级GPU降低LLM服务成本。它将预填充请求的数据流量拆分为较小的块,并优化传输调度,显著减少了首词元生成时间、每输出词元时间和延迟,相比现有系统最大降幅达46%。
05
Order-agnostic Identifier for Large Language Model-based Generative Recommendation
发表:2025/2/15
基于大语言模型的生成推荐系统订单无关标识符设计协同过滤与语义信息整合SETRec框架稀疏注意力机制
本文提出了一种基于大语言模型的无序标识符设计,用于生成式推荐,解决了现有标识符在效率和性能上的问题。通过整合协同过滤与语义信息,设计无序标识符并采用SETRec框架,利用稀疏注意力掩码和查询引导生成机制,显著提升了推荐效果和生成效率。
05
Comprehensive characterization and expression analysis of enzymatic antioxidant gene families in passion fruit (Passiflora edulis)
发表:2023/10/26
百香果抗氧化酶基因家族鉴定抗氧化基因表达分析抗氧化酶基因家族特征百香果温度胁迫抗性研究次生代谢产物研究
本研究全面鉴定和表征了百香果(Passiflora edulis)中的酶促抗氧化基因家族,共识别到7个家族的90个基因。系统发育分析表明,相同亚细胞定位的基因亲缘关系更近;高表达基因在花和果实中可能保护组织免受氧化损伤,且有望增强温度胁迫抗性。
02
DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation
发表:2025/9/28
机器人灵巧操作数据生成自我改善的数据生成框架模仿学习与强化学习数据多样性增强迭代循环数据生成
本文提出了DexFlyWheel,一个可扩展且自我改进的灵巧操作数据生成框架,旨在解决高质量、多样化训练数据匮乏的问题。通过模仿学习、残差强化学习、轨迹收集和数据增强等闭环管道,该框架在迭代中逐步增补数据,提高了模型的扩展性和泛化能力,实现持续的自我强化。
06
MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation
发表:2025/10/21
多步骤双手移动操作演示生成模仿学习机器人训练基于约束的优化数据生成人类演示数据集扩增移动操作可达性与可视性问题
本文提出MoMaGen,一种通过软硬约束优化生成多步双臂移动操作演示的方法。针对收集人类演示数据的高昂成本,该方法解决了基座放置与摄像头可视性两大挑战。实验结果表明,MoMaGen在多样性上显著优于现有方法,为未来高效学习提供了理论基础。
03
ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
发表:2025/7/23
视觉语言动作推理强化视觉潜在规划多模态大语言模型长时序规划机器人动作执行
本文提出了ThinkAct,一个双系统框架,通过强化视觉潜层规划连接高层推理与低层动作执行。该模型训练多模态大语言模型生成具身推理计划,并运用基于目标完成度和轨迹一致性的动作对齐视觉奖励,实现在复杂环境中的小样本适应、长时程规划和自我纠正能力。
02
Breaking the Bottleneck: User-Specific Optimization and Real-Time Inference Integration for Sequential Recommendation
发表:2025/8/3
序列推荐系统用户特定优化实时推理集成KL 散度优化深度学习序列方法
该论文针对序列推荐(SR)中的性能瓶颈问题,提出用户专属优化方法,针对每个用户独立分析其行为序列,并引入实时推理集成,以提升推理效率和模型稳定性。通过KL散度优化实现个别序列学习,从而克服固定数据集中的性能限制。
08
Robust deep learning–based protein sequence design using ProteinMPNN
发表:2022/9/15
基于深度学习的蛋白质序列设计ProteinMPNN蛋白质结构预测实验性蛋白质设计方法多链氨基酸耦合
本文提出了一种名为 ProteinMPNN 的基于深度学习的蛋白质序列设计方法,表现出卓越的性能,其序列恢复率为 52.4%,显著高于传统方法 Rosetta 的 32.9%。该方法能够处理单链和多链的氨基酸耦合问题,成功挽救了多种先前设计失败的蛋白,展示了其广泛的应用潜力和高精确度。
015
Generative Sparse-View Gaussian Splatting
发表:2025/6/10
生成稀疏视角高斯 Splatting3D/4D 场景重建图像扩散模型视图一致性增强有限观察生成模型
本文提出一种新方法"生成式稀疏视图高斯溅射(GSGS)",旨在提升在有限观测条件下的3D/4D场景重建质量。该方法利用预训练的图像扩散模型,通过迭代优化增强视图一致性,生成“幻觉”图像并确保语义对应,从而改善渲染效果并超越现有技术。
01
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
发表:2025/5/25
个性化大语言模型安全PENGUIN基准基于用户背景的安全增强RAISE代理框架安全性评估方法
本文提出了个性化安全的概念,并建立了基准测试,通过14,000个场景验证个性化用户信息可以提升安全评分43.2%。此外,开发了框架,通过两阶段的智能体设计,能在不再训练模型的情况下,提升安全评分31.6%,强调了在安全领域选择性信息收集的重要性。
014
探究老年糖尿病夜间低血糖的预防及护理
老年糖尿病护理低血糖预防措施夜间低血糖管理糖尿病临床治疗
本文探讨了老年糖尿病患者夜间低血糖的成因与护理措施,指出老年患者感知能力下降致使夜间低血糖风险增高。文章系统性地提出了六大成因及五个预防策略,旨在为临床医护人员提供可操作的管理框架。
04
……