首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

Towards Physically Executable 3D Gaussian for Embodied Navigation

发表：2025/10/24

3D高斯表示视觉语言导航物理可执行环境可语义对齐的3D导航室内场景数据集

本文提出了SAGE3D模型，旨在解决三维高斯泼溅(3DGS)在具身导航(VLN)任务中的局限性。模型通过对象中心的语义标注和物理感知执行结合，实现了物理可执行的语义对齐。发布的InteriorGS数据集包含1K个对象标注的室内场景，SAGEBench则是首个基于3DGS的VLN基准，实验显示其基线性能提高了31%。

SPECTRA: Faster Large Language Model Inference with Optimized Internal and External Speculation

发表：2025/1/1

大语言模型推理能力增强无训练加速方法训练无关推理优化内部与外部推测利用

本文提出了SPECTRA，一个新颖框架，通过优化内部和外部推测，加速大型语言模型（LLM）的推理，避免了额外训练和对原始模型的修改。SPECTRA引入两种新技术，各自独立超越现有的最先进方法，二者结合下在多种基准上实现高达4.08倍的加速，超出现有免训练方法的效果，且实现已公开。

REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation

发表：2025/12/23

视觉语言动作模型机器人操作任务基准机器人泛化能力评估高保真模拟环境任务变化因素

本文提出了REALM，一个高保真的模拟环境和机器人操作泛化基准，旨在评估视觉语言行动模型的泛化能力。REALM结合15种扰动因素、7种操作技能和3500多个物体，经过现实到模拟验证，展现出模拟与现实世界性能的高度相关性。研究表明，尽管取得进展，但泛化和鲁棒性依然是主要挑战。

EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments

发表：2025/3/12

机器人移动操作基准自然语言指令理解长时序任务执行大语言模型与机器人系统结合统一操作评估框架

本文提出了EMMOE基准，旨在解决自主家用机器人执行复杂日常任务的挑战。EMMOE将高层和低层具身任务整合，并引入三项新评估指标。作者还构建了包含100个多样化任务的EMMOE100数据集，并设计了HoMiEBoT智能体系统，结合大语言模型和轻量级执行策略，提升了机器人的自然语言理解能力与任务执行效果。

Does anxiety increase policy learning?

发表：2024/2/23

情绪影响政策学习焦虑与决策过程政策学习实验研究公共政策信息处理马库斯情感智能模型

本研究探讨焦虑情绪对瑞士地方公职人员政策学习的影响，基于马库斯情感智能模型，采用实验数据展示焦虑与政策学习之间的因果关系，发现焦虑具有积极影响，且此关系不受先前信念或政策复杂性调节。这一发现丰富了政策学习文献并揭示情绪在决策过程中的重要性。

Mitty: Diffusion-based Human-to-Robot Video Generation

发表：2025/12/19

人类到机器人视频生成扩散 transformer无标签学习视频生成预训练模型人机协作视频合成

论文提出了Mitty，一个基于扩散Transformer的人类到机器人视频生成框架，通过从人类演示视频中直接学习，实现端到端生成，克服了依赖中间表示法带来的信息损失和误差累积问题。Mitty利用预训练扩散模型的视觉时间先验，无需动作标签，生成高质量的人机配对数据，表现出优越的泛化能力。

Mean Aggregator is More Robust than Robust Aggregators under Label Poisoning Attacks on Distributed Heterogeneous Data

发表：2024/4/21

标记投毒攻击下的聚合器鲁棒性分布式学习中的恶意攻击防御异构数据环境中的学习错误优化均值聚合器的理论分析鲁棒聚合器的比较研究

本研究探讨了在分布式异构数据中，均值聚合器在标签投毒攻击下的鲁棒性。尽管鲁棒聚合器通常被认为更优，但作者指出，在数据异构性较高的情况下，均值聚合器的学习误差是最优的，并在实验中验证了其优势。

DeepSeek-V3 Technical Report

发表：2024/12/27

DeepSeek-V3 大语言模型混合专家语言模型多头潜在注意力机制辅助损失负载均衡策略强监督微调与强化学习

DeepSeekV3 是一个具有6710亿参数的混合专家语言模型，通过采用多头潜在注意力和创新的无辅助损失负载均衡策略，实现了高效推理和经济实惠的训练。模型在14.8万亿多样化词元上进行了预训练，并通过有监督微调和强化学习提升性能，评估结果显示其表现超越其他开源模型，接近领先的闭源模型，同时训练稳定性高，成本低。

Vision-Language Models for Vision Tasks: A Survey

发表：2023/4/3

视觉语言模型视觉任务的自回归推理无监督视觉识别方法大规模图像-文本对数据集视觉-语言模型预训练与评估

本论文综述了面向视觉任务的视觉语言模型（VLM），旨在解决深度神经网络（DNN）依赖众包标注和模型训练效率低的问题。通过分析网络架构、预训练目标和下游任务，整理了现有方法及其挑战，为未来研究提供了参考。

Vision Foundation Models in Remote Sensing: A Survey

发表：2024/8/7

遥感中的基础模型自监督学习技术对比学习基础模型架构与预训练数据集遥感技术的AI转型

本文综述了遥感领域的视觉基础模型，探讨了其架构、预训练数据集和方法论。通过性能比较，强调了基础模型的重大进展和新兴趋势，并讨论了高质量数据、计算资源和模型泛化能力等挑战，发现自监督学习技术显著提升了模型表现与鲁棒性。

Process Reinforcement through Implicit Rewards

发表：2025/2/3

隐式奖励的过程强化学习大语言模型在线训练数学推理基准测试过程奖励模型多步推理任务

本文提出PRIME（通过隐式奖励进行过程强化），旨在提升大型语言模型（LLMs）在复杂多步推理任务中的强化学习效率。PRIME仅依赖策略推演和结果标签进行在线过程奖励模型（PRM）更新，解决了高质量过程标签收集成本高和奖励破解等问题。研究显示，PRIME在数学和编码基准任务中的平均性能提升了15.1%。

A Survey on Personalized Content Synthesis with Diffusion Models

发表：2024/5/9

个性化内容合成扩散模型测试时微调方法预训练适应方法对象个性化

本文综述了扩散模型在个性化内容合成（PCS）中的应用，分析了超过150种方法，并将其框架分为测试时微调和预训练适应两类。讨论了面临的挑战，如过拟合及主题保真度与文本对齐的权衡，为未来研究提供发展方向。

Qwen3 Technical Report

发表：2025/5/14

大语言模型系列Mixture-of-Expert架构动态模型切换思维预算机制多语言支持扩展

Qwen3是最新的Qwen语言模型系列，结合了稠密和专家混合架构，参数范围从0.6亿到2350亿。其核心创新在于统一框架下的思维模式与非思维模式整合，支持动态切换。引入思维预算机制使用户能根据任务复杂性自适应分配计算资源，优化性能。同时，Qwen3多语言支持由29种扩展至119种，显著提高了全球可访问性。

UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding

发表：2025/6/29

城市智能多模态大语言模型城市指令数据集空间推理增强多阶段训练框架城市任务性能评估

本文介绍了UrbanLLaVA，一种面向城市智能的多模态大语言模型，能够同时处理四种城市数据，显著提升了对城市任务的表现。通过策划多样化的城市指令数据集UData和提出多阶段训练框架UTrain，UrbanLLaVA在空间推理和领域知识学习中取得良好平衡，展示了强大的跨城市泛化能力。

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

发表：2023/6/19

远程感知视觉语言模型自监督学习与图像建模多任务遥感应用远程感知对象计数统一图像-文本数据格式

本文提出RemoteCLIP，这是首个针对遥感的视觉语言基础模型，解决了现有模型对低层特征的依赖和语言理解不足的问题。通过数据扩展策略，结合异构注释转化为统一的图像文本格式，构建了12倍于现有数据集规模的预训练数据集，显著提升了零shot和多任务遥感应用能力。

A Survey on Remote Sensing Foundation Models: From Vision to Multimodality

发表：2025/3/28

遥感基础模型多模态数据融合遥感任务分析光学与雷达数据大规模注释数据集

本文综述了遥感基础模型的快速发展，重点关注视觉与多模态方法。这些模型通过整合光学、雷达、LiDAR图像与文本和地理信息，提升了智能地球空间数据的分析能力，改善了物体检测与土地分类的性能。尽管进展显著，但在数据多样性、大规模标注数据集需求及计算资源等方面仍面临挑战。

End-to-End Training for Autoregressive Video Diffusion via Self-Resampling

发表：2025/12/18

自回归视频扩散模型自重采样训练方法长时间生成能力时序因果掩码参数无关历史检索机制

自回归视频扩散模型在世界模拟中具有潜力，但易受训练与测试不匹配引起的暴露偏差影响。为实现端到端训练，提出一种自重采样方法，通过模拟历史帧推理误差，在不依赖教师模型的情况下，支持大规模训练，并通过稀疏因果掩码和帧级扩散损失实现高效且长时域的视频生成。

Development and validation of an autonomous artificial intelligence agent for clinical decision-making in oncology

发表：2025/6/6

多模态临床决策支持系统视觉 Transformer 在肿瘤学中的应用精确肿瘤学工具集成自动化人工智能临床代理GPT-4 在医疗决策中的应用

本研究开发了一种自主人工智能智能体，结合了GPT4和多模态精准肿瘤学工具。通过评估20个真实病例，该智能体显示出87.5%工具使用准确率和91.0%正确临床结论，决策准确率显著提高至87.2%。这些结果为个性化肿瘤学支持系统的部署奠定基础。

Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation

发表：2025/12/21

实时视频生成视频生成框架历史记忆保持记忆压缩与生成自回归模型

本文提出了MAG（记忆与生成）框架，通过解耦内存压缩与帧生成解决实时视频生成中的历史一致性问题。采用专用内存模型将历史信息压缩为紧凑的键值缓存，并利用生成器模型合成新帧。引入MAGBench基准评估历史记忆保持能力，实验表明在保持实时性能的同时显著提升场景一致性。

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

发表：2025/10/1

人形机器人牵引与交互数据生成交互保持数据生成引擎动态运动重定向机器人长时间任务执行能力运动捕捉数据集

本文提出了OmniRetarget，一个旨在弥补人形机器人与人类之间“体现差异”的数据生成引擎。通过引入交互网格，最小化拉普拉斯变形并强制物理约束，该引擎在与环境和物体的关键交互中，生成高质量的运动轨迹并有效支持RL策略训练，实际测试显示支持长达30秒的复杂任务。

…

21 - 40 / 972

跳转至

© 2025 AiPaper · 友情链接 · 站点地图