首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

RecUserSim: A Realistic and Diverse User Simulator for Evaluating Conversational Recommender Systems

发表：2025/6/25

对话式推荐系统评估用户模拟器大语言模型应用个性化推荐系统多轮交互

本文提出了RecUserSim，一种基于大型语言模型的用户模拟器，专为评估对话推荐系统设计。RecUserSim通过配置文件模块、记忆模块及行动模块，实现了更加真实和多样化的用户模拟，同时具备明确的评估机制。实验结果显示其在对话生成和评估一致性方面优于现有方法。

Stop Playing the Guessing Game! Target-free User Simulation for Evaluating Conversational Recommender Systems

发表：2024/11/25

对话式推荐系统用户模拟器评估偏好引出能力评估目标无偏用户模拟PEPPER评估协议

本研究提出PEPPER，一种新颖的对话推荐系统（CRS）评估协议，使用无目标用户模拟器以提升评估的真实性，帮助用户逐步发现偏好，克服了以往目标偏见模拟器带来的局限。实验验证PEPPER在偏好激发和推荐方面的有效性。

How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation

发表：2024/3/25

大语言模型的用户模拟器对话推荐系统分析用户模拟器的限制数据泄露问题推荐系统模型验证

本文探讨了基于大型语言模型(LLMs)的用户模拟器在对话推荐系统中的局限性，分析了数据泄露、对话历史依赖及控制挑战等问题。为改进这些局限，提出了一种新策略SimpleUserSim，以导向对话主题，促进了互动信息的有效利用。

ProEdit: Inversion-based Editing From Prompts Done Right

发表：2001/12/26

基于反演的图像编辑视觉生成模型提示驱动的图像处理图像编辑系统内容生成与编辑

ProEdit 是一种新颖的基于反演的图像编辑方法，通过引入和模块，减小源图像对编辑效果的影响，提升编辑一致性。该方法在多项基准测试中展现出最先进的性能，并具备即插即用特性，可与现有编辑系统无缝集成。

Whole-body End-Effector Pose Tracking

发表：2024/9/24

全身末端执行器位姿跟踪腿脚机器人操作基于强化学习的位姿跟踪游戏化课程训练策略地形感知采样策略

本研究提出了一种全身强化学习方案用于四足机器人在复杂地形中的末端执行器姿态跟踪。结合地形感知采样策略和博弈式课程学习，系统可有效应对高自由度和环境变化，实现了高精度位置（误差2.64 cm）和方向（误差3.64°）跟踪，展现了在楼梯等多样地形下的强适应性。

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

发表：2025/12/2

统一多模态模型联合视觉表示学习视觉自编码器多模态理解与生成图像与视频处理

本文介绍了TUNA，一个原生统一多模态模型，通过级联变分自编码器和表示编码器构建统一视觉表示空间，从而同时提升理解与生成任务的性能。该模型避免了旧方案中的表示格式不匹配问题，并显示编码器的重要性。TUNA在多模态基准测试中实现了最先进的成果，证明了其有效性与可扩展性。

MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives

发表：2025/12/17

长视频叙事生成记忆设计优化动态记忆管理流媒体视频生成视频生成注意力机制

本文提出了MemFlow，一个流动自适应记忆模型，解决了长视频叙事中的一致性和效率问题。通过根据文本提示动态更新记忆库，确保生成的视频块能够保持叙事连贯性。MemFlow在生成过程中仅激活相关的记忆词元，其计算负担相对较低，兼容现有流式视频生成模型。

FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion

发表：2025/12/12

一致性视频生成自回归扩散模型多镜头视频合成视频生成数据集构建角色与场景一致性

FilmWeaver是一个新颖框架，解决了多镜头视频生成中的一致性挑战。通过自回归扩散方法，该模型实现了任意长度视频生成。核心在于将相互镜头一致性与镜头内连贯性解耦，并运用双层缓存机制保持角色和背景的一致性，支持灵活的视频创作。

StoryMem: Multi-shot Long Video Storytelling with Memory

发表：2025/12/23

多镜头视频故事生成记忆驱动视频生成视频扩散模型微调长视频一致性建模故事生成基准数据集

本研究提出了StoryMem，一个新的视频生成范式，通过显式视觉记忆实现多镜头长视频的迭代合成。该方法结合了MemorytoVideo设计和潜空间拼接技术，维护动态记忆库，显著提升了跨镜头一致性和视频质量，为分钟级故事生成奠定了基础，并引入了STBench评估基准以支持未来研究。

VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

发表：2025/12/4

自回归视频生成长视频生成模型混合状态空间记忆视频合成动态建模时序一致性保证

本文提出了VideoSSM，一种结合自回归扩散和混合状态空间记忆的长视频生成模型。其独特的状态空间模型和上下文窗口设计有效解决了分钟级视频生成中的误差累积、运动漂移和内容重复问题，提升了时间一致性和运动稳定性，支持交互式提示词生成，展现了出色的全局一致性。

From Mystery to Mastery: Failure Diagnosis for Improving Manipulation Policies

发表：2024/12/4

机器人操作失败诊断深度强化学习视觉-语言嵌入增强机器人政策的鲁棒性未知环境中的故障模式识别

本研究提出了RoboMD框架，通过深度强化学习自动识别机器人操作策略中的未知故障模式。利用视觉语言嵌入，框架可在未见环境中诊断故障，从而量化和排序故障概率，显著提升机器人的操作鲁棒性，为策略微调提供有效指导。

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

发表：2001/12/24

一次性视频生成基于帧的生成长时视频合成用户输入驱动生成无缝视频合成

本文介绍了DreaMontage框架，旨在通过用户提供的任意帧生成无缝且具有表现力的一镜到底视频。为应对生成过程中的平滑性、连贯性和计算效率挑战，提出了三项创新：扩散变换器架构、视觉表达有监督微调与定制化直接偏好优化，以及分段式自回归推理策略。

RELATION EDITING FOR LARGE LANGUAGE MODELS

大语言模型知识编辑关系编辑任务自适应学习策略遗忘与编辑框架关系编辑数据集

本研究提出了关系编辑的任务，聚焦于修改大型语言模型中的关系，并构建了专门的数据集ReEditBench进行基准测试。研究显示，现有的方法难以消除旧信息，保留率高达98.20%。为解决这一问题，提出了一种新颖的遗忘与编辑框架，并引入自步学习策略，显著提高了编辑性能，尤其是在关系编辑任务上。

GaussGym: An open-source real-to-sim framework for learning locomotion from pixels

发表：2025/10/17

高保真机器人仿真3D高斯Splatting实时机器人学习模拟到现实迁移向量物理仿真

本文提出GaussGym，一个开源框架，通过将3D高斯泼溅技术集成到向量化物理模拟器中，实现快速且高保真的机器人运动学习。其每秒超100,000步的速度与丰富的视觉语义提升了导航决策能力，支持在真实与模拟间迁移，推动可扩展机器人学习的进步，所有代码和数据均开源。

Video Object Segmentation using Space-Time Memory Networks

发表：2019/4/1

半监督视频目标分割空间时间记忆网络视频分割方法面向特征匹配的分割技术时序信息利用

本文提出一种半监督视频目标分割的新方法，通过引入时空记忆网络，利用过去带掩膜帧的信息来改善当前帧的分割效果。该方法在关键挑战如遮挡和外观变化中表现出色，并在YouTubeVOS和DAVIS数据集上取得了当时的最先进性能，速度较快。

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

发表：2020/5/23

检索增强生成模型知识密集型自然语言处理任务预训练序列到序列模型非参数记忆机制开放域问答任务

本文提出检索增强生成(RAG)模型，结合了参数化记忆与非参数化记忆，解决大型预训练语言模型在知识密集型任务中的局限性。通过全面训练，RAG模型在开放域问答等任务上显示出优越性能，生成的回答更具准确性和多样性。

DanceGRPO: Unleashing GRPO on Visual Generation

发表：2025/5/13

视觉生成中的相对策略优化生成模型的强化学习优化Diffusion模型与增强反馈多任务视觉生成人类偏好的视觉优化

DanceGRPO框架首次将组相对策略优化（GRPO）引入视觉生成任务，解决了现有强化学习方法在大规模提示词下的不稳定性问题。通过将采样过程重构为随机微分方程，DanceGRPO在美学、图文对齐和运动质量等方面显著优于基线，最高提升达181%。

Spatia: Video Generation with Updatable Spatial Memory

发表：2001/12/17

时空一致性建模视频生成3D场景点云交互式视频编辑空间记忆框架

本文提出了Spatia，一个通过维护和更新3D场景点云的可更新空间记忆视频生成框架。该框架利用视觉SLAM算法迭代生成视频片段，显著提高了空间和时间的一致性，同时支持精确的相机控制和3D感知的交互式编辑。

Disentangled Self-Supervision in Sequential Recommenders

发表：2020/8/20

序列推荐系统自监督学习序列到序列训练意图分离未来行为序列重构

本论文提出了一种基于潜在自监督和解耦的序列到序列训练策略，以解决传统序列推荐系统中目光短浅和推荐缺乏多样性的问题。通过重构用户的未来行为序列并解耦意图，实验显示该方法在真实和合成数据集上显著提升了推荐性能。

SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention

发表：2024/6/17

自适应结构稀疏注意力大语言模型推理加速长上下文建模低损失稀疏注意力

大型语言模型支持超长上下文，但传统注意力机制导致显著的时间延迟。本文提出了SampleAttention，一种自适应的近乎无损稀疏注意力方法，通过动态捕获稀疏模式，显著降低了推理延迟，同时保持模型的准确性。评估表明，该方法在TTFT上减少高达2.42倍，几乎不损失准确性。

…

1 - 20 / 972

跳转至

© 2025 AiPaper · 友情链接 · 站点地图