首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

Enhancing Sequential Recommendation with World Knowledge from Large Language Models

发表：2025/11/25

基于大语言模型的序列推荐系统大语言模型世界知识增强生成增强检索方法多层次注意力机制动态用户兴趣建模

本文提出了GRASP框架，通过生成增强检索和多级注意力机制，克服了传统序列推荐系统在信息捕获方面的局限性。研究表明，GRASP能够在存在大语言模型幻觉的情况下，有效利用世界知识，从而增强用户动态兴趣的建模和推荐性能，达到先进水平。

Towards A Tri-View Diffusion Framework for Recommendation

发表：2025/11/25

基于扩散模型的推荐系统最大化Helmholtz自由能的推荐框架接受-拒绝Gumbel采样过程用户偏好建模与生成扩散模型优化方法

本文提出了一种面向推荐的三视图扩散框架，结合热力学视角，揭示现有扩散模型推荐系统通过最大化能量而运行。新的框架通过最大化亥姆霍兹自由能整合了优化策略，同时引入去噪器和接受拒绝Gumbel采样过程，显著提升了推荐系统的准确性和效率。

NAGphormer: A Tokenized Graph Transformer for Node Classification in Large Graphs

发表：2022/6/10

图节点分类图变换器架构邻域聚合方法Hop2Token 模块大规模图处理

本文提出了一种名为NAGphormer的邻域聚合图Transformer，旨在解决图Transformer在大型图节点分类中遇到的计算复杂性问题。通过引入Hop2Token模块，该模型将节点视为序列以聚合多跳邻域特征，显著提高了节点表示的有效性和模型的扩展性，并在各类基准数据集上展现出优于当前图Transformer和主流GNN的表现。

Single-Stage Keypoint-Based Category-Level Object Pose Estimation from an RGB Image

发表：2021/9/14

单阶段关键点物体姿态估计RGB图像中的类别级物体姿态估计未知实例的6-DoF姿态估计基于convGRU的信息传播Objectron基准测试

本文提出一种单阶段、基于关键点的类别级六自由度（6DoF）物体姿态估计方法，通过单个RGB图像输入，实现对未知物体实例的姿态估计。创新之处在于利用卷积门控循环单元（convGRU）在简化任务间有效传播信息，经过广泛实验验证在Objectron基准测试中超越了现有最先进的方法。

Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects

发表：2018/9/28

深度物体姿态估计合成数据在机器人操作中的应用6自由度姿态估计数据域随机化与真实图像实时物体姿态估计系统

本文提出了一种深度物体位姿估计系统DOPE，利用合成数据（结合域随机化与光照真实感数据）训练深度网络，以解决6DoF位姿估计问题。该方法有效克服“现实差距”，在真实场景中展现出优异性能，适用于机器人抓取任务。

K*-Means: A Parameter-free Clustering Algorithm

发表：2025/5/17

参数自适应聚类算法最小描述长度原则k*-均值聚类聚类优化算法

本文提出了一种新颖的聚类算法kmeans，完全无须用户设置聚类数量或任何其他参数。该算法利用最小描述长度原理，自动确定最优聚类数量k，并通过聚类的分裂与合并过程优化kmeans目标函数。实验表明，kmeans在k未知的情况下优于现有方法，同时具备较强的准确性与良好的扩展性。

Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm (P5)

推荐系统语言处理统一预训练推荐个性化提示生成推荐系统知识迁移任务通用性增强

论文提出了一种名为P5的统一框架，将推荐任务转化为语言处理问题，利用自然语言序列表示用户物品交互及元数据。P5通过个性化提示，基于Transformer架构，实现多任务共享训练，展现出优越的零样本泛化能力。

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

发表：2025/10/29

视觉语言动作模型微调视觉表示对齐方法超出分布的泛化能力视觉语言模型表现分析视觉动作知识保留

本文研究了视觉语言动作（VLA）模型在微调过程中如何影响视觉表征。发现简单的动作微调会导致视觉知识退化，进而影响在新的分布外场景中的表现。为解决这个问题，提出了一种视觉表征对齐的方法，通过与冻结的视觉教师模型保持对齐，成功恢复了视觉语义能力，提升了模型的泛化能力。

Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG

发表：2025/1/16

Agentic RAG架构综述自适应检索增强生成多智能体协作策略动态任务管理实时数据检索与上下文理解

智能体检索增强生成（Agentic RAG）通过将自主AI智能体嵌入到RAG管道中，克服了传统RAG系统的局限性，提升了响应的灵活性和上下文感知能力。本文综述了Agentic RAG的核心原则、分类法及在医疗、金融、教育等领域的应用，同时探讨了系统扩展和道德决策的挑战。

ISPDiffuser: Learning RAW-to-sRGB Mappings with Texture-Aware Diffusion Models and Histogram-Guided Color Consistency

发表：2025/4/11

RAW到sRGB映射纹理感知扩散模型直方图指导颜色一致性图像信号处理模拟手机传感器图像处理

本文提出了ISPDiffuser，一个基于纹理感知扩散模型的Raw到sRGB映射框架，旨在解决现有方法在细节和色彩一致性中的不足。该框架引入了纹理增强损失和直方图引导色彩一致性模块，实验表明其在定量和视觉效果上优于现有技术。

DiffRAW: Leveraging Diffusion Model to Generate DSLR-Comparable Perceptual Quality sRGB from Smartphone RAW Images

发表：2024/3/24

基于扩散模型的图像生成智能手机RAW图像处理DSLR图像质量提升感知质量优化图像对齐与映射

本文提出了一种新方法DiffRAW，利用扩散模型将智能手机RAW图像转换为感知质量媲美DSLR的sRGB图像。该方法通过学习DSLR图像的高质量细节分布，增强输出图像的细节，同时保持RAW图像的结构信息，确保色彩和空间对齐，从而在多个评估指标上达到最先进的性能。

Recommender Systems in the Era of Large Language Models (LLMs)

发表：2023/7/5

基于大语言模型的推荐系统大语言模型微调生成式推荐系统推荐系统的预训练与调优大语言模型的提示方法

本文回顾了利用大型语言模型（LLMs）强化推荐系统的各类方法，包括预训练、微调和提示。通过综合分析这些技术，作者强调LLMs在编码用户和物品特征、提升理解和生成能力方面的潜力，以及其在未来推荐系统研究中可能的应用方向。

What Matters to Student Success: A Review of the Literature

发表：2006/1/1

学生成功因素高等教育学生体验学生参与度框架教育政策与学生需求对齐学生保留与成就

本报告通过文献综述分析高等教育中影响学生成功的因素，识别促进学生留存和学业成就的关键主题和有效实践。研究强调院校支持、学生参与和教育政策与学生需求的一致性对学生成功的重要性，尤其关注历史上代表性不足群体。

Can LLMs Address Mental Health Questions? A Comparison with Human Therapists

发表：2025/9/16

基于大语言模型的心理健康问答人类治疗师与大语言模型比较研究情感和可读性分析人机交互在心理健康中的应用大语言模型在心理健康中的局限性

本研究比较了大语言模型（LLM）生成的心理健康回答与人类治疗师的回复。结果显示，LLM的回答在长度、可读性、词汇丰富度和积极性上更有优势，而人类治疗师的回复更常使用第一人称。尽管用户认为LLM的回答更清晰、更尊重并支持，但仍偏好人类治疗师的支持，反映出LLM在心理健康中的潜力与局限性。

Digital Image Noise Estimation Using DWT Coefficients

发表：2021/1/1

基于离散小波变换的图像噪声估计数字图像处理高斯噪声强度估计图像去噪应用

本研究提出了一种新颖的混合算法，结合了离散小波变换(DWT)与边缘信息移除技术，用于精确估计数字图像中的高斯噪声强度。通过利用Sobel边缘检测器去除与边缘相关的小波系数，并应用多项式回归提高准确度，实验证明该算法在各种噪声范围内显著优于现有的方法。

AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks

发表：2024/3/21

视频编辑任务的无调优框架图像到视频生成基于提示的视频编辑时间特征注入视觉一致性评估

本文提出了 AnyV2V，一个无需微调的视频编辑框架，解决了现有生成模型在质量和控制上的不足。其核心方法为：首先利用现成的图像编辑模型修改第一帧，然后通过时间特征注入生成编辑后的视频。AnyV2V 支持多种视频编辑任务，并在视觉一致性和编辑质量上显著优于现有方法。

Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

发表：2025/10/23

从单图像生成3D资产物理引擎集成的模拟准备资产高保真3D场景生成机器人操作中的可扩展内容创作Seed3D 1.0基础模型

本文介绍了Seed3D 1.0，一个从单张图像生成高保真、模拟就绪3D资产的基础模型，解决了开发具身AI所需的可扩展训练环境中内容多样性与物理精度的平衡问题。Seed3D 1.0生成的资产具备精确的几何结构和逼真的材质，可直接集成到物理引擎，支持机器人操作与完整场景生成，推进基于物理的世界模拟器的发展。

Qwen-Image Technical Report

发表：2001/8/4

文本到图像生成图像生成模型图像编辑技术双编码机制数据管道优化

QwenImage是一款图像生成模型，通过全面的数据流水线和渐进式训练策略，显著提升了复杂文本渲染和图像编辑的能力。采用双编码机制，平衡语义一致性与视觉保真度，使其在中文文本生成上表现出色，取得了最先进的性能。

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

发表：2001/11/6

视觉语言模型视频生成模型多模态推理视频思维基准

思考视频”范式通过整合视频生成模型，提升了多模态推理的能力。该方法在“视频思考基准”上得到验证，表明在视觉与文本任务中性能均有所改善，克服了现有方法的静态约束与模态分离的问题。

Grounding Computer Use Agents on Human Demonstrations

发表：2001/11/10

大规模桌面基础数据集桌面用户界面元素映射指令到界面元素的转换模型GroundNext 模型

本研究推出了，一个大规模桌面接地数据集，基于专家人类演示构建，涵盖87款应用程序，5.6万张截图，超过356万条标注。利用该数据集，开发了模型，在多个基准测试中实现了领先性能，显示了高质量数据在计算机使用智能体研究中的重要性。

……

481 - 500 / 982

跳转至

© 2025 AiPaper · 友情链接 · 站点地图