首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

多模态大语言模型

MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models

发表：2024/12/2

自定义动作转移多模态大语言模型视频扩散模型动作建模文本到视频生成

本研究提出了一种名为 MoTrans 的定制化动作迁移方法，通过基于多模态大语言模型的重描述器和外观注入模块，将特定人物动作从参考视频迁移到新视频中，从而提升复杂动作生成的效果，且实验结果显示其优于现有方法。

Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning

发表：2025/4/10

面部属性识别面部表情识别多模态大语言模型FaceInstruct-1M 数据集面部区域引导交叉注意力

本文提出了FaceLLaVA，一个多模态大语言模型，专注于人脸表情和属性的识别及推理，同时生成自然语言描述。通过开发FaceInstruct1M数据库，结合人脸几何信息与视觉特征，FaceLLaVA在多个数据集上展示了优异表现，超越现有开源模型，并在零样本设定下优于GPT的推理评分。

Qwen2.5-Omni Technical Report

发表：2025/3/26

多模态大语言模型Thinker-Talker架构时间对齐多模态RoPE音频视频同步处理流式音频生成

本技术报告介绍了Qwen2.5Omni，这是一个端到端的多模态模型，能够感知文本、图像、音频和视频，同时以流式生成文本和自然语音。模型采用交错组织音视频序列与创新的位置嵌入TMRoPE，使用ThinkerTalker架构有效避免模态干扰，且在多模态基准测试中表现出色。

UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

发表：2025/6/3

统一视觉理解与生成模型高分辨率语义编码器基于对比语义编码的生成框架图像理解与生成多模态大语言模型

UniWorldV1 是一个创新的生成框架，结合了高分辨率语义编码器，专注于视觉理解与生成。该模型利用从大规模多模态语言模型和对比学习提取的语义特征，并在仅有 270 万训练数据的情况下，实现了图像理解、生成和操作等任务的卓越性能。

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

发表：2025/7/23

视觉语言动作推理强化视觉潜在规划多模态大语言模型长时序规划机器人动作执行

本文提出了ThinkAct，一个双系统框架，通过强化视觉潜层规划连接高层推理与低层动作执行。该模型训练多模态大语言模型生成具身推理计划，并运用基于目标完成度和轨迹一致性的动作对齐视觉奖励，实现在复杂环境中的小样本适应、长时程规划和自我纠正能力。

A Multi-modal Large Language Model with Graph-of-Thought for Effective Recommendation

发表：2025/1/1

多模态大语言模型基于图的思维提示技术个性化推荐系统多模态推荐任务用户-项目交互图

本文提出了一种名为GollaRec的推荐系统模型，结合多模态大语言模型及思维图技术，旨在高效处理用户物品交互的图结构。GollaRec通过整合视觉和文本信息，利用文本图对齐与图指令微调，提升了多模态推荐任务的性能，超越了12个现有模型。

Qwen3-Omni Technical Report

发表：2025/9/22

多模态大语言模型Qwen3-Omni架构音频任务性能优化通用音频字幕生成多语言语音理解与生成

Qwen3Omni是一种单一多模态模型，首次实现文本、图像、音频和视频的最先进性能，维持与同规模单模态模型相媲美的能力，特别在音频任务上表现突出。该模型采用混合专家架构，支持多语言音频理解与生成，并通过轻量化的卷积神经网络降低延迟。

ADriver-I: A General World Model for Autonomous Driving

发表：2023/11/23

自动驾驶世界模型多模态大语言模型视觉语言动作模型Diffusion模型nuScenes数据集

提出ADriverI，一种基于多模态大语言模型与扩散技术的自动驾驶通用世界模型，通过交错视觉动作对统一视觉特征与控制信号格式，自回归预测控制动作并生成未来场景，实现迭代驱动，显著提升自动驾驶性能。

Smoothing Grounding and Reasoning for MLLM-Powered GUI Agents with Query-Oriented Pivot Tasks

发表：2025/3/1

多模态大语言模型基于大语言模型的动作规划图形用户界面（GUI）代理查询导向推理坐标定位与推理对齐

本文提出查询推理作为坐标导向定位与动作导向推理之间的桥梁，显著提升了资源受限条件下MLLM驱动GUI智能体的性能。该方法用极少训练数据实现了超越大型定位模型的效果，且融合额外语义信息可进一步增强推理能力。

A Survey on Generative Recommendation: Data, Model, and Tasks

发表：2025/10/31

生成式推荐系统大语言模型微调Diffusion模型多模态大语言模型基于大语言模型的推荐系统

本文综述生成式推荐的新范式，基于数据增强与统一、模型对齐训练及任务设计三个维度系统分析。重点探讨大型语言模型和扩散模型的创新应用，揭示生成推荐在知识整合、自然语言理解与个性化生成上的优势。

WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent

发表：2025/10/8

多模态大语言模型视觉语言动作模型大语言模型强化学习训练复杂信息检索基准视觉语言推理

WebWatcher提出一种多模态深度研究智能体，结合视觉语言推理能力，通过高质量合成轨迹冷启动训练和强化学习提升泛化性能。提出BrowseCompVL基准测试，验证其在复杂视觉文本信息检索中的领先表现，突破了传统文本中心限制。

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

发表：2024/12/19

多模态大语言模型视觉空间智能基准空间认知推理视频问答系统认知地图生成

本文提出基于视频的视觉空间智能基准VSIBench，评估多模态大语言模型在空间感知、记忆和推理的能力。结果显示，模型具备初步空间意识和局部世界模型，但空间推理仍是瓶颈。生成认知地图显著提升空间距离理解，传统语言推理方法效果有限。

Emerging Properties in Unified Multimodal Pretraining

发表：2025/5/21

多模态大语言模型大规模多模态预训练多模态推理能力提升多模态生成与理解

本文提出统一多模态预训练模型BAGEL，基于大规模交错文本、图像、视频与网页数据，仅解码器架构。BAGEL在复杂多模态推理上表现出涌现能力，超越现有开源模型，支持图像操作、未来帧预测等高级任务。代码与模型开源促进多模态研究发展。

MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Static Quantization

发表：2025/10/25

多模态大语言模型静态量化方法后训练量化框架视觉与文本模态量化大语言模型推理能力增强

本文提出MQuant，一种针对多模态大型语言模型的训练后静态量化框架。通过模态特定静态量化、注意力不变灵活切换和旋转幅度抑制，显著降低推理延迟和异常值影响，提高推理效率，支持多主流模型部署。

KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints

发表：2025/10/22

多模态大语言模型大语言模型知识利用知识注入方法知识适应与保留灾难性遗忘缓解

提出了KORE方法，通过知识导向增强和约束，有效向大型多模态模型注入新知识并保留旧知识。KORE将知识结构化处理，精确适配模型，同时利用线性层激活协方差矩阵的零空间初始化适配器，缓解遗忘问题，提升知识持续获取能力。

m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt

发表：2024/3/26

多模态大语言模型多模态多语言翻译多模态提示多语言多模态指令数据集低资源语言翻译

本文提出m3P框架，利用多模态提示将视觉上下文作为语言无关表示，促进102种语言的多模态多语言翻译。通过条件视觉语言记忆对齐多语言语义空间，在低资源环境下显著提升翻译质量，优于纯文本和现有多模态方法。

LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation

发表：2024/12/12

多模态大语言模型大规模多智能体系统多用户行为模拟电商场景模拟自洽提示机制

LMAgent提出基于多模态大语言模型的大规模多智能体社会，实现超万智能体在电商场景下的真实多用户行为模拟。创新性地引入自洽性提示机制增强决策能力，结合小世界模型快速记忆机制提升效率，展现出人类般行为和羊群效应，验证了模拟可信性。

Large Language Model Agent: A Survey on Methodology, Applications and Challenges

发表：2025/3/27

大语言模型代理系统综述大语言模型强化学习训练基于大语言模型的动作规划大语言模型推理能力增强多模态大语言模型

本文系统综述大型语言模型代理，从方法论出发构建分类体系，解析其架构、协作与演化机制，统一零散研究，揭示设计原则与复杂环境中行为的内在联系，涵盖评估、工具及应用，指明未来发展方向。

1 - 18 / 18

跳转至

© 2025 AiPaper · 友情链接 · 站点地图