论文
登录后可查看剩余解析次数。
标签筛选
视频问答系统
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
发表:2024/4/9
长视频理解多模态长时序模型视频问答系统视频信息存储机制基于记忆的多模态学习
本文提出了一种新的记忆增强大型多模态模型MALMM,以实现长时视频理解。模型通过在线方式处理视频,利用记忆库存储历史视频信息,突破了现有大型模型在处理视频帧数量上的限制。广泛的实验表明,MALMM在诸如视频问答和字幕生成等任务上均取得了最先进的性能。
03
Self-Chained Image-Language Model for Video Localization and Question Answering
发表:2023/5/12
自回归视频定位与问答基于BLIP-2的视觉语言模型视频问答系统时间关键帧定位无标签视频定位优化
本文提出自链式视频定位问答框架SeViLA,解决了均匀抽样视频帧导致的重要视觉信息缺失的问题。该框架通过BLIP2模型实现时间关键帧定位与问答模块的协同推理和自我优化,显著提升了视频问答的性能,并减少了对昂贵标注的需求。
01
Thinking in Space: How Multimodal Large Language Models See, Remember,
and Recall Spaces
发表:2024/12/19
多模态大语言模型视觉空间智能基准空间认知推理视频问答系统认知地图生成
本文提出基于视频的视觉空间智能基准VSIBench,评估多模态大语言模型在空间感知、记忆和推理的能力。结果显示,模型具备初步空间意识和局部世界模型,但空间推理仍是瓶颈。生成认知地图显著提升空间距离理解,传统语言推理方法效果有限。
09