论文
登录后可查看剩余解析次数。
标签筛选
大规模多模态模型
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
发表:2025/11/26
长视频推理框架多模态链式工具推理长视频问题回答数据集视听证据检索与处理大规模多模态模型
本文提出了LongVT,一个端到端智能框架,通过交错式多模态工具思维链增强长视频推理能力。它借助大型多模态模型的时间定位能力,进行全球到局部的推理过程,并发布了VideoSIAH数据集以支持训练和评估,显著提升了在多个基准测试中的表现。
03
SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model
社交媒体图像深伪检测大规模多模态模型深伪定位与解释深伪检测数据集图像真实性鉴别
本文提出了SIDA框架,利用大型多模态模型,实现社交媒体图像深度伪造的检测、定位和解释。同时,创建了社交媒体图像检测数据集SIDSet,包含30万张多样化的合成和真实图像,具有高真实性和全面注释,显著提高了深度伪造检测的效果。
09