论文

登录后可查看剩余解析次数。
标签筛选
视觉语言模型
Vision-Language Models for Vision Tasks: A Survey
发表:2023/4/3
视觉语言模型视觉任务的自回归推理无监督视觉识别方法大规模图像-文本对数据集视觉-语言模型预训练与评估
本论文综述了面向视觉任务的视觉语言模型(VLM),旨在解决深度神经网络(DNN)依赖众包标注和模型训练效率低的问题。通过分析网络架构、预训练目标和下游任务,整理了现有方法及其挑战,为未来研究提供了参考。
02
VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
发表:2025/12/12
视觉语言模型联合嵌入预测架构开放词汇分类文本到视频检索稀疏解码
本文提出了视觉语言模型VLJEPA,基于联合嵌入预测架构(JEPA),与经典自回归模型不同,VLJEPA在抽象表示空间内预测目标文本的连续嵌入。实验表明,该模型在参数量减少50%的情况下,性能优于传统视觉语言模型,同时支持选择性解码,减少解码操作2.85倍,适用于开放词汇分类、文本到视频检索等多种任务。
04
SCB-Dataset: A Dataset for Detecting Student and Teacher Classroom Behavior
发表:2023/4/5
课堂行为检测数据集学生与教师行为分析深度学习在教育中的应用YOLO系列算法基准测试视觉语言模型
该论文构建了首个大规模的SCBDataset,涵盖19种学生和教师课堂行为类别,解决了教育领域数据集稀缺问题。数据集分为对象检测和图像分类两部分,提供了13,330张图像和122,977个标签,有望为教育AI应用奠定基础。
05
UniTok: A Unified Tokenizer for Visual Generation and Understanding
发表:2025/2/28
统一 tokenizer视觉生成与理解多代码簿量化机制VQVAE与CLIP结合视觉语言模型
本文提出了UniTok,一个统一的视觉生成和理解分词器,利用新颖的多码本量化机制解决了VQVAE和CLIP训练目标结合中的损失冲突问题。UniTok在ImageNet上实现了0.38的rFID和78.6%的零样本准确率,且能够无缝集成至多模态大语言模型,显著提升生成和理解性能。
02
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
发表:2023/1/30
视觉语言模型BLIP-2预训练策略轻量级查询Transformer冻结图像编码器无监督图像到文本生成
BLIP2提出了一种高效的视觉语言预训练策略,利用已冻结的图像编码器和语言模型。这种方法通过轻量级的查询转换器分为两阶段进行学习,显著提升了多项视觉语言任务的性能,同时参数数量远低于现有模型,实现了更高的计算效率。
01
AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation
发表:2024/10/1
视觉语言模型机器人操作中的失败检测AHA数据集任务与运动规划基于自然语言的故障推理
AHA是一种开源的视觉语言模型,旨在通过自然语言检测和推理机器人操控中的失败。该模型将失败检测构建为自由形式的推理任务,能够适应不同机器人和任务,并提供详细解释。经过精细调优,AHA基于新生成的AHA数据集,展现出对现实世界应用的有效性和优越性。
04
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
发表:2001/11/6
视觉语言模型视频生成模型多模态推理视频思维基准
思考视频”范式通过整合视频生成模型,提升了多模态推理的能力。该方法在“视频思考基准”上得到验证,表明在视觉与文本任务中性能均有所改善,克服了现有方法的静态约束与模态分离的问题。
03
VideoAgent: Long-form Video Understanding with Large Language Model as Agent
发表:2024/3/16
长序列视频理解大语言模型作为代理多模态推理与规划视觉语言模型EgoSchema与NExT-QA基准
本文提出一种新方法VideoAgent,通过基于智能体的系统实现长视频理解。该系统结合大型语言模型和视觉语言基础模型,强调交互式推理与规划,而非直接处理长视觉序列。在EgoSchema和NExTQA基准测试上,VideoAgent分别达到了54.1%和71.3%的零样本准确率,平均仅用8.4和8.2帧,展示了其卓越的效率与有效性。
01
Explainable AI for Image Aesthetic Evaluation Using Vision-Language Models
发表:2025/2/3
视觉语言模型可解释人工智能图像美学评估
本研究利用视觉语言模型(VLM)改进图像美学评估,提出了一种可解释的评估方法。通过整合反义词提示和值分析,我们探讨了不同特征的重要性并使用回归器预测质量分数。结果显示了与人类判断的高相关性,推动了美学评估的客观性和可解释性。
06