Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
TL;DR 精炼摘要
本研究探讨了视频生成模型(以Veo-3为例)作为零样本推理器的能力,提出“视频帧链”推理概念,构建MME-CoF基准以评估12个推理维度。结果显示,模型在短期空间连贯性表现良好,但在长程因果推理和几何约束上存在明显局限,尚不能独立运作。
摘要
Recent video generation models can produce high-fidelity, temporally coherent videos, indicating that they may encode substantial world knowledge. Beyond realistic synthesis, they also exhibit emerging behaviors indicative of visual perception, modeling, and manipulation. Yet, an important question still remains: Are video models ready to serve as zero-shot reasoners in challenging visual reasoning scenarios? In this work, we conduct an empirical study to comprehensively investigate this question, focusing on the leading and popular Veo-3. We evaluate its reasoning behavior across 12 dimensions, including spatial, geometric, physical, temporal, and embodied logic, systematically characterizing both its strengths and failure modes. To standardize this study, we curate the evaluation data into MME-CoF, a compact benchmark that enables in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our findings reveal that while current video models demonstrate promising reasoning patterns on short-horizon spatial coherence, fine-grained grounding, and locally consistent dynamics, they remain limited in long-horizon causal reasoning, strict geometric constraints, and abstract logic. Overall, they are not yet reliable as standalone zero-shot reasoners, but exhibit encouraging signs as complementary visual engines alongside dedicated reasoning models. Project page: https://video-cof.github.io
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
英文标题: Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark 中文翻译: 视频模型准备好成为零样本推理器了吗?基于 MME-CoF 基准的实证研究
1.2. 作者
第一作者: Ziyu Gu (香港中文大学 IMIXR 实验室) 主要合作者: Xinyan Chen, Renrui Zhang (香港中文大学 MMLab), Ruichuan An (北京大学), Yu Qi (东北大学) 等。 通讯作者: Hongsheng Li, Pheng-Ann Heng
1.3. 发表期刊/会议
发表状态: 预印本 (arXiv) 发布时间: 2025年10月30日 (UTC)
1.4. 摘要
当前的视频生成模型(如 Sora, Veo)能够生成高质量、时间连贯的视频,这暗示它们可能已经内化了世界知识。本研究提出了一个核心问题:这些视频模型能否在没有专门训练的情况下,作为“零样本推理器”解决复杂的视觉推理任务? 作者以 Google 的 Veo-3 模型为主要研究对象,涵盖了空间、几何、物理、时间逻辑等 12 个推理维度。为了标准化这一研究,作者构建了 MME-CoF 基准测试集。 主要结论: 虽然视频模型在短时间内的空间连贯性和局部动态上表现出色,但在长程因果推理、严格的几何约束和抽象逻辑方面存在显著局限。目前它们还不能作为独立的零样本推理器,但展现出了作为辅助视觉引擎的潜力。
1.5. 原文链接
ArXiv: https://arxiv.org/abs/2510.26802v1 PDF: https://arxiv.org/pdf/2510.26802v1.pdf 项目主页: https://video-cof.github.io
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 随着视频生成模型(如 Sora, Veo-3)在生成逼真视频方面取得巨大突破,学术界开始讨论这些模型是否不仅仅是“画师”,而是具备理解物理世界规律的“世界模拟器”。
-
现有挑战: 尽管生成的视频看起来很真实,但我们不清楚模型是真正理解了因果逻辑,还是仅仅记住了训练数据中的表面模式(Surface-level patterns)。目前的评估主要集中在视频质量(清晰度、流畅度)上,缺乏针对深层推理能力(Reasoning Capabilities)的系统性评估。
-
创新思路: 作者借鉴了大语言模型(LLM)中的 思维链 (Chain-of-Thought, CoT) 概念,提出了 视频帧链 (Chain-of-Frame, CoF) 的假设。即:视频模型生成的一帧接一帧的序列,可以被视为一种视觉上的逐步推理过程。通过观察模型生成的视频序列,我们可以判断其是否掌握了解决问题的逻辑。
下图(原文 Figure 1)展示了该研究的概览,视频模型被置于中心,周围环绕着需要测试的12个推理维度(如物理、几何、计数等):
该图像是示意图,展示了视频模型在零-shot 推理中的应用。图中通过中心的“视频模型”节点,连接了包括3D几何推理、物理推理、对象计数推理等12个不同的推理维度,体现了当前视频模型在多种推理场景下的潜力与挑战。
2.2. 核心贡献
-
首个系统性实证研究: 对视频模型(以 Veo-3 为代表)的推理潜力进行了深入的定性和定量分析,涵盖 12 个维度。
-
MME-CoF 基准测试集: 创建了一个包含 59 个精选案例的紧凑型基准,专门用于评估视频模型的 Chain-of-Frame (CoF) 推理能力。
-
发现与洞察: 揭示了视频模型在“短程空间一致性”上的优势以及在“长程因果逻辑”上的系统性失败,明确了其作为独立推理器的局限性。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下概念:
- 视频生成模型 (Video Generation Models): 这类人工智能模型(如 Sora, Veo, Kling)接收文本提示(Prompt),输出一段视频。它们通常基于扩散模型 (Diffusion Models) 或 Transformer 架构,通过学习海量视频数据,掌握像素随时间变化的规律。
- 零样本学习 (Zero-Shot Learning): 指模型在没有针对特定任务进行微调或展示示例的情况下,仅凭预训练的知识直接完成任务的能力。本文测试的就是视频模型“出厂设置”下的推理能力。
- 思维链 (Chain-of-Thought, CoT) 与 视频帧链 (Chain-of-Frame, CoF):
- CoT: 在语言模型中,让模型把解题步骤一步步写出来,能显著提高推理准确率。
- CoF: 本文提出的概念。由于视频是按时间顺序生成的,每一帧都基于前一帧。作者认为,视频生成的这种“时间序列”特性,本质上就是一种视觉上的“思维链”。如果模型能生成一段符合逻辑的视频(例如,球撞墙反弹),说明它完成了一次视觉推理。
3.2. 前人工作
-
视频理解 (Video Understanding): 传统任务是让 AI “看”视频并回答问题(如分类、检测)。
-
视频生成: 也就是本文的研究对象。OpenAI 的 Sora 报告声称视频模型可以作为“世界模拟器”。
-
视觉推理评估: 之前多集中在多模态大语言模型(MLLM,如 GPT-4V)的理解能力上。本文的独特性在于:它不评估模型“看”的能力,而是评估模型“画”(生成)出正确推理过程的能力。
4. 方法论
本研究不是提出一个新的模型架构,而是一套评估方法论。作者设计了一系列特殊的任务,强迫视频生成模型通过“生成视频”来展示其推理过程。
4.1. 任务分类学 (12个维度)
作者将视觉推理能力细分为 12 个维度,旨在全方位扫描模型的能力边界。以下是主要维度的详细拆解:
4.1.1. 视觉细节推理 (Visual Detail Reasoning)
- 任务: 测试模型能否根据指令关注到细微的物体属性(颜色、材质)或空间关系。
- Prompt 设计: 指令通常要求“放大(Zoom in)”某个特定物体。
- 表现:
-
成功: 能够定位显著的目标。
-
失败: 当目标很小、被遮挡或环境杂乱时,模型会由“幻觉”主导,生成错误的细节。
下图(原文 Figure 3)展示了 Veo-3 在视觉细节推理上的表现,例如能否正确放大带有 Apple logo 的黑色包:
该图像是一个示意图,展示了一个黑色背包在不同角度下的多帧图像序列,旨在展示视频模型在空间和时间方面的推理能力。
该图像是插图,展示了Veo-3在视觉细节推理中的能力。左侧为输入图像的第一帧,右侧为推理生成的视频帧,显示了模型在定位目标和维持视觉属性上的表现,以及在小目标、遮挡或杂乱背景中的常见失误。
-
4.1.2. 视觉轨迹推理 (Visual Trace Reasoning)
-
任务: 类似迷宫导航或路径规划。要求模型生成物体从 A 点按特定规则移动到 B 点的视频。
-
表现: 模型在短时间内能保持路径连贯,但在长序列(Long-horizon)规划上经常失败,比如走错方向或穿墙。
下图(原文 Figure 4)展示了迷宫和路径追踪任务,我们可以看到模型经常无法完成复杂的长路径:
该图像是示意图,展示了输入图像与推理视频的关系。左侧为第一帧输入图像,右侧为推理过程中的视频帧,标记为失败的推理示例,显示了路径跟随中的错误和不一致性。
4.1.3. 物理推理 (Physics-based Reasoning)
-
任务: 涉及重力、碰撞、摩擦力等物理规律。例如:红球撞墙反弹。
-
表现: 视频看起来很“逼真”(Visual Fidelity 高),但物理量不准确。例如,能量不守恒,或者反弹角度完全违背物理定律。这说明模型是在“模仿样子”而非“计算物理”。
下图(原文 Figure 11)展示了物理推理的例子,如小球的反弹路径预测:
该图像是插图,展示了Veo-3在物理场景中的推理。左侧为输入图像,右侧为推理生成的视频的第一帧,显示了一个主要的机械装置在运动中的展现,旁边标记了不合规的动作。
4.1.4. 几何推理 (3D/2D Geometry)
-
任务: 3D 物体旋转、展开图折叠;2D 连线、形状变换。
-
表现: 这是模型的弱项。模型很难维持严格的几何约束。例如,旋转一个立方体时,立方体可能会变形、扭曲,甚至变成其他形状。
下图(原文 Figure 7)展示了 3D 几何推理,模型在旋转物体时往往无法保持结构的刚性:
该图像是一个插图,展示了Veo-3在三维几何推理中的表现。左侧为输入图像,右侧为推理视频的第一帧,显示了初始状态和旋转状态。尽管Veo-3在基本几何推理中表现出一定潜力,其在复杂几何变换中的表现仍不稳定。
下图(原文 Figure 9)展示了 2D 几何推理,模型在简单的点对点连线任务中也缺乏精确性:
该图像是一个示意图,展示了Veo-3在2D几何推理中的表现。左侧为输入图像,右侧为推理视频的第一帧,表现出Veo-3在识别简单形状方面的潜力,但在准确的几何操作中缺乏必要的约束意识。
4.1.5. 其他维度
包括 对象计数 (Object Counting)(通常数不对,且相机移动会导致物体数量变化)、图表推理 (Table & Chart)(无法精确缩放表格特定行)、GUI 推理(点击图标位置不准)以及 具身推理 (Embodied) 和 医学推理 (Medical)。
4.2. 提示词工程 (Prompt Engineering)
这是本研究的核心方法。为了让生成模型“做题”,作者将推理问题转化为视频生成指令。
- 原则:
- 静态镜头 (Static Shot): 除非任务需要,否则要求相机不动,以减少干扰。
- 分步指令: 使用 "step-by-step", "smoothly" 等词汇引导 CoF 推理。
- 视觉化: 将抽象问题(如“A在B左边吗?”)转化为动作(“放大位于左边的物体”)。
4.3. 评估标准
作者采用了三级定性评估标准:
-
Good (好): 视觉清晰,逻辑正确,时间连贯。
-
Moderate (中): 大致正确,但有模糊、轻微抖动或非关键性错误。
-
Bad (差): 目标错误,物理违背常识,严重幻觉或视频崩坏。
此外,定义了 成功率 (Success Rate): 每个 Prompt 生成 6 个视频样本进行统计。
5. 实验设置
5.1. 数据集 (MME-CoF Benchmark)
-
来源: 精选自现有的推理基准(如 MMMU, V*Bench, ChartQA 等)并改编为视频生成任务。
-
规模: 59 个精心设计的条目(Entries),覆盖 12 个类别。
-
特点: 这是一个紧凑型(Compact)基准,强调深度分析而非海量数据。
下图(原文 Figure 19)展示了 MME-CoF 中各类别任务的分布比例:
该图像是一个图表,展示了MME-CoF基准的各类推理的分布情况。在图中,各类推理的比例通过不同颜色的扇形表示,如物体计数推理(10.2%)和2D几何推理(11.9%)等,反映了视频模型在进行零-shot 推理时的能力和特点。
5.2. 评估模型
研究评估了当前最先进的 5 个视频生成模型:
- Veo-3.0-preview (Google)
- Veo-3.0-fast (Google)
- Sora-2-pro (OpenAI)
- Sora-2 (OpenAI)
- Kling-v1 (快手 - 可灵)
- Seedance-1.0-pro
5.3. 评估指标
除了人工定性评估,作者还使用了 Gemini-2.5-Pro 作为自动裁判,对生成的视频进行打分(0-4分)。指标定义如下:
-
指令对齐 (Instruction Alignment): 视频是否忠实执行了 Prompt 中的步骤?
-
时间一致性 (Temporal Consistency): 帧与帧之间是否流畅,有无突变?
-
视觉稳定性 (Visual Stability): 画面是否稳定,无噪点或崩坏?
-
内容保真度 (Content Fidelity): 关键物体是否保持原样,有无凭空消失或变形?
-
焦点相关性 (Focus Relevance): 镜头是否聚焦在正确的推理区域?
6. 实验结果与分析
6.1. 核心结果分析
总体结论: 目前的模型还不能被称为合格的推理器。
-
视觉稳定性得分最高: 现在的模型生成的视频都很清晰、流畅(这是它们训练的目标)。
-
指令对齐得分极低: 模型经常忽略复杂的逻辑指令,或者只执行第一步。
-
模式匹配 > 逻辑推理: 模型倾向于生成“看起来合理”的视频,而不是“逻辑正确”的视频。例如,在物理碰撞中,球确实弹开了(看起来合理),但弹开的角度是错的(逻辑错误)。
下图(原文 Figure 2)的雷达图直观展示了各模型在不同维度上的短板(分数普遍较低):
该图像是示意图(a),展示了MME-CoF基准的评估雷达图。不同模型在多种推理任务上的表现有所差异,但大多数模型在所有任务上的推理能力均有限。
6.2. 定量结果 (Quantitative Results)
以下是原文 Table 2 的结果,展示了各模型在 MME-CoF 上的整体表现(均分与标准差)。可以看出,即便是最强的模型,平均分也不到 2.0(满分 4.0),说明推理能力普遍较弱。
注:以下表格展示了模型层面的整体及分维度表现。
| Model | Overall | Instruction Alignment | Temporal Consistency | Visual Stability | Content Fidelity | Focus Relevance |
|---|---|---|---|---|---|---|
| Kling-v1 | 0.64 ± 0.91 | 0.01 ± 0.09 | 0.15 ± 0.75 | 2.43 ± 1.86 | 0.21 ± 0.79 | 0.43 ± 1.07 |
| Seedance-1.0-pro | 1.41 ± 1.51 | 0.30 ± 0.86 | 1.65 ± 1.57 | 2.00 ± 1.72 | 1.13 ± 1.65 | 1.98 ± 1.75 |
| Veo-3.0-fast | 1.44 ± 1.51 | 0.56 ± 1.09 | 1.37 ± 1.51 | 1.88 ± 1.73 | 1.10 ± 1.52 | 2.27 ± 1.69 |
| Veo-3.0-preview | 1.45 ± 1.50 | 0.54 ± 1.06 | 1.43 ± 1.53 | 1.89 ± 1.71 | 1.12 ± 1.49 | 2.26 ± 1.73 |
| Sora-2-pro | 1.66 ± 1.53 | 0.48 ± 0.96 | 1.36 ± 1.59 | 2.39 ± 1.65 | 1.64 ± 1.72 | 2.44 ± 1.73 |
| Sora-2 | 1.72 ± 1.59 | 0.59 ± 1.12 | 1.52 ± 1.69 | 2.32 ± 1.68 | 1.62 ± 1.75 | 2.52 ± 1.71 |
分析:
- Sora-2 系列在整体表现上略优,特别是在物理推理和医疗推理方面。
- Kling-v1 在视觉稳定性上表现不错,但几乎无法遵循推理指令(Instruction Alignment ≈ 0)。
- 所有模型在 Instruction Alignment(指令对齐)上的得分都极低,验证了它们很难执行复杂的多步逻辑。
6.3. 典型失败模式 (Failure Modes)
结合定性图表,作者总结了以下常见的失败模式:
-
长程退化 (Long-horizon Degradation): 随着视频帧数的增加,推理逻辑逐渐崩坏。例如,走迷宫走到一半突然穿墙。
-
几何不一致 (Geometric Inconsistency): 旋转物体时,物体的形状、长宽比发生改变。
-
物理幻觉 (Physical Hallucination): 物体悬浮、穿模、碰撞后速度异常。
-
计数不稳定: 随着相机移动,画面中的物体数量忽多忽少(Object Permanence 缺失)。
下图(原文 Figure 14)展示了计数任务中的失败,扫描线移动时,物体并没有稳定存在:
该图像是一个示意图,展示了Veo-3在2D对象计数推理中的应用。图中展示了一个扫描器沿着黑线移动,从左下角到右上角,出现的黄框标识出进入的新网格,但Veo-3缺乏空间控制,导致计数过程中的不稳定性和不准确性。
7. 总结与思考
7.1. 结论总结
本论文通过构建 MME-CoF 基准,对当前的顶尖视频模型进行了严苛的“逻辑体检”。结论是:视频模型目前是优秀的“画师”,但还不是合格的“物理学家”或“逻辑学家”。 它们展示出的推理能力更多是基于海量数据训练得来的表面统计规律 (Surface-level correlations),而非对世界本质规律的理解。它们在短时间的局部动态上表现良好(Local Consistency),但在涉及全局逻辑、严格几何和长程因果的任务上表现不佳。
7.2. 局限性与未来工作
- 基准规模: MME-CoF 只有 59 个条目,虽然精选但规模较小,可能存在覆盖面不足的问题。
- 评估主观性: 尽管使用了 Gemini 进行打分,但在涉及视觉逻辑判断时,自动化评估仍可能存在偏差。
- 未来方向: 作者建议,视频模型不应作为独立的推理器,而应作为辅助视觉引擎。未来的系统可能由一个专门的“逻辑推理模型”(如 GPT-4)负责规划,指挥视频模型进行“视觉模拟”,二者协作完成任务。
7.3. 个人启发与批判
- 视角转换: 这篇文章非常有意思的一点是视角的转换。通常我们将视频生成视为一种创作工具(Creative Tool),但作者将其视为一种推理过程(Reasoning Process)。这为评估生成模型提供了一个全新的维度。
- 对“世界模拟器”的祛魅: OpenAI 等公司宣传视频模型能模拟物理世界。本文用详实的实验数据泼了一盆冷水:模型生成的物理现象经不起推敲。这提醒我们在应用这类模型进行科学模拟或工程仿真时要极度谨慎。
- Chain-of-Frame 的潜力: 虽然目前表现不佳,但 CoF 的概念很有前景。如果能引入类似强化学习的方法(如 DeepSeek-R1 中的思路)来奖励视频生成的逻辑一致性,也许视频模型真的能进化出视觉推理能力。
相似论文推荐
基于向量语义检索推荐的相关论文。