论文状态：已完成

Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception

发表：2025/09/19

自适应视觉模型 (1)主动视觉感知 (1)表示学习与强化学习结合 (1)大规模视觉识别基准 (1)高效推理 (1)

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文介绍了`AdaptiveNN`框架，旨在克服现有机器视觉模型的局限性，推动从被动处理向主动自适应视觉的转变。`AdaptiveNN`将视觉感知视作粗到精的序列决策过程，能高效识别任务相关区域，大幅降低推理成本（最高28倍），且灵活适应不同任务的需求，表现出与人类类似的感知行为，展现出在计算机视觉领域的巨大潜力。

摘要

Human vision is highly adaptive, efficiently sampling intricate environments by sequentially fixating on task-relevant regions. In contrast, prevailing machine vision models passively process entire scenes at once, resulting in excessive resource demands scaling with spatial-temporal input resolution and model size, yielding critical limitations impeding both future advancements and real-world application. Here we introduce AdaptiveNN, a general framework aiming to drive a paradigm shift from 'passive' to 'active, adaptive' vision models. AdaptiveNN formulates visual perception as a coarse-to-fine sequential decision-making process, progressively identifying and attending to regions pertinent to the task, incrementally combining information across fixations, and actively concluding observation when sufficient. We establish a theory integrating representation learning with self-rewarding reinforcement learning, enabling end-to-end training of the non-differentiable AdaptiveNN without additional supervision on fixation locations. We assess AdaptiveNN on 17 benchmarks spanning 9 tasks, including large-scale visual recognition, fine-grained discrimination, visual search, processing images from real driving and medical scenarios, language-driven embodied AI, and side-by-side comparisons with humans. AdaptiveNN achieves up to 28x inference cost reduction without sacrificing accuracy, flexibly adapts to varying task demands and resource budgets without retraining, and provides enhanced interpretability via its fixation patterns, demonstrating a promising avenue toward efficient, flexible, and interpretable computer vision. Furthermore, AdaptiveNN exhibits closely human-like perceptual behaviors in many cases, revealing its potential as a valuable tool for investigating visual cognition. Code is available at https://github.com/LeapLabTHU/AdaptiveNN.

思维导图

论文精读

中文精读约 41 分钟读完 · 24,118 字

1. 论文基本信息

1.1. 标题

模仿类人自适应视觉，实现高效灵活的机器视觉感知 (Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception)

1.2. 作者

Yulin Wang†, Yang Yue†, Yang Yue†, Huanqian Wang, Haojun Jiang, Yizeng Han, Zanlin Ni, Yifan Pu, Minglei Shi, Rui Lu, Qisen Yang, Andrew Zhao, Zhuofan Xia, Shiji Song, Gao Huang

† 表示同等贡献。通讯作者：Shiji Song, Gao Huang。隶属机构：清华大学自动化系学习与感知 (Learning And Perception, LEAP) 实验室。

1.3. 发表期刊/会议

预印本 (Preprint) 文章，尚未正式发表。

1.4. 发表年份

2025年9月18日 (UTC)

1.5. 摘要

人类视觉具有高度的自适应性，通过顺序注视与任务相关的区域来高效采样复杂的环境。相比之下，当前主流的机器视觉模型被动地一次性处理整个场景，导致资源需求随着时空输入分辨率和模型尺寸的增加而急剧上升，从而产生了阻碍未来发展和实际应用的关键限制。本文引入了 AdaptiveNN，一个旨在推动从“被动”到“主动、自适应”视觉模型范式转变的通用框架。AdaptiveNN 将视觉感知公式化为一个从粗到精的 序列决策过程 (sequential decision-making process)，逐步识别并关注与任务相关的区域，在不同 视觉固定点 (fixations) 之间增量地结合信息，并在信息充足时主动结束观察。我们建立了一个整合 表征学习 (representation learning) 与 自奖励强化学习 (self-rewarding reinforcement learning) 的理论，使得 AdaptiveNN 这种不可微的模型无需对 视觉固定点 (fixation) 位置进行额外监督即可 端到端 (end-to-end) 训练。我们在涵盖9项任务的17个基准测试中评估了 AdaptiveNN，包括大规模视觉识别、细粒度判别、视觉搜索、真实驾驶和医疗场景图像处理、语言驱动的 具身人工智能 (embodied AI)，以及与人类的并排比较。AdaptiveNN 在不牺牲准确性的前提下，将推理成本降低了高达28倍，无需重新训练即可灵活适应不同的任务需求和资源预算，并通过其 视觉固定模式 (fixation patterns) 提供了增强的可解释性，展示了通向高效、灵活和可解释计算机视觉的有前景的途径 (promising avenue)。此外，AdaptiveNN 在许多情况下表现出与人类高度相似的感知行为，揭示了其作为研究 视觉认知 (visual cognition) 的宝贵工具的潜力。代码可在 https://github.com/LeapLabTHU/AdaptiveNN 获取。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2509.15333v1 PDF 链接: https://arxiv.org/pdf/2509.15333v1.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题： 当前主流的机器视觉模型采用“被动 (passive)”的处理范式，即一次性处理整个场景。这种方法导致计算和内存成本与像素数量呈线性或二次方增长，随着 输入复杂度 (input complexity)（例如，时空分辨率）和 模型尺寸 (model size) 的不断扩大，对计算资源的需求急剧增加。

重要性与现有挑战：

资源瓶颈： 高维视觉输入、大规模神经网络和效率之间形成了“不可能的三角形 (impossible triangle)”，严重阻碍了计算机视觉的未来发展及其在机器人、可穿戴设备、工业检测等实际场景中的应用。
安全风险： 在自动驾驶和医疗机器人等安全关键领域，高延迟的决策可能危及人类生命。
环境影响： 大规模计算带来的碳排放问题。
现有范式局限： 现有模型普遍缺乏人类视觉的自适应和选择性感知能力。即便有研究尝试引入自适应性，但也大多只考虑了人类视觉系统自适应能力的某个不完整方面，效果提升有限。

创新思路： 论文受到人类视觉系统的启发，提出了一种范式转变 (paradigm shift)，从“被动”到“主动、自适应”的视觉模型。人类视觉并非一次性处理所有信息，而是通过顺序注视与任务相关的区域来高效采样环境，并逐步结合信息，在信息充足时主动停止观察。这种“粗到精 (coarse-to-fine)”的 序列决策 (sequential decision-making) 过程，使得人类视觉能够在拥有强大感知能力的同时，保持高效。

2.2. 核心贡献/主要发现

提出了 AdaptiveNN 框架： 这是一个通用的、受人类视觉启发的 主动感知 (active perception) 框架，将视觉感知建模为 粗到精 (coarse-to-fine) 的 序列决策过程 (sequential decision-making process)。它能够逐步识别和关注任务相关的区域，增量地结合信息，并在信息充足时主动结束观察。
建立了理论基础： 整合了 表征学习 (representation learning) 和 自奖励强化学习 (self-rewarding reinforcement learning)，使得 AdaptiveNN 这种不可微的模型无需额外的 视觉固定点 (fixation) 位置监督，即可进行 端到端 (end-to-end) 训练。
卓越的性能和效率： 在17个基准测试和9项任务中（包括大规模识别、细粒度识别、视觉搜索、真实驾驶/医疗场景、具身AI等），AdaptiveNN 在不牺牲准确性的前提下，将推理成本降低了高达28倍。
显著的灵活性和适应性： 无需重新训练即可灵活适应不同的任务需求和资源预算，例如，可以根据可用资源动态调整 视觉固定点 (fixation) 数量以平衡效率和准确性。
增强的可解释性： 模型的 视觉固定模式 (fixation patterns) 提供了决策过程的直接可视化，有助于理解模型的行为。
高度类人行为： 在多项与人类视觉感知的并排比较中，AdaptiveNN 展现出与人类高度相似的感知行为，包括 视觉固定点 (fixation) 位置和任务难度评估，并通过“视觉图灵测试”验证了其与人类行为的不可区分性。这表明 AdaptiveNN 具有作为研究人类 视觉认知 (visual cognition) 工具的潜力。
广泛的兼容性： AdaptiveNN 与各种网络架构（如 Transformer 和 卷积神经网络 (Convolutional Neural Networks)）和任务（独立感知模型或 多模态大语言模型 (Multimodal Large Language Models, MLLM) 的基础）兼容。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 计算机视觉 (Computer Vision)

计算机视觉 (Computer Vision) 是人工智能的一个分支，旨在使计算机能够“看懂”和理解图像或视频，就像人类的视觉系统一样。这包括图像识别、物体检测、图像分割、图像生成等多种任务。

3.1.2. 深度学习 (Deep Learning)

深度学习 (Deep Learning) 是 机器学习 (Machine Learning) 的一个子领域，它使用 人工神经网络 (Artificial Neural Networks)，特别是包含多层（“深层”）网络的模型来从数据中学习复杂的模式。深度学习 在图像识别、自然语言处理等领域取得了突破性进展。

3.1.3. 表征学习 (Representation Learning)

表征学习 (Representation Learning) 是一种 机器学习 (Machine Learning) 方法，旨在自动从原始数据中学习有意义的、低维的、语义丰富的特征或 表征 (representations)，而不是依赖人工特征工程。这些学习到的 表征 可以更好地用于后续的 机器学习 任务。

3.1.4. 强化学习 (Reinforcement Learning, RL)

强化学习 (Reinforcement Learning, RL) 是一种 机器学习 范式，其中 智能体 (agent) 通过与环境交互来学习如何做出决策，以最大化累积奖励。智能体 在每个 时间步 (time step) 执行一个 动作 (action)，环境会返回一个 奖励 (reward) 和一个新的 状态 (state)。强化学习 的目标是学习一个 策略 (policy)，即从 状态 到 动作 的映射，以实现长期 奖励 的最大化。

3.1.5. 策略网络 (Policy Network)

在 强化学习 中，策略网络 (Policy Network) 是一个 神经网络 (neural network)，它学习一个从 状态 (state) 到 动作 (action) 的映射（或 动作 的概率分布）。策略网络 的目标是输出 智能体 (agent) 在给定 状态 下应该采取的 动作。

3.1.6. 价值网络 (Value Network)

在 强化学习 中，价值网络 (Value Network) 是一个 神经网络，它学习评估给定 状态 (state) 的“好坏”程度（即 状态价值 (state value)）或在给定 状态 下采取某个 动作 (action) 的“好坏”程度（即 动作价值 (action value)）。价值网络 的输出通常是 预期回报 (expected return)，即从当前 状态 或 状态-动作对 开始，遵循某个 策略 (policy) 所能获得的 未来奖励 (future rewards) 的总和。它常被用作 策略梯度 (policy gradient) 方法中的 基线 (baseline)，以减少 梯度估计 (gradient estimation) 的方差。

3.1.7. 视觉固定点 (Visual Fixations)

视觉固定点 (Visual Fixations) 是人类视觉系统在观察场景时，眼睛在某个特定区域停留的时间段。在此期间，人眼会集中收集该区域的详细信息。人类视觉通常通过一系列 视觉固定点 和快速的 眼跳 (saccades) 来扫描和理解环境，而非一次性处理整个视野。

3.1.8. 端到端训练 (End-to-End Training)

端到端训练 (End-to-End Training) 是一种 机器学习 方法，其中整个模型（从输入到输出）作为一个单一的、连续的系统进行训练，而不需要在中间步骤进行人工干预或单独优化子模块。这意味着模型直接从原始输入学习到最终输出，所有组件的参数都是联合优化的。

3.1.9. 计算量 (FLOPs)

FLOPs (Floating Point Operations) 表示 浮点运算次数，是衡量 神经网络 (neural network) 模型计算复杂度的一个常用指标。它量化了模型执行推理或训练所需的数学运算量，通常用于评估模型的计算效率。

3.2. 前人工作

3.2.1. 被动视觉范式 (Passive Vision Paradigm)

自几十年前建立以来，主流的 表征学习 (representation learning) 范式 (paradigm) 中，模型通常被动地接收输入，并一次性处理整个图像或视频。这意味着计算和内存成本与像素数量（因此与图像高度或宽度的平方）呈线性或二次方关系。这种 被动视觉范式 (Passive Vision Paradigm) 在早期处理小图像（如 $28 \times 28$ 的手写数字）时问题不大，但在现代处理高分辨率复杂场景时，成为一个关键限制。

3.2.2. 早期的自适应视觉模型 (Early Adaptive Vision Models)

早在2015年，图灵奖得主 Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton 就曾提出，未来的 计算机视觉 (Computer Vision) 系统将通过模仿人类视觉，以智能、任务特定的方式，主动且 序列 (sequentially) 地决定“看哪里”来取得巨大进步。早期的研究如 RAM (Recurrent Attention Model) [62] 和 DRAM (Deep Recurrent Attention Model) [63] 已经初步展示了这一方向的潜力，但这些工作主要集中在小型模型和简单的实验上（如手写数字分类），与现代大规模 神经网络 (neural networks) 和真实世界应用场景仍有巨大差距。

3.2.3. 近期自适应性研究 (Recent Adaptiveness Research)

近期也有一些工作 [64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75] 试图将 自适应性 (adaptiveness) 引入 计算机视觉 模型，但大多只考虑了人类视觉系统 自适应能力 (adaptive capabilities) 的不完整方面，通常只在计算效率方面带来了适度的改进，或仅限于处理 低分辨率 (low-resolution) 输入。这些方法在理论学习原理上通常缺乏严谨的理论支撑，难以在 大规模 (large-scale) 真实世界场景中有效应用。

3.3. 技术演进

计算机视觉 领域的技术演进经历了从早期的 手工特征 (hand-crafted features) 和 浅层模型 (shallow models) 到 深度学习 (deep learning) 的转变。随着 算法 (algorithms) 和 硬件 (hardware) 的突破，我们能够训练更大、更深的 神经网络 (neural networks)，并有效处理高 时空分辨率 (spatial-temporal resolution) 的大规模、细粒度数字视觉信号。然而，这种进步也带来了新的挑战： 模型尺寸 (model size) 和 输入复杂度 (input complexity) 的不断扩大，使得 计算 (computation) 和 内存 (memory) 需求达到了难以承受的水平，形成了论文中提到的“不可能的三角形”。本文工作正是在此背景下，尝试通过引入类人 自适应感知 (adaptive perception) 机制，解决这一效率瓶颈，推动 计算机视觉 范式 (paradigm) 从“被动”向“主动”转变。

3.4. 差异化分析

AdaptiveNN 与现有工作相比，具有以下核心区别和创新点：

通用框架而非特定任务模型： AdaptiveNN 提供了一个通用的框架，兼容多种网络架构（如 Transformer 和 卷积神经网络 (Convolutional Neural Networks)）和任务（从独立感知到 多模态大语言模型 (MLLM) 的基础），可应用于静态图像、视频或动态环境，而非仅针对特定任务或小规模数据集。
完整的类人自适应能力建模： 论文建模了人类视觉的 粗到精 (coarse-to-fine) 序列决策过程 (sequential decision-making process)，包括 视觉固定点 (fixation) 的选择、信息增量组合以及主动终止观察。这比大多数仅关注部分自适应能力的现有工作更为全面。
理论支撑的端到端训练： 引入了 表征学习 (representation learning) 和 自奖励强化学习 (self-rewarding reinforcement learning) 相结合的理论分析，实现了 AdaptiveNN 的 端到端训练 (end-to-end training)，且无需额外的 视觉固定点 (fixation) 位置监督，仅依赖标准任务目标。这解决了 不可微 (non-differentiable) 决策过程 (decision process) 的优化挑战，是其关键创新。
大规模和真实世界场景下的有效性： AdaptiveNN 在17个基准测试中（包括 ImageNet、真实驾驶和医疗场景、具身AI等）展示了卓越的效率提升（高达28倍）和性能保持，这远超早期小模型和简单实验的范围。
强大的灵活性和可解释性： 能够在线调整推理成本，适应不同任务需求和资源预算，并通过 视觉固定模式 (fixation patterns) 提供清晰的 可解释性 (interpretability)。
高度类人行为： 通过与人类的并排比较和“视觉图灵测试”，证明了 AdaptiveNN 的感知行为与人类高度一致，这在现有 自适应视觉 (adaptive vision) 模型中是罕见的。

4. 方法论

4.1. 方法原理

AdaptiveNN 的核心思想是模拟人类视觉系统在感知复杂环境时的“主动 (active)”和“选择性 (selective)”策略。人类并非一次性处理整个视野，而是通过一系列有目的的眼球运动，将注意力集中在任务相关的局部区域（即 视觉固定点 (visual fixations)），并逐步整合这些局部信息来构建对场景的理解，当认为信息足够时便停止观察。

AdaptiveNN 将这个过程公式化为一个 粗到精 (coarse-to-fine) 的 序列决策过程 (sequential decision-making process)。在每个 时间步 (time step)，模型会根据当前对场景的理解（内部视觉表征 (internal vision representation)）来决定：

“看哪里” (where to look): 选择下一个 视觉固定点 的位置，以便获取更多与任务相关的信息。
“看多久/何时停止” (when to conclude observation): 判断当前获取的信息是否足以完成给定任务。如果足够，则停止观察并给出结果；如果不足，则继续进行下一个 视觉固定点 的感知。

通过这种方式，AdaptiveNN 能够将计算资源高效地集中在场景中最具信息量的部分，避免了对整个高分辨率场景进行冗余处理，从而在保持高性能的同时，显著降低了 推理 (inference) 成本，并获得了更好的灵活性和可解释性。

4.2. 核心方法详解

AdaptiveNN 框架的核心组件协同工作，模仿人类视觉的 序列感知 (sequential perception) 过程。

4.2.1. AdaptiveNN的推理流程

如图 images/1.jpg 和 images/2.jpg 所示，AdaptiveNN 的推理流程始于一个 初始概览 (quick glance)，它对整个下采样的场景进行粗略处理，建立一个初步的 内部视觉表征 (initial representation)。随后，流程进入一个 序列决策循环 (sequential decision-making loop)：

视觉智能体 (VisionAgent) 决策： VisionAgent（一个 决策神经网络 (decision-making neural network)）接收当前的 内部视觉表征 $\pmb{s}_t$ 。
终止判断： VisionAgent 首先判断当前累积的信息是否足以完成任务。它通过 价值网络 (value network) $V^\pi$ 预测继续观察的 预期收益 (expected gains) $V^\pi(s_t)$ 。如果 $V^\pi(s_t)$ 小于或等于预设的 阈值 (threshold) $\eta_t$ ，则认为信息充足， 感知过程 (perception process) 终止，并利用当前的 内部视觉表征 $\pmb{s}_t$ 完成任务。
选择下一个视觉固定点： 如果 $V^\pi(s_t) > \eta_t$ ，则表示需要更多信息。VisionAgent 的 策略网络 (policy network) $\pi$ 会基于当前 内部视觉表征 $\pmb{s}_t$ 预测下一个 视觉固定点 (visual fixation) $l_{t+1}$ 的位置分布 $p_\pi(l_{t+1}|\pmb{s}_t)$ ，并从中采样得到 $l_{t+1}$ 。
感知网络处理： 感知网络 (Perception Net) $f_{\mathrm{rep}}$ 对选定的 $P \times P$ 大小的 视觉固定点 $l_{t+1}$ 区域（即图像中的一个小局部补丁）进行特征提取。
更新内部视觉表征： 视觉固定点 $l_{t+1}$ 提取的特征用于更新 内部视觉表征 $\pmb{s}_t$ ，生成新的 表征 $\pmb{s}_{t+1}$ 。
循环： 流程回到步骤1，继续下一个 时间步 (time step) 的决策。

这个过程模仿了人类视觉的 从全局到局部 (global-to-local)、粗到精 (coarse-to-fine) 的运作模式，使得模型能够选择性地聚焦于重要的视觉内容，并动态调整观察的长度。

4.2.2. AdaptiveNN的组成部分

4.2.2.1. 视觉固定点 (Visual Fixations)

定义与目的： 视觉固定点 $l_1, \ldots, l_t$ 是从复杂视觉环境中提取的一系列小块、带宽受限的局部输入。它们通常是 $P \times P$ 大小的图像补丁（例如 $224 \times 224$ ）。
动态选择： AdaptiveNN 会主动且逐步地决定这些 视觉固定点 的位置，旨在最大化它们对任务的贡献，直到获取到足够的信息。
效率保障： 由于 感知网络 (Perception Net) 只处理这些小区域，AdaptiveNN 的资源需求可以独立于原始视觉环境的整体大小和复杂性，从而有效控制计算成本。

4.2.2.2. 感知网络 (Perception Net) $f_{\mathrm{rep}}$

功能： 这是一个 表征学习 (representation learning) 主干网络 (backbone network)，负责将原始像素图像输入（即 视觉固定点）转换为具有语义意义的深度 表征 (representations)。
高容量模型： 可以使用 高容量 (high-capacity)、大规模 (large-scale) 模型作为 $f_{\mathrm{rep}}$ （例如 ResNet [36] 和 DeiT [98]），以获得强大的视觉处理能力。
效率： 由于 $f_{\mathrm{rep}}$ 仅处理带宽受限的 视觉固定点，因此其 推理 (inference) 过程将非常高效。

4.2.2.3. 内部视觉表征 (Internal Vision Representation) $s_1, \ldots, s_t$

定义与更新： 内部视觉表征 在整个 视觉感知 (visual perception) 过程中持续维护，并利用 感知网络 $f_{\mathrm{rep}}$ 从每个 视觉固定点 中提取的特征动态更新。其更新公式为： $\pmb{s}_t = \Psi \big( \pmb{s}_{t-1}, f_{\mathrm{rep}}(l_t) \big)$ 其中， $\pmb{s}_t$ 是在第 $t$ 个 时间步 后的 内部视觉表征； $\pmb{s}_{t-1}$ 是前一个 时间步 的 内部视觉表征； $f_{\mathrm{rep}}(l_t)$ 是从第 $t$ 个 视觉固定点 $l_t$ 提取的特征； $\Psi(\cdot, \cdot)$ 是更新操作符。
作用： $\pmb{s}_t$ $s_{t}$ 概括了所有过去观察的信息，编码了模型当前对环境的知识。它有两个关键作用：
1. 任务完成： 作为 AdaptiveNN 的输出，其包含的信息将被用于完成给定的视觉任务。
2. 决策依据： 为 序列自适应视觉感知 (sequential adaptive visual perception) 过程中的决策（是否终止，以及下一步看哪里）提供必要信息。

4.2.2.4. 视觉智能体 (Vision Agent)

定义： 视觉智能体 是一个 决策神经网络 (decision-making neural network)，它接收 内部视觉表征 $\pmb{s}_t$ 作为输入，并做出两个关键决策：是否终止当前观察，以及选择下一个 视觉固定点 的位置。
组成： 为了同时实现这两个决策，视觉智能体 被公式化为 策略网络 (policy network) $\pi$ 和 价值网络 (value network) $V^\pi$ 的组合。
策略网络 $\pi$ ： 在推理的第 $t$ 个 时间步， $\pi$ 的输出参数化了一个分布，从中可以采样出 $l_{t+1}$ 的位置： $l_{t+1} \sim p_\pi(l_{t+1} | \pmb{s}_t)$ 其中， $p_\pi(l_{t+1} | \pmb{s}_t)$ 是给定当前 内部视觉表征 $\pmb{s}_t$ 下，下一个 视觉固定点 $l_{t+1}$ 位置的概率分布。
价值网络 $V^\pi$ ： $V^\pi$ 利用 $\pmb{s}_t$ 预测继续观察的 预期收益 (expected gains)，即通过使用 $\pi$ 进一步更新 $\pmb{s}_t$ 所能获得的 状态价值 (state value) $V^\pi(s_t)$ 。
终止机制： 状态价值 $V^\pi(s_t)$ 与 阈值 (threshold) $\eta_t$ 进行比较。如果 $V^\pi(s_t) \leq \eta_t$ ，则观察终止。否则，如果 $V^\pi(s_t) > \eta_t$ ，则会处理新的 视觉固定点 $l_{t+1}$ ，进入下一个 时间步。 $\eta_t$ 的值是在 验证集 (validation data) 上确定的，并且可以 在线 (online) 调整，以在不额外训练的情况下改变 AdaptiveNN 的平均资源需求。
主观与客观的解耦： $V^\pi(s_t)$ 反映了模型对其自身 感知过程 (perception process) 是否值得继续进行的主观评估，而 $\eta_t$ 则代表了关于可用资源是否足以满足当前任务的客观限制。这种 解耦建模 (decoupled modeling) 增加了框架的灵活性。

4.2.2.5. 兼容性

AdaptiveNN 框架具有通用性，可与 Transformer 和 卷积神经网络 (Convolutional Neural Networks) 等多种网络架构兼容，作为其 特征提取模块 (feature-extraction module)。此外，它适用于各种视觉任务，无论是作为独立的感知模型，还是作为 多模态大语言模型 (Multimodal Large Language Models, MLLM) 的基础，处理静态图像、视频或与动态环境交互（如机器人）。

4.2.3. 理论学习原理

AdaptiveNN 的训练涉及连续优化（如从 视觉固定点 (visual fixations) 提取特征）和离散优化（如学习选择 视觉固定点 位置和自适应终止观察）。这不能通过标准 梯度反向传播 (gradient back-propagation) 直接解决。论文提出了一个定理，使得 AdaptiveNN 能够 端到端 (end-to-end) 训练。

4.2.3.1. 公式化 (Formulation)

模型参数： 由 $\pmb{\theta}$ 参数化的 AdaptiveNN 模型。
视觉环境： $\boldsymbol{X}$ 。
视觉固定点序列的分布： $p(l_{1:t_0} | \pmb{\theta}, \pmb{X})$ 表示 视觉固定点 $l_1, \ldots, l_{t_0}$ 位置的分布。
模型输出： 在第 $t_0$ 个 时间步 用于完成任务的模型输出表示为 $q(\pmb{\theta}, \boldsymbol{X}, l_{1:t_0})$ 。
性能度量/损失函数： 对于与 $\boldsymbol{X}$ 关联的 标签 (label) $y$ ，性能度量（通常是 损失函数 (loss function)）表示为 $\mathcal{L}(y, q(\pmb{\theta}, \boldsymbol{X}, l_{1:t_0}))$ 。

4.2.3.2. 优化目标 (Optimization Objective)

训练期间，AdaptiveNN 的优化目标是最小化任务的 预期性能度量 (expected performance measure)： $\mathrm{minimize ~ L}(\pmb{\theta}) = \mathbb{E}_{X,y,t_0 \sim p(t_0)} \int_{l_{1:t_0}} p(l_{1:t_0} | \pmb{\theta}, \pmb{X}) \mathcal{L}(y, q(\pmb{\theta}, \pmb{X}, l_{1:t_0}))$ 其中，

$\mathrm{L}(\pmb{\theta})$ 是模型的总损失。
$\mathbb{E}_{X,y,t_0 \sim p(t_0)}$ 表示对环境 $\boldsymbol{X}$ 、标签 $y$ 和 序列感知过程 (sequential perception process) 总长度 $t_0$ 的 期望 (expectation)。
$t_0 \sim p(t_0)$ 表示总长度 $t_0$ 从一个固定的 先验分布 (prior distribution) $p(t_0)$ 中采样，其中 $t_0 \in \{1, \ldots, T\}$ ， $T$ 是最大可能长度。这反映了训练过程对 感知过程 长度的统计偏好。

4.2.3.3. 定理 1 (Theorem 1)

（详见原文 Section 5.1 中的证明） $\operatorname {L}(\pmb{\theta})$ 的梯度可以分解为 表征学习 (representation learning) 和 自奖励强化学习 (self-rewarding reinforcement learning) 目标的组合： $\nabla_{\boldsymbol{\theta}} \mathrm{L}(\boldsymbol{\theta}) = \nabla_{\boldsymbol{\theta}} \mathrm{L_{rep}}(\boldsymbol{\theta}) + \nabla_{\boldsymbol{\theta}} \mathrm{L_{rl}}(\boldsymbol{\theta})$ 其中，

$\nabla_{\boldsymbol{\theta}} \mathrm{L_{rep}}$ 是 表征学习 部分的梯度： $\nabla_{\boldsymbol{\theta}} \mathrm{L_{rep}} = \mathbb{E}_{\boldsymbol{X},\boldsymbol{y},\boldsymbol{l}_{1:T}} \sum_{t=1}^{T} P(t_0 = t) \nabla_{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{y}, \boldsymbol{q}(\boldsymbol{\theta}, \boldsymbol{X}, \boldsymbol{l}_{1:t}))$ 这个项是标准的 表征学习 形式，旨在最小化模型从 $l_1, \ldots, l_t$ 提取特征后的任务损失。
$\nabla_{\boldsymbol{\theta}} \mathrm{L_{rl}}$ 是 自奖励强化学习 部分的梯度： $\nabla_{\theta} \mathrm{L_{rl}} = - \mathbb{E}_{X,y,l_{1:T}} \sum_{t=1}^{T} \left[ \left( \sum_{t'=t}^{T} r_{t'} \right) \nabla_{\theta} \log p(l_t | \theta, X, l_{1:(t-1)}) \right]$ 这个项可以归结为 策略梯度 (policy gradients) 的形式，其中 $p(l_t | \theta, X, l_{1:(t-1)})$ 是选择 视觉固定点 $l_t$ 的概率。
自奖励强化学习 (self-rewarding reinforcement learning) 的 奖励 (reward) $r_{t'}$ 定义为： $r_{t'} = - P(t_0 = t') \mathcal{L}(y, q(\pmb{\theta}, \pmb{X}, l_{1:t'}))$ 奖励 $r_{t'}$ 是模型在完成任务时自身 任务损失 (task loss) 的负值。 $\sum_{t'=t}^{T} r_{t'}$ 表示从当前 时间步 $t$ 到终止 时间步 $T$ 的累积 奖励。

核心洞察： 定理 1 表明，在最小化 AdaptiveNN 在视觉任务上的 预期损失 (expected loss) 时，表征学习 和 自奖励强化学习 目标自然地结合在一起。这使得模型能够战略性地选择 视觉固定点 位置，以最小化损失，并且两者都仅利用标准任务损失，无需专门的任务格式或额外标注。

4.2.3.4. 具体学习算法 (Specific Learning Algorithm)

基于定理 1，表征学习 部分的梯度 $\nabla_{\boldsymbol{\theta}} \mathrm{L_{rep}}$ 可直接用于学习 特征提取模块 (feature-extraction modules)。对于 策略梯度 (policy gradients) $\nabla_{\theta} \mathrm{L_{rl}}$ ，论文引入了一个 折扣因子 (discount factor) $\gamma \in [0, 1]$ 和 奖励 的差分形式，以实现灵活的 效率-有效性权衡 (efficiency-effectiveness trade-off)：

策略梯度规则： $\nabla_{\theta} \mathrm{L_{rl}} = - \mathbb{E}_{X,y,l_{1:T}} \sum_{t=1}^{T} \left[ \left( \sum_{t'=t}^{T} \gamma^{t'-t} \left( r_{t'} - r_{t'-1} \right) \right) \nabla_{\theta} \log p_{\pi}(l_t | s_{t-1}) \right]$ 其中，r_{t'} = - P(t_0 = t') \mathcal{L}(y, q(\pmb{\theta}, \pmb{X}, l_{1:t'}))。
$\gamma$ 的极限情况 (详见原文 Section 5.1 中的证明)：
- 当 $\gamma \to 0$ 时，选择下一个 视觉固定点 的策略倾向于完全 短视 (short-sighted)，仅优化以最大化即时 奖励 $r_t$ 。
- 当 $\gamma = 1$ 时，AdaptiveNN 仅关注最大化最终 奖励 $r_T$ ，对应于资源充足且 感知过程 可以利用尽可能多的 视觉固定点 来完成任务的场景。
- 当 $0 < \gamma < 1$ 时，鼓励在有限 视觉固定点 数量内最大化目标 感知策略 (perception strategies)。
价值网络 $V^\pi$ ： 引入 价值网络 $V^\pi$ 作为 强化学习 (reinforcement learning) 的 基线 (baseline) [95, 94]，通过减少 梯度估计 (gradient estimation) 的 方差 (variance) 来稳定训练 [93, 96]。 $V^\pi$ 的学习目标是预测在每个 时间步 进一步观察的 预期收益 (expected gains)： $\underset{V^\pi}{\mathrm{minimize}} \mathbb{E} \left[ V^\pi(s_{t-1}) - \sum_{t'=t}^{T} \gamma^{t'-t} \left( r_{t'} - r_{t'-1} \right) \right]^2$ 此外， $V^\pi(s_{t-1})$ 提供了一个合理的 自适应终止 (adaptive termination) 代理度量 (proxy measure)。如果 $V^\pi(s_{t-1})$ 相对较小，意味着即使模型处理更多 视觉固定点，任务损失也不会显著减少，此时终止观察是合理的。

4.2.4. 推理过程的终止标准

阈值 (threshold) $\eta_t$ 的值决定了在当前情况下，模型是否认为可用信息足以完成任务。

当 $\eta_t$ 值较大时，AdaptiveNN 倾向于使用较少的 视觉固定点 来观察不同的 视觉环境 (visual environments)。
反之，较低的 $\eta_t$ 值则表示模型平均会采用更多的 视觉固定点 进行视觉处理。这些 阈值 $\{ \eta_1, \eta_2, \ldots \}$ 的确定旨在在固定总成本下最大化 AdaptiveNN 的性能。具体地，给定一个 数据集 (dataset) $\mathcal{D}$ 、性能指标 $\mathcal{P}(\cdot)$ 和成本指标 $\mathcal{C}(\cdot)$ ，以及一个预算 $B > 0$ ，阈值 $\{ \eta_1, \eta_2, \ldots \}$ 可以通过解决以下优化问题获得： $\operatorname*{maximize}_{\eta_1, \eta_2, \ldots} \mathcal{P}(\theta, \mathcal{D}, \{\eta_1, \eta_2, \ldots\}) , \quad \mathrm{subject~to} \mathcal{C}(\theta, \mathcal{D}, \{\eta_1, \eta_2, \ldots\}) \leq B$ 通过考虑一系列不同的 $B$ 值，可以获得一组与模型 $\pmb{\theta}$ 相关的不同 阈值。因此，AdaptiveNN 的成本可以通过简单调整这些 阈值 来 在线 (online) 灵活调整，而无需额外训练。在实现中， $\mathcal{D}$ 、 $\mathcal{P}(\cdot)$ 和 $\mathcal{C}(\cdot)$ 被实例化为 验证集 (validation set)、AUROC (Area Under the Receiver Operating Characteristic Curve) 或 预期准确率 (expected accuracy)、以及 FLOPs。

4.2.5. 计算机视觉任务的网络架构

4.2.5.1. 感知网络 (Perception Networks)

架构： 感知网络 $f_{\mathrm{rep}}$ $f_{rep}$ 被设计为具有灵活架构的 特征提取器 (feature extractors)，兼容大多数现有的 深度学习 (deep learning) 主干网络 (backbones)。论文主要使用了 ResNet [36]（卷积网络 (convolutional network)）和 DeiT [98]（视觉 Transformer (vision Transformer)）作为示例。
- ResNet 通过 卷积块 (convolutional blocks) 和 池化层 (pooling layers) 交替堆叠来处理输入图像。
- DeiT 将图像分割成 2D 补丁 (patches)，每个 补丁 嵌入为 词元 (token)，并通过 多头自注意力层 (multihead self-attention layers) 和 多层感知器 (multilayer perceptron) 进行处理。
- 两者都利用了 残差连接 (residual connections) [36]。
初始概览与固定点处理：
- 对于下采样的 初始概览 (glance) 输入，使用 ResNet 的前三个 网络阶段 (network stages) 或 DeiT 的前八个 块 (blocks)。
- 对于 视觉固定点 (visual fixations)，由于其规模与 初始概览 输入显著不同，因此采用另一个完整的 ResNet/DeiT 网络进行处理。
任务头： AdaptiveNN 的 内部视觉表征 (internal vision representation) 被馈送到一个 任务特定头 (task-specific head)，其架构采用 ResNet 的最终阶段或四个 DeiT 块，具体取决于对应场景。
视觉搜索任务： 为与 RAM [62] 和 DRAM [63] 等基线方法进行公平比较，视觉搜索 (visual search) 场景中的两个 感知网络 分别由两层和三层 卷积层 (convolutional layers) 组成，而 任务特定头 则是一个 多层感知器 (multilayer perceptron)。

4.2.5.2. 视觉智能体 (Vision Agent)

架构： 视觉智能体 构建在 内部视觉表征 $\pmb{s}_t$ 之上，其大小为 $C \times H_{\mathrm{f}} \times W_{\mathrm{f}}$ 。它由 策略网络 (policy network) $\pi$ 和 价值网络 (value network) $V^\pi$ 组成。
$\pi$ 和 $V^\pi$ 的架构： 两者都是一个 序列组合 (sequential composition)，包含一个 $C \times C$ 深度可分离卷积层 (depth-wise convolutional layer)（使用 $3 \times 3$ 核 (kernels)）、一个 $C \times 128$ 密集卷积层 (dense convolutional layer)（使用 $1 \times 1$ 核）、一个 特征展平层 (feature-flatten layer)、以及一个具有相应不同输出神经元的 多层感知器 (multilayer perceptron)。
激活函数： 高斯误差线性单元 (Gaussian Error Linear Unit, GELU) [38] 作为 卷积层 或 线性层 (linear layer) 的 激活函数 (activation function)，引入 非线性 (nonlinearity)。
$V^\pi$ 的输出： $V^\pi$ 的输出是一个 标量 (scalar) $V^\pi(s_t)$ 。
$\pi$ 的输出： $\pi$ $π$ 的输出参数化了一个分布 $p_\pi(\cdot | s_t)$ $p_{π} (\cdot ∣ s_{t})$ ，从中可以采样出第 $(t+1)$ $(t + 1)$ 个 视觉固定点 $l_{t+1}$ $l_{t + 1}$ 的中心坐标。
- 训练时： $p_\pi(\cdot | s_t)$ 被视为一个 高斯分布 (Gaussian distribution)，其 均值 (mean) 由 $\pi$ 输出，标准差 (standard deviation) 预定义为 超参数 (hyperparameter)。
- 测试时： $p_\pi(\cdot | s_t)$ 被设置为一个 Dirac delta 分布 (Dirac delta distribution)，中心位于 $\pi$ 的输出处，以实现 确定性推理 (deterministic inference process)。

4.2.5.3. 特征更新与重用 (Feature Updating and Reusing)

特征更新： 感知网络 $f_{\mathrm{rep}}$ 处理 $P \times P$ 的 视觉固定点 $l_t$ ，产生局部特征 $\pmb{s}_t^{\mathrm{local}} = f_{\mathrm{rep}}(\pmb{l}_t) \in \mathbb{R}^{C \times P_{\mathrm{f}} \times P_{\mathrm{f}}}$ 。这些局部特征用于更新 内部视觉表征 $s_{t-1}$ 以获得 $\pmb{s}_t$ 。假设 $\tilde{\pmb{s}}_t^{\mathrm{local}} \in \mathbb{R}^{C \times P_{\mathrm{f}}^2}$ 和 $\tilde{\pmb{s}}_{t-1} \in \mathbb{R}^{C \times H_{\mathrm{f}}W_{\mathrm{f}}}$ 是展平后的版本，更新公式 $\pmb{s}_t = \Psi(\pmb{s}_{t-1}, f_{\mathrm{rep}}(l_t))$ 可以表示为： $\tilde{\pmb{s}}_t = \tilde{\pmb{s}}_{t-1} + \tilde{\pmb{s}}_t^{\mathrm{local}} \cdot \mathbf{W}, \quad \mathbf{W} \in \mathbb{R}^{P_{\mathrm{f}}^2 \times H_{\mathrm{f}}W_{\mathrm{f}}}$ 其中， $\mathbf{W}$ 是一个转换矩阵。
构建转换矩阵 $\mathbf{W}$ ： 主要考虑两个原则：空间相关性 (spatial-wise correlations) 和 语义级特征重要性 (semantic-level feature importance)。
- 空间相关性： 局部特征 $\pmb{s}_t^{\mathrm{local}}$ 中的特征仅用于更新 内部视觉表征 $\pmb{s}_{t-1}$ 中与其在空间上接近的特征。具体地，对于 $s_t^{\mathrm{local}}$ 中位于第 $i$ 行、第 $j$ 列的特征，其在原始图像中的坐标为 $(x_{ij}, y_{ij})$ 。假设 (i', j') 表示 $s_{t-1}$ 中某个特征的坐标，则 $W$ 中的元素满足： $\mathbf{W}_{(i-1)P_{\mathrm{f}}+j, (i'-1)W_{\mathrm{f}}+j'} = 0, \quad \neg(|x_{ij}-i'| \leq n^{\mathrm{update}} \land |y_{ij}-j'| \leq n^{\mathrm{update}})$ 这意味着 $s_t^{\mathrm{local}}$ 中的每个特征向量只影响 $s_{t-1}$ 中其 $(2n^{\mathrm{update}}+1) \times (2n^{\mathrm{update}}+1)$ 范围内的相邻特征。默认 $n^{\mathrm{update}} = 2$ 。
- 语义级特征重要性： 对于 $\mathbf{W}$ 的非零元素，使用 特征条件权重 (feature-conditional weights) 来建模不同特征的语义级重要性。对于 $\tilde{s}_t^{\mathrm{local}}$ 的第 $k$ 列 $(\tilde{s}_t^{\mathrm{local}})_{:,k}$ ，通过 多层感知器 (MLP) 生成一个权重矩阵 $\mathbf{v}^k$ : $\tilde{\mathbf{v}}^k = \mathrm{MLP}\left( (\tilde{s}_t^{\mathrm{local}})_{:,k} \right) \in \mathbb{R}^{(2n^{\mathrm{update}}+1)^2} \\ \mathbf{v}^k = \mathrm{reshape}(\tilde{\mathbf{v}}^k) \in \mathbb{R}^{(2n^{\mathrm{update}}+1) \times (2n^{\mathrm{update}}+1)}$ 然后，结合空间约束，进一步定义 $\mathbf{W}$ 的非零元素： $\mathbf{W}_{(i-1)P_{\mathrm{f}}+j, (i'-1)W_{\mathrm{f}}+j'} = \mathbf{v}_{\lfloor x_{ij}-i' \rfloor + n^{\mathrm{update}}+1, \lfloor y_{ij}-j' \rfloor + n^{\mathrm{update}}+1}^{(i-1)P_{\mathrm{f}}+j}, \\ \mathbf{\text{if }} |x_{ij}-i'| \leq n^{\mathrm{update}} \land |y_{ij}-j'| \leq n^{\mathrm{update}}$ 其中， $\lfloor \cdot \rfloor$ 表示向下取整。这种设计通过建模 空间连续性 (spatial continuity) 和 语义重要性 (semantic importance) 来更新 内部视觉表征。
特征重用（预眼跳注意）： 在处理下一个 视觉固定点 $l_{t+1}$ 之前，AdaptiveNN 会将 内部视觉表征 $s_t$ 中与 $l_{t+1}$ 区域相关的部分信息重用，而不是完全从头计算。具体做法是，提取 $s_t$ 中与 $l_{t+1}$ 相对位置和大小相同的特征，将其输入 多层感知器，并将输出作为 可学习上下文嵌入 (learnable context embeddings) 添加到 感知网络 $f_{\mathrm{rep}}$ 输入层之后的 $l_{t+1}$ 词元 (tokens) 中。这受到了人类视觉中 预眼跳注意 (presaccadic attention) 现象的启发。

4.2.6. 具身人工智能任务的网络架构

主干网络： 具身多模态大语言模型 (embodied multimodal large language models) 的架构主要遵循 RoboFlamingo [101]。使用预训练的 OpenFLamingo 3B [140] 作为 主干网络 (backbone)。
感知模块： AdaptiveNN 的 感知网络 (perception net) 使用每两个相邻的网络块与共享的 视觉编码器 (vision encoder) 耦合。
词元处理： 来自 初始概览 (glance) 输入和 视觉固定点 (visual fixation) 的视觉 词元 (tokens)，以及语言 词元，被馈送到 多模态大语言模型 中，以提取 联合视觉-语言表征 (joint vision-language representations) 用于 机器人任务 (robot tasks)。
机器人策略头： 机器人策略头 (robotic policy head) 采用一个 LSTM (Long Short-Term Memory) 网络，后接一个 多层感知器 (multilayer perceptron) [101]。
Vision Agent 架构： AdaptiveNN 的 视觉智能体 (vision agent) 中的 策略网络 (policy network) 和 价值网络 (value network) 都采用 多层感知器 架构。

4.2.7. 训练算法

4.2.7.1. 计算机视觉任务的表征学习 (Representation Learning for Computer Vision Tasks)

$t_0$ 分布： 假设 序列感知过程 (sequential perception process) 的总长度 $t_0 \sim p(t_0)$ 遵循 均匀分布 (uniform distribution)，即 $t_0 \sim \mathrm{unif}\{1, T\}$ 。
损失函数增强： 表征学习 损失 $\mathrm{L_{rep}}$ $L_{rep}$ （来自 Eq. (5)）通过两个先进的 表征学习技术 (representation learning techniques) 进行增强。最终要最小化的损失可以写成： $\mathrm{L_{rep}} + \alpha \mathcal{L}_{\mathrm{regularization}}(y, f_{\mathrm{rep}}(X_{\mathrm{d}})) + \beta \sum_{t=1}^{T-1} \mathcal{L}_{\mathrm{self-distillation}}(q_T, q_t)$ 其中，
- $\alpha, \beta$ 是系数，在本文中固定为 $\alpha=2, \beta=1$ 。
- $\mathcal{L}_{\mathrm{regularization}}$ (正则化损失)： 这是用于处理 视觉固定点 (visual fixations) 的 感知网络 $f_{\mathrm{rep}}$ 的 正则化损失 (regularization loss) [141]。它将下采样版本的 环境 $X_{\mathrm{d}}$ 馈入 $f_{\mathrm{rep}}$ ，并使用其输出和 标签 $y$ 计算直接损失。此技术解决了 $f_{\mathrm{rep}}$ 在训练期间仅看到 视觉固定点 $\{l_1, l_2, \ldots\}$ 导致 收敛 (convergence) 缓慢的问题，但代价是略微增加了 $f_{\mathrm{rep}}$ 输入的训练-测试差异。
- $\mathcal{L}_{\mathrm{self-distillation}}$ (自蒸馏损失)： 这种技术利用 AdaptiveNN 的最终输出 $q_T$ （即在 $T$ 个 视觉固定点 后的模型输出）来指导中间输出 $q_1, \ldots, q_{T-1}$ 的学习。q_t = q(\pmb{\theta}, \pmb{X}, l_{1:t}) 表示模型在第 $t$ 个 时间步 的输出。它可以在只引入可忽略的额外训练成本的情况下，提高使用较少 视觉固定点 的 AdaptiveNN 的性能。

4.2.7.2. 计算机视觉任务的强化学习 (Reinforcement Learning for Computer Vision Tasks)

与 表征学习 类似，假设 $t_0 \sim \mathrm{unif}\{1, T\}$ 。
算法： 采用 现成的 (off-the-shelf) 近端策略优化 (proximal policy optimization, PPO) 算法 [94]，并结合 广义优势估计 (generalized advantage estimation, GAE) [92] 来完成 强化学习 (reinforcement learning) 过程。

4.2.7.3. 具身人工智能任务的训练算法 (Training Algorithms for Embodied AI Tasks)

具身多模态大语言模型 (embodied multimodal large language models) 的训练基本上遵循 RoboFlamingo [101]。
对于 AdaptiveNN，直接采用 Eq. (5) 作为训练目标，效果良好。
其他实现细节与 计算机视觉任务 相同。

4.3. 图像与公式文本摘要

以下是论文中关键图像的摘要，帮助理解 AdaptiveNN 的概念和工作流程：

图 1 (images/1.jpg)

VLM 描述: 该图像是一个示意图，展示了当前 计算机视觉 (Computer Vision) 范式 (paradigm) 面临的挑战，包括高分辨率视觉信号处理的资源需求和大规模 神经网络 (Neural Networks) 的效率问题。图中强调了“不可能的三角形 (impossible triangle)”以及人类视觉示例，突出了视觉环境中的区域关注与决策过程。
内容分析:
- 左侧 (a): 展示了传统 计算机视觉 模型的“被动”处理方式，即 一次性处理 (process the whole input in its entirety at once) 整个高分辨率输入，导致 计算量 (computational complexity) 和 内存需求 (memory requirements) 随像素数量呈线性或二次方增长。这被称为“不可能的三角形”，因为 高分辨率 (high-resolution) 输入、大规模模型 (large-scale models) 和 高效率 (efficiency) 难以同时实现。
- 右侧 (b): 描绘了人类视觉的“主动、自适应”感知策略。人类不会一次性处理所有信息，而是通过一系列 眼球运动 (eye movements) 和 视觉固定点 (fixations)，将注意力集中在任务相关的局部区域（高分辨率中心凹 (high-resolution fovea)），并逐步整合信息，直到观察充足。这种方式能够显著降低处理复杂视觉环境的难度和资源需求。

图 2 (images/2.jpg)

VLM 描述: 该图像是插图，展示了 AdaptiveNN 框架的工作流程。图(a)左侧展示了视觉输入及其处理，包括多个 视觉修正 (visual fixations)（例如 下采样 (down-sampling) 和 裁剪 (cropping)）的过程。右侧显示了 决策网络 (decision network) 的结构和执行过程，关键在于判断观察是否足够并决定下一个 视觉修正。图(b)则列出了五个子任务的执行过程及其成功与否的决策流程，显示了每个任务的执行长度。整体呈现了 自适应视觉模型 (adaptive vision model) 的 层次化决策机制 (hierarchical decision mechanism)。
内容分析:
- 图 2a: AdaptiveNN 推理流程
  - 左侧： 视觉环境 (Visual Environment) 经过 初始概览 (Initialize Glance Input) 形成 初始表征 (Initial Representation) $s_0$ 。
  - 决策循环： Vision Agent （决策神经网络 (Decision-Making Neural Networks)）接收 内部视觉表征 $s_{t-1}$ $s_{t - 1}$ ，并进行两个决策：
    1. 终止判断 (Terminate Yes/No)：判断观察是否充足。
    2. 定位下一个视觉固定点 (Localize Next Visual Fixation l_t)：如果需要更多信息，策略网络 $\pi$ 决定下一个 视觉固定点 $l_t$ 的位置。
  - 感知与更新： 感知网络 (Perception Net) $f_{\mathrm{rep}}$ 处理 裁剪 (Crop) 得到的 $l_t$ 区域，提取特征 $f_{\mathrm{rep}}(l_t)$ ，然后通过更新操作符 $\Psi$ 更新 内部视觉表征 $s_{t-1}$ ，得到 $s_t$ 。这个循环持续进行，直到观察终止。
- 图 2b: AdaptiveNN 的通用性
  - 展示了 AdaptiveNN 如何应用于各种视觉任务，而无需依赖专门的任务结构。它既可以处理预定义的静态任务，也可以作为 视觉-语言驱动机器人执行 (Vision-language Driven Robot Execution) 中 多模态大语言模型 (MLLM) 的一部分，适应 提示输入 (Prompt Input)（如文本）带来的可变任务需求。
- 图 2c: 定理 1 示意图
  - 展示了 端到端优化 (End-to-end Optimization) 的理论分解。 $L(θ)$ 的梯度被分解为 表征学习 (Representation Learning) ( $\nabla_\theta \mathrm{L_{rep}}$ ) 和 自奖励强化学习 (Self-rewarding Reinforcement Learning) ( $\nabla_\theta \mathrm{L_{rl}}$ ) 两部分。强调了 $L_{rep}$ 使用 反向传播 (Back-propagation) 优化 固定点 表征 的任务损失，而 $L_{rl}$ 则通过 自奖励信号 来优化 视觉固定点 的选择，实现了整体的 策略梯度 (Policy Gradient)。
- 图 2d: Vision Agent 的具体公式
  - 将 视觉智能体 公式化为 策略网络 $\pi$ 和 价值网络 $V^\pi$ 的组合。策略网络 解决“看哪里”的问题，价值网络 解决“何时终止观察”的问题，并有助于稳定 强化学习 过程。

5. 实验设置

5.1. 数据集

论文在9种不同任务的17个基准测试中评估了 AdaptiveNN。在所有任务中，超参数 (hyper-parameter) 搜索使用 $20\%$ 的训练数据，然后将这部分数据重新纳入训练集进行最终结果报告。计算成本以 浮点运算次数 (FLOPs) 来衡量。

5.1.1. 计算机视觉任务

5.1.1.1. 大规模真实世界视觉理解：`ImageNet`

来源与特点： ImageNet [35] 是一个大规模、多样化的高质量互联网图像数据集。每张图像都标注了其所属类别，类别按照 WordNet 层级结构 (hierarchy) [97] 组织，涵盖物体、建筑、人类、动物、场景等广泛视觉内容。
规模与划分： 采用标准的训练-验证集划分，包含约 1,280,000 张训练图像、50,000 张验证图像，以及 1,000 个类别标注。
任务与指标： 任务是正确分类输入图像。使用 验证准确率 (validation accuracy) 作为性能指标。

5.1.1.2. 细粒度视觉识别：六个基准

这些任务的特点是类别间差异小，而类别内变化大，要求模型具备识别细微、任务相关信号的能力。所有数据集均采用标准训练-验证集划分，并使用 验证准确率 作为性能指标。

CUB-200-2011 [132]： 这是一个 细粒度分类数据集 (fine-grained categorization dataset)，包含 11,788 张 200 个鸟类子类别的图像，其中 5,994 张用于训练，5,794 张用于测试。
NABirds [133]： 包含 48,562 张北美常见鸟类 400 个物种的标注照片。每个物种有超过 100 张照片，包含雄性、雌性和幼鸟的标注。数据分为 555 个视觉类别。
Oxford-IIIT Pet [134]： 包含 37 个宠物类别，每个类别约 200 张图像。图像在尺度、姿态和光照方面高度多样化。
Stanford Dogs [135]： 包含 20,580 张来自世界各地 120 种狗的图像。数据集分为 12,000 张训练图像和 8,580 张验证图像。
Stanford Cars [136]： 包含 16,185 张 196 个汽车类别的图像。数据分为 8,144 张训练图像和 8,041 张验证图像。类别通常在品牌、型号和年份级别。
FGVC-Aircraft [137]： 包含 10,200 张 102 个不同飞机类别的图像，每个类别有 100 张图像。数据集组织成四级 层级结构 (hierarchy)：型号、变体、系列和制造商。

5.1.1.3. 真实驾驶场景视觉数据的高效处理：`STSD`

来源与特点： STSD (Swedish traffic signs dataset) [99] 是一个瑞典交通标志数据集，包含 $960 \times 1280$ 的 道路场景图像 (road-scene images)，这些图像从真实行驶的车辆上采集。任务是识别速度限制标志的存在和类型。目标物体通常很小、分布分散且有时不清晰。
规模与划分： 使用两个子集，分别为 747 张图像用于训练和 648 张图像用于验证。
任务与指标： 任务是交通标志识别。使用 验证准确率 作为性能指标。

5.1.1.4. 具有灵活任务需求的视觉搜索：多数字图像中的任意数字定位

任务： 调查 AdaptiveNN 是否具备根据不同任务需求定制 视觉感知 (visual perception) 行为的类人 适应性 (adaptability)。
数据集生成： 生成 $224 \times 224$ 图像，每张图像随机填充 6 到 10 个 $28 \times 28$ 的 MNIST 数字 [53]，背景为黑色，数字不重复。
规模： 创建了一个包含 500,000 张训练图像和 50,000 张验证图像的大规模数据集。
任务定义： 每个 视觉搜索任务 (visual search task) 定义为定位特定类别和数量的数字。模型需要不仅识别正确的 目标 (target)，还要准确 定位 (localize) 单张图像中的多个 目标。
指标： 随机定义多个视觉任务，计算 验证集 上的 平均成功率 (average success rate)。成功率 定义为 成功数量 (number of successes) 除以 总样本数 (total number of samples)。

5.1.1.5. 可解释性关键任务：医疗场景中的图像处理

任务： 演示 AdaptiveNN 在对 可解释性 (interpretability) 至关重要的应用中的有效性，以 肺炎检测 (pneumonia detection) 为例。
数据集： 使用 RSNA Pneumonia 数据集 [100]，包含约 30,000 张 正面胸部 X 射线图像 (frontal view chest radiographs)。每张图像都标注了图像级别的 肺炎存在或缺失 (presence or absence of pneumonia) 标签 (labels)，以及指示疾病的 肺部混浊 (pulmonary opacity) 的 边界框 (bounding boxes)。标注由 18 位来自 16 家机构的 委员会认证放射科医生 (board-certified radiologists) 提供。
训练与比较： AdaptiveNN 仅使用图像级别 标签 进行训练，并将其 视觉固定点 (fixations) 位置与 肺部混浊 的 边界框 进行比较。数据按 85% 和 15% 的比例分为训练集和验证集。
指标： 模型的 诊断准确率 (diagnostic accuracy) 通过 验证集 上的 受试者工作特征曲线下面积 (Area Under the Receiver Operating Characteristic Curve, AUROC) 进行量化。

5.1.2. 具身人工智能任务

5.1.2.1. `CALVIN` 长周期多任务语言控制基准

任务： CALVIN (CALVIN Long-Horizon Multi-Task Language Control benchmarks) [102] 用于构建基准，以验证 多任务 (multi-task)、语言引导 (language-guided) 具身智能体 (embodied agent) 的性能。智能体 (agent) 需要执行一系列 动作 (actions)，每个 动作序列 (action sequence) 包含五个由 自然语言指令 (natural language instructions) 描述的 子任务 (subtasks)。
指标： 模型有效性通过 1,000 个任务序列 (task sequences) 中的 平均成功长度 (average successful length) 来衡量，分数范围从 0 到 5，基于成功完成的 子任务 数量。
数据集组织： CALVIN 数据集分为四个不同的环境子集（A 到 D），每个子集具有独特的视觉背景和物体排列。每个子集包含约 24,000 条带有语言标注的 机器人操作轨迹 (robot manipulation trajectories)。
训练场景：
1. D → D：在相同环境中进行训练和测试。
2. ABCD → D：使用所有四个环境的数据进行训练，但在单个 目标域 (target domain) 上进行测试。

5.1.3. 与人类视觉感知行为的比较

为了证明 AdaptiveNN 作为研究人类 视觉认知 (visual cognition) 的工具潜力，人类和 AdaptiveNN 在相同的 视觉感知行为 (visual perception behaviors) 测试中进行了并排评估。测试设计有两个目标：

空间维度自适应性： 检查人类/模型 视觉固定点 (visual fixations) 的位置。
样本维度自适应性： 检查人类/模型对完成给定任务所需的视觉环境难度评估。

5.1.3.1. 空间维度自适应性：`SALICON` 数据集

数据集： SALICON (saliency in context) 基准 [103]，包含 10,000 张训练图像和 5,000 张验证图像。每张图像都标注了人类 注视中心点 (gazing centers) 的 密度图 (density map)。这些数据通过 Amazon Mechanical Turk (AMT) 众包平台收集，每张图像约有 60 名参与者观察。
实验协议： 参与者被要求自由观看每张图像 5 秒，没有特定指令。注视中心点 位置以 100Hz 重新采样并处理，排除 眼跳 (saccade) 过程的快速移动数据。
指标： 定义了“归一化类人分数 (normalized human-like score)”。
- 对于每张图像，所有约 60 名观察者的 注视中心点 的 平均密度图 被用作人类视觉实际 焦点中心 (focal centers) 分布的 真值 (ground truth)。
- AdaptiveNN 在每张图像上选择 $n$ 个 视觉固定点区域 (visual fixation regions)。
- 计算 AdaptiveNN 选中区域落在 真值 中的概率 $p_n^{\mathrm{AdaNN}}$ 。
- 作为比较基线，计算随机选择 固定点 区域（ $\mathbb{E}[p_n^{\mathrm{Random}}]$ ）和遵循任意单个观察者（约 60 名观察者之一）注视中心分布 (gazing center distribution) 选择 固定点 区域（ $\mathbb{E}[p_n^{\mathrm{Single-human}}]$ ）的预期概率。
- 归一化类人分数 (normalized human-like score) 的公式为： $\operatorname{normalized~human-like~score} = \frac{p_n^{\mathrm{AdaNN}} - \mathbb{E}[p_n^{\mathrm{Random}}]}{\mathbb{E}[p_n^{\mathrm{Single-human}}] - \mathbb{E}[p_n^{\mathrm{Random}}]}$ 其中， $n=3$ ，批次大小 (batch size) 为 64。
- 分数等于 1 表示 AdaptiveNN 与平均人类观察者的空间 视觉固定行为 (visual fixation behaviors) 特征一致。分数等于 0 表示随机 固定 行为的基线。

5.1.3.2. 样本维度自适应性：人类评估难度

任务： 调查模型是否与人类对任务难度评估一致。
实验协议： 10 名志愿者（年龄 18-40 岁）参与实验。研究经 THU S&T 伦理委员会 (AI) 批准，协议 THU-03-2024-0006，并获得了 知情同意 (informed consent)。
数据： 从 ImageNet 验证集 (validation set) 中选择六个具有代表性的类别。
评估方式： 参与者被要求对每张图像进行 0-10 分的难度评分，其中分数越小表示越容易分类。图像和类别顺序均随机化。每张图像展示 5 秒。
指标： 将每位参与者对每个类别的评分进行归一化，然后取平均值，得到人类评估的难度等级。将其与 AdaptiveNN 预测的 状态价值 (state values)（反映模型对难度的判断）进行比较。

5.1.3.3. 视觉图灵测试 (Visual Turing Tests)

任务： 通过直观的人类判断，比较 AdaptiveNN 与人类视觉的 感知行为 (perception behaviors)。
测试方法： 人类 裁判 (judges) 会收到成对的人类和模型行为示例，并被要求识别出哪些来自机器。
空间维度行为测试： 从 SALICON 数据集中提取每张图像的人类 注视中心点 密度图 (density map)，并采样三个 视觉固定点区域 (visual fixation regions) 作为人类行为。与 AdaptiveNN 选择的三个 固定点 作为机器行为进行比较。
样本维度难度评估行为测试： 将人类评估的难度分数和 AdaptiveNN 预测的 状态价值 重新缩放至 [0, 100] 作为人类和机器行为。
实验协议： 39 名志愿者（年龄 18-40 岁）参与，每人完成 216 次试验，带有 屏蔽反馈 (blocked feedback)。
基线对照： 部分试验中的“机器”行为被随机替换为“人类”或“随机”行为，以建立 工作对照组 (working control groups) 和 最小化对照组 (minimized control groups)。
指标： 使用人类判断的 准确率 (accuracy) 进行评估。 $50\%$ 的准确率表示行为与人类 不可区分 (indistinguishable)（完美类人），而 $100\%$ 表示最差情况。

5.2. 评估指标

论文中使用的评估指标及其说明如下：

5.2.1. 准确率 (Accuracy)

概念定义： 准确率 (Accuracy) 是分类任务中最常用的评估指标之一，它衡量模型正确预测的样本数量占总样本数量的比例。它关注模型在所有预测中做出正确判断的能力。
数学公式： $\mathrm{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
符号解释：
- $\text{Number of Correct Predictions}$ ：模型正确分类的样本数量。
- $\text{Total Number of Predictions}$ ：所有待分类的样本总数。

5.2.2. 计算量 (FLOPs)

概念定义： FLOPs (Floating Point Operations) 表示 浮点运算次数，是衡量 神经网络 模型计算复杂度和效率的常用指标。它量化了模型执行一次推理或训练所需的浮点算术运算量。较低的 FLOPs 通常意味着更高的计算效率和更低的资源消耗。
数学公式： 该指标没有一个统一的、简单的数学公式，因为它取决于模型的具体架构和操作（如卷积、矩阵乘法等）。通常通过对模型中每个操作的 浮点运算次数 进行累加来计算。例如，对于一个卷积层，其 FLOPs 为： $\text{FLOPs}_{\text{conv}} = 2 \times K_h \times K_w \times C_{\text{in}} \times C_{\text{out}} \times H_{\text{out}} \times W_{\text{out}}$
- 符号解释：
  - $K_h, K_w$ ：卷积核的高度和宽度。
  - $C_{\text{in}}, C_{\text{out}}$ ：输入和输出通道数。
  - $H_{\text{out}}, W_{\text{out}}$ ：输出特征图的高度和宽度。
  - 因子 2 考虑了乘法和加法操作。
符号解释：
- 由于 FLOPs 是一个累积量，其计算依赖于具体层类型，此处给出卷积层为例的符号解释。

5.2.3. 受试者工作特征曲线下面积 (Area Under the Receiver Operating Characteristic Curve, AUROC)

概念定义： AUROC 是 二分类 (binary classification) 任务中广泛使用的评估指标，它衡量模型区分正类和负类的能力。ROC 曲线 (ROC Curve) 是以 真阳性率 (True Positive Rate, TPR)（也称为 召回率 (Recall) 或 灵敏度 (Sensitivity)）为纵轴，以 假阳性率 (False Positive Rate, FPR)（ $1 - \text{特异性 (Specificity)}$ ）为横轴绘制的曲线。AUROC 越大，表示模型的分类性能越好，模型在不同 分类阈值 (classification thresholds) 下的表现越稳定。
数学公式： AUROC 是 ROC 曲线 下方的面积。ROC 曲线 本身没有一个简单的数学公式，它通过遍历所有可能的分类 阈值 来计算对应的 TPR 和 FPR 点并连接而成。AUROC 的计算通常通过数值积分或 Wilcoxon-Mann-Whitney U 检验 (Wilcoxon-Mann-Whitney U-test) 的统计量来估计。 $\mathrm{TPR} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN}} \\ \mathrm{FPR} = \frac{\mathrm{FP}}{\mathrm{FP} + \mathrm{TN}}$ $\mathrm{AUROC} = \int_{0}^{1} \mathrm{TPR}(\mathrm{FPR}^{-1}(x)) dx$ （积分形式）
符号解释：
- $\mathrm{TP}$ (True Positive)：真阳性，实际为正类且被模型预测为正类的样本数。
- $\mathrm{FN}$ (False Negative)：假阴性，实际为正类但被模型预测为负类的样本数。
- $\mathrm{FP}$ (False Positive)：假阳性，实际为负类但被模型预测为正类的样本数。
- $\mathrm{TN}$ (True Negative)：真阴性，实际为负类且被模型预测为负类的样本数。
- $\mathrm{TPR}$ ：真阳性率。
- $\mathrm{FPR}$ ：假阳性率。

5.2.4. 平均成功长度 (Average Successful Length)

概念定义： 平均成功长度 用于评估 具身智能体 (embodied agent) 在 长周期多任务 (long-horizon multi-task) 序列中的表现。它衡量 智能体 在一个包含多个 子任务 (subtasks) 的序列中，平均成功完成 子任务 的数量。例如，一个包含 5 个 子任务 的序列，如果 智能体 成功完成了前 3 个 子任务，但第 4 个失败了，那么它的成功长度就是 3。
数学公式： $\mathrm{Average~Successful~Length} = \frac{\sum_{i=1}^{N} \text{Successful Length}_i}{N}$
符号解释：
- $\text{Successful Length}_i$ ：第 $i$ 个 任务序列 (task sequence) 中成功完成的 子任务 数量。
- $N$ ：任务序列 的总数。

5.2.5. 归一化类人分数 (Normalized Human-like Score)

概念定义： 归一化类人分数 用于量化 AdaptiveNN 在 视觉固定点 (visual fixations) 空间分布方面与人类视觉行为的一致性。该分数将模型与随机行为和平均人类观察者的行为进行比较，提供了一个相对的衡量标准。
数学公式： $\operatorname{normalized~human-like~score} = \frac{p_n^{\mathrm{AdaNN}} - \mathbb{E}[p_n^{\mathrm{Random}}]}{\mathbb{E}[p_n^{\mathrm{Single-human}}] - \mathbb{E}[p_n^{\mathrm{Random}}]}$
符号解释：
- $p_n^{\mathrm{AdaNN}}$ ：AdaptiveNN 选择的 $n$ 个 视觉固定点区域 (visual fixation regions) 落入人类 真值 (ground truth) 分布中的概率。
- $\mathbb{E}[p_n^{\mathrm{Random}}]$ ：随机选择 $n$ 个 视觉固定点区域 落入人类 真值 分布中的预期概率（基线）。
- $\mathbb{E}[p_n^{\mathrm{Single-human}}]$ ：遵循任意单个观察者（在约 60 名观察者中）注视中心分布 (gazing center distribution) 选择 $n$ 个 视觉固定点区域 落入人类 真值 分布中的预期概率。

5.2.6. 皮尔逊相关系数 (Pearson Correlation Coefficient, $\rho$ )

概念定义： 皮尔逊相关系数 衡量两个 连续变量 (continuous variables) 之间 线性相关 (linear relationship) 的强度和方向。其值介于 -1 和 +1 之间：+1 表示完全正线性相关，-1 表示完全负线性相关，0 表示没有线性相关。
数学公式： $\rho_{X,Y} = \frac{\mathrm{cov}(X,Y)}{\sigma_X \sigma_Y} = \frac{\mathbb{E}[(X-\mu_X)(Y-\mu_Y)]}{\sqrt{\mathbb{E}[(X-\mu_X)^2]}\sqrt{\mathbb{E}[(Y-\mu_Y)^2]}}$
符号解释：
- X, Y：两个变量。
- $\mathrm{cov}(X,Y)$ ： $X$ 和 $Y$ 的 协方差 (covariance)。
- $\sigma_X, \sigma_Y$ ： $X$ 和 $Y$ 的 标准差 (standard deviations)。
- $\mu_X, \mu_Y$ ： $X$ 和 $Y$ 的 均值 (means)。
- $\mathbb{E}[\cdot]$ ：期望 (expectation) 运算符。

5.3. 对比基线

AdaptiveNN 与以下几类基线模型和方法进行了比较：

传统“被动”视觉模型： 论文将 AdaptiveNN 与当前主流的“被动”视觉模型进行了广泛比较，这些模型一次性处理整个场景。具体使用了 ResNet-50 [36] 和 DeiT-S [98] 作为 主干网络 (backbones)，代表了 卷积神经网络 (Convolutional Neural Networks) 和 视觉 Transformer (vision Transformer)。这些模型的 推理成本 (inference cost) 通常与其 输入分辨率 (input resolution) 和 模型尺寸 (model size) 成正比。
早期自适应视觉模型： 在 视觉搜索 (visual search) 任务中，AdaptiveNN 与旨在模仿人类 序列视觉感知 (sequential visual perception) 的早期模型进行了比较，如 RAM (Recurrent Attention Model) [62] 和 DRAM (Deep Recurrent Attention Model) [63]。
语言驱动的具身人工智能模型： 在 具身人工智能 (embodied AI) 任务中，AdaptiveNN 作为感知模块嵌入到 RoboFlamingo [101] 架构中，并与没有 AdaptiveNN 感知能力的原始 RoboFlamingo 基线进行比较。
固定点定位策略： 在 消融实验 (ablation studies) 中，AdaptiveNN 的 强化学习 (reinforcement learning) 固定点 (fixation) 定位算法 (localization algorithm) 与多种替代策略进行了比较，包括：
- GradCAM [43, 104]：一种广泛用于可视化 深度神经网络 (deep neural networks) 决策相关区域的方法。
- Spatial Transformer Network [138]：一种可学习的空间变换模块。
- Gumbel-Softmax：一种用于从离散分布中进行 可微采样 (differentiable sampling) 的技术。
- Random 或 Gaussian sampling：预定义的非自适应 固定点 选择策略。
其他提高效率的方法： 在 系统级比较 (system-level comparisons) 中，AdaptiveNN 还与一些旨在提高 深度网络 (deep networks) 能源效率的 最先进方法 (state-of-the-art methods) 进行了比较，包括利用 空间冗余 (spatial redundancy) 的算法和具有 在线可调计算成本 (online-adjustable computational cost) 的 多出口模型 (multi-exit models)。
人类观察者和随机选择： 在与人类视觉感知的比较中，AdaptiveNN 的行为与真实人类观察者以及随机选择的 基线 (baselines) 进行了并排比较，以评估其 类人行为 (human-like behaviors) 程度。

选择这些 基线 旨在全面评估 AdaptiveNN 在不同任务、不同效率目标和不同 自适应感知 (adaptive perception) 策略下的性能和优势。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 大规模真实世界视觉理解 (`ImageNet`)

效率提升： AdaptiveNN 在 ImageNet 视觉识别任务中，实现了 4-8倍 (4-8x) 的 计算成本 (computational cost) 降低，同时保持了与现有“被动”视觉模型相当的准确率。
- 例如，DeiT-S 和 ResNet-50 的 验证准确率 (validation accuracies) 分别为 $81.6\%$ （15.5 GFLOPs）和 $79.1\%$ （12.1 GFLOPs）。而 AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分别以 2.86 GFLOPs 和 3.37 GFLOPs 的成本达到相似准确率，分别节省了 $5.4\times$ 和 $3.6\times$ 的计算资源。
自适应行为： AdaptiveNN 学习到的 视觉固定点 (visual fixation) 位置和观察长度具有合理性和可解释性。它能够准确地识别出图像中重要的判别性区域，例如咖啡机上的旋钮和喷嘴。在处理复杂或非典型视觉输入时，AdaptiveNN 能够通过延长观察时间来提高预测准确性。
灵活性： 能够在不重新训练的情况下，通过动态调整 视觉固定点 的数量来适应变化的资源约束，从而在效率和有效性之间实现 权衡 (trade-off)。

以下是原文 Figure 3 的结果：

该图像是图表，展示了 AdaptiveNN 在计算成本与准确性之间的关系，分别对应不同的视觉固定次数和网络模型。在图 (b) 和图 (c) 中，AdaptiveNN 模型在较低的计算成本下表现出更高的准确性，相较于其他对比模型节省了 5.4 倍和 3.6 倍的计算资源。图 (d) 和图 (e) 则显示了在不同的视觉固定次数条件下，两个模型的准确性和数据比例变化，进一步突显了模型的效率和适应性。
内容分析：
- 图 3a： 展示了 AdaptiveNN-ResNet-50 在 ImageNet 上的 视觉固定模式 (visual fixation patterns)。模型能够识别咖啡机上的旋钮和喷嘴等功能部件，并适应性地延长对复杂或非典型输入的观察。
- 图 3b 和 3c： 比较了 AdaptiveNN 与 基线 (baselines) 在 ImageNet 上的 计算量 (GFLOPs) 和 准确率 (Accuracy) 权衡 (trade-off)。AdaptiveNN 在较低的计算成本下实现了与 基线 模型相似或更好的准确率，例如 AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分别达到了 $5.4\times$ 和 $3.6\times$ 的效率提升。
- 图 3d： 展示了 AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 在使用不同数量 视觉固定点 处理所有样本时的 验证准确率 (validation accuracies)。随着 固定点 数量的增加，准确率显著提高，但效果逐渐减弱。
- 图 3e： 说明了 AdaptiveNN 如何动态适应可变资源。当计算资源充足时，模型会为所有样本分配更多的 视觉固定点。当资源受限时，模型会优先为更具挑战性的样本分配更多资源，而为简单样本分配较少资源，以最大化整体性能效率。

6.1.2. 细粒度视觉识别

更高效率增益： 在六个 细粒度识别 (fine-grained recognition) 任务中，AdaptiveNN 在不牺牲准确性的前提下，实现了比 ImageNet 更显著的 计算成本 (computational cost) 降低（ $6.2\times, 6.1\times, 7.6\times, 8.2\times, 5.8\times, 6.3\times$ ）。这表明模型在聚焦并利用细微判别性特征方面具备类人熟练度。
可解释性： 模型的行为高度可解释。AdaptiveNN 能够 自主学习 (autonomously learn) 定位对 细粒度识别 有价值的细节，例如鸟类的耳羽或飞机机翼的形状，而无需关于关注细节的明确指示。
处理复杂场景： 在判别特征可能被遮挡或不清晰的困难场景中，模型会主动利用更多 视觉固定点 来寻找辅助线索以进行准确分类。

以下是原文 Extended Data Fig. A1 的结果，它在论文中是图片 6.jpg。

该图像是多个图表和插图的组合，展示了AdaptiveNN在不同数据集（如CUB-200-2011和NABirds）上的准确率与平均计算成本的关系，以及分类任务中的样本图像。各条曲线表明，其在不同任务上实现了显著的计算效率提升和准确性维护。
内容分析：
- 图 A1a： 在六个 细粒度视觉识别 (fine-grained visual recognition) 基准测试中，AdaptiveNN 与 基线 (baselines) 在 计算量 (GFLOPs) 与 准确率 (Accuracy) 权衡 (trade-off) 方面的比较。AdaptiveNN 在显著降低 计算成本 的同时保持了 准确率，甚至在某些情况下有所提升，效率增益普遍高于 ImageNet。
- 图 A1b-A1e： 展示了 AdaptiveNN 在 细粒度识别 任务中的 视觉固定模式 (visual fixation patterns)。模型能够自发地学习定位对 细粒度识别 至关重要的细节，例如鸟类的耳羽、猫狗的耳朵形状、汽车的轮毂，以及飞机的机翼。在困难场景中，AdaptiveNN 会利用更多的 固定点 寻找额外线索进行分类。

6.1.3. 真实驾驶场景视觉数据的高效处理

显著加速： 在 STSD (Swedish traffic signs dataset) 交通标志识别任务中，AdaptiveNN 实现了高达 $27.9\times$ 的 推理成本 (inference cost) 降低，同时保持了 $90.2\%$ 的准确率。
自适应聚焦： AdaptiveNN 的 视觉固定点 (visual fixations) 能够自适应地集中在小的、远距离的、有时模糊不清的交通标志上，这与人类 视觉感知 (visual perception) 的特点一致。相比之下，传统的非自适应模型通常等效处理所有像素，效率低下且容易 过拟合 (overfitting)。
错误纠正能力： 当 AdaptiveNN 最初未能捕获到关键信息时，它能够通过后续的 视觉固定点 主动纠正错误。

以下是原文 Figure 4 的结果：

该图像是图表，展示了AdaptiveNN在处理复杂的非物体中心驾驶场景数据时的准确率与计算成本的关系，以及视觉搜索任务在不同数字要求下的成功率表现。图表中分别用不同颜色标记了不同网络的表现，体现了AdaptiveNN在减少计算成本的同时保持高准确率的优越性。
内容分析：
- 图 4a： AdaptiveNN 与 基线 (baselines) 在 STSD 交通标志识别 (traffic sign recognition) 任务中，计算量 (GFLOPs) 与 准确率 (Accuracy) 权衡 (trade-off) 的比较。AdaptiveNN 显著优于 基线，实现了高达 $27.9\times$ 的 推理成本 降低，同时保持了高准确率。
- 图 4b： AdaptiveNN 在 STSD 上的 视觉固定模式 (visual fixation patterns)。模型能够自适应地聚焦于道路场景中小的、远距离的交通标志，显示出类人的选择性注意力。

6.1.4. 应对灵活需求的视觉搜索

卓越性能： 在 视觉搜索 (visual search) 任务中，AdaptiveNN 在不同数量的搜索 目标 (targets) 下，始终保持了约 $90\%$ 的 平均成功率 (average success accuracy)。
超越现有方法： 相比之下，旨在模仿人类 序列视觉感知 (sequential visual perception) 的现有模型 RAM [62] 和 DRAM [63]，通常 成功率 (success rate) 不超过 $20\%$ ，AdaptiveNN 在大多数情况下性能提升超过 $4.5\times$ 。
鲁棒的类人适应性： AdaptiveNN 能够根据每个输入和特定的 视觉任务 (visual task) 自适应地调整其 固定点选择 (fixation selection) 和 观察终止策略 (observation termination strategies)，例如，在所有 目标 被找到后不再固定更多区域。
图 4c： 视觉搜索 (visual search) 任务的 平均成功率 (average success rates)。AdaptiveNN 在不同数量的目标数字下，均保持了约 $90\%$ 的高成功率，远超 RAM 和 DRAM 等 基线 (baselines)。
图 4d： AdaptiveNN 在 视觉搜索 任务中的 视觉固定模式 (visual fixation patterns)。模型能够自适应地选择 固定点，并在找到所有 目标 后停止观察，展现了灵活的 自适应行为 (adaptive behavior)。

6.1.5. 可解释性关键任务：医疗场景中的图像处理

诊断准确性： 在 RSNA 肺炎检测 (pneumonia detection) 任务中，仅使用图像级 标签 (labels) 训练的 AdaptiveNN，在 AUROC (Area Under the Receiver Operating Characteristic Curve) 上显著优于传统的非自适应模型（P < 0.0001）。
与临床判断一致： AdaptiveNN 的 视觉固定模式 (visual fixations)（图 4f）与人类 临床医生 (clinicians)（18 位 委员会认证放射科医生 (board-certified radiologists)）指出的 肺部混浊 (pulmonary opacity) 区域高度一致。
可解释性价值： 这表明 AdaptiveNN 在开发不仅需要精确性，还需要良好 可解释性 (interpretability) 的 AI 应用 (AI applications)（如医疗诊断）方面具有巨大潜力。
图 4e： AdaptiveNN 与 基线 (baselines) 在 RSNA 肺炎检测 (pneumonia detection) 任务中 AUROC 的比较。AdaptiveNN 表现出显著更高的 AUROC，证明了其优越的诊断准确性。
图 4f： AdaptiveNN 在 肺炎检测 任务中的 视觉固定模式 (visual fixation patterns)。模型的 固定点 与人类 临床医生 (clinicians) 标注的 肺部混浊 (pulmonary opacity) 区域（真值 (ground truth) 边界框 (bounding boxes)）高度一致，增强了模型的 可解释性 (interpretability)。

6.1.6. 基于 `AdaptiveNN` 的具身多模态大语言模型

效率与性能： AdaptiveNN 作为 具身多模态大语言模型 (embodied multimodal large language model, MLLM) 的感知模块，在不牺牲有效性的前提下，将 平均计算成本 (average computational cost) 降低了 $4.4 - 5.9\times$ 。
灵活性： 能够 在线 (online) 调整其 计算成本 (computational cost) 而无需重新训练，展现了显著的行为灵活性。
可解释性： 模型能够学习将 视觉固定点 (fixations) 集中在 提示输入 (prompt inputs) 中指定的任务相关物体上，并捕捉它们与 机器人操作部件 (robotic operational components) 的交互。当需要精确和 细粒度控制 (fine-grained control) 时，模型倾向于利用更多 视觉固定点 进行更仔细的感知。
与之前发现一致： 这些优点与之前在其他任务中的发现保持一致。

以下是原文 Figure 5 的结果：

该图像是示意图，展示了 AdaptiveNN 在机器人视觉任务中的应用。图中展示了不同子任务的成功率，并比较了有无视觉注视的表现，说明 AdaptiveNN 在资源节省和适应性方面的优势。图中还展示了视觉注视如何影响任务执行的顺利程度。
内容分析：
- 图 5a： 展示了 AdaptiveNN 在 多模态大语言模型 (MLLM) 中作为 感知模块 (perceptual module) 的集成。MLLM 接收语言指令，自适应感知视觉环境，并执行相应的 机器人操作任务 (robot manipulation tasks)。
- 图 5b： AdaptiveNN MLLM 与 基线 (baselines) 在 CALVIN 基准测试中，计算量 (GFLOPs) 与 平均成功长度 (average successful length) 权衡 (trade-off) 的比较。AdaptiveNN 显著降低了 计算成本（ $4.4 - 5.9\times$ ），同时保持了 成功长度。
- 图 5c： 展示了 AdaptiveNN MLLM 在使用不同数量的 视觉固定点 (visual fixations) 时，平均成功率 (average successful rates) 的变化。随着 固定点 数量的增加，成功率 逐步提升，尤其是在大规模训练数据 ABCD → D 下。
- 图 5d： AdaptiveNN MLLM 在 机器人操作任务 (robot manipulation tasks) 中的 视觉固定模式 (visual fixation patterns)。模型能够根据语言指令聚焦于任务相关物体，并捕捉其与机器人组件的交互，展现了动态的 自适应感知 (adaptive perception)。

6.1.7. `AdaptiveNN` 与人类视觉感知的比较

空间维度自适应性 (SALICON)：
- AdaptiveNN 在 归一化类人分数 (normalized human-like score) 上表现出色，平均得分超过 1.0，这意味着其 视觉固定点 (visual fixations) 与平均人类观察者的 注视中心点 (gazing locations) 高度一致，甚至略优于任意单个普通人类观察者。
- 相比之下，预定义的 固定点定位策略 (fixation localization policies) 和 CAM (Class Activation Mapping) 基线 (baselines) 的得分范围在 -0.1 到 0.4，未能显著超越随机选择。
- AdaptiveNN 在许多情况下产生了类人模式，常被面部、手、人体、人类行为或与人类活动密切相关的物体（如食物、电脑、滑板等）所吸引。这些模式是在 ImageNet 识别任务上训练后自然产生的，并未依赖于人类 认知偏见 (cognitive biases) 的明确编码。
样本维度自适应性（难度评估）：
- AdaptiveNN 评估的图像难度等级（通过 状态价值 (state values) 反映）与人类判断（由 10 名参与者评估）之间存在很强的相关性（所有 P < 0.0001；皮尔逊相关系数 (Pearson correlation coefficient) $\bar{\rho} \in [0.54, 0.80]$ ）。
- 这表明 AdaptiveNN 具备类人能力，能够动态分配 视觉感知 (visual perception) 资源，以适应不同视觉环境的难度。
视觉图灵测试：
- 人类裁判在区分“AdaptiveNN vs. 人类”时的准确率仅为 $50-51\%$ ，统计上未能显著优于随机猜测（t(38) = 0.90, -0.09, P = 0.37, 0.93）。这与“人类 vs. 人类”基线的 $49-50\%$ 准确率没有显著差异。
- 相比之下，“随机 vs. 人类”的 图灵测试 (Turing test) 任务则容易得多（准确率 $\geq 80\%$ ）。
- 这些结果表明，AdaptiveNN 在 自适应感知行为 (adaptive perceptual behaviors) 方面达到了与人类视觉 不可区分 (indistinguishable) 的水平。
  
  以下是原文 Figure 6 的结果：
  
  该图像是一个示意图，展示了AdaptiveNN在视觉注意力与人类观察者行为的对比。左侧为不同模型在任务中的预期表现，与随机定位视觉注视的基准进行对比。右侧则展示了相应的对比数据。图中还包含不同情境下的图像示例，以及通过AdaptiveNN测评的任务难度、固定行为的图表结果。整体体现了AdaptiveNN在性能与可解释性上的优势，以及其人类视觉认知的模拟能力。
内容分析：
- 图 6a： AdaptiveNN 在 SALICON 数据集上的 零样本归一化类人分数 (Zero-shot Normalized Human-like Score)，展示了其 视觉固定点 (visual fixations) 与人类 注视中心点 (gazing centers) 的对齐程度。AdaptiveNN 的得分超过 1.0，表明其行为与人类高度一致。
- 图 6b： 人类 注视中心点 的 真值密度图 (ground truth density maps)（热力图）与 AdaptiveNN 选择的 视觉固定区域 (visual fixation regions)（边界框）的定性比较。AdaptiveNN 在许多情况下产生了类人模式，聚焦于面部、手、人类动作或与人类活动相关的物体。
- 图 6c： 人类评估的难度分数与 AdaptiveNN 预测的 状态价值 (state values)（模型评估的难度）之间的相关性。两者呈现出强相关性（ $\bar{\rho} \in [0.54, 0.80]$ ），表明模型在评估任务难度方面与人类一致。
- 图 6d： AdaptiveNN 识别出的相对“容易”和“困难”数据的定性示例。可视化结果合理，典型视角和清晰物体通常被认为是容易的。
- 图 6e-6f： “视觉图灵测试”的结果。人类裁判在区分“AdaptiveNN vs. 人类”时的准确率仅为 $50-51\%$ ，与随机猜测无显著差异，表明 AdaptiveNN 的 自适应感知行为 与人类 不可区分 (indistinguishable)。

6.2. 消融实验/参数分析

6.2.1. `视觉固定点 (Visual Fixations)` 定位策略

AdaptiveNN 的优势： AdaptiveNN 的 强化学习 (reinforcement learning) 算法在 内部视觉表征 (internal vision representation) 驱动下，能够显著优于其他 固定点定位策略 (fixation localization strategies)（所有 P < 0.0001），尤其是在 固定点 数量有限的情况下。
GradCAM 的局限性： 尽管 GradCAM 被广泛用于可视化 深度网络 (deep networks) 的决策相关区域，但将其应用于 视觉固定点 选择时，即使辅以 高斯混合模型 (Gaussian mixture model) 和额外计算，也未能取得与 AdaptiveNN 竞争的性能。
其他方法的不足： 其他用于训练 固定点选择策略 (fixation selection policy) 的方法，如 空间变换器网络 (spatial transformer net) 和 Gumbel-Softmax，也未能展现出接近 强化学习 的潜力，在性能上未能显著超越 随机 (random) 或 高斯采样 (Gaussian sampling) 等预定义的非自适应策略。

以下是原文 Extended Data Fig. A2 的结果，它在论文中是图片 7.jpg。

该图像是一个示意图，展示了不同策略定位视觉注视点的效果（图 a），以及每次注视点获得的准确率和计算成本的关系，并提供了与人类的对比。AdaptiveNN的表现显示出在多个注视点下的准确性以及显著的计算成本降低能力。
内容分析：
- 图 A2a： 比较了多种 视觉固定点 (visual fixations) 定位策略在 ImageNet 上的 计算量 (GFLOPs) 与 准确率 (Accuracy) 权衡 (trade-off)。AdaptiveNN 的 强化学习 (RL) 算法在效率和准确性方面均显著优于 GradCAM、Spatial Transformer Network、Gumbel-Softmax 以及 随机 或 高斯采样 (Gaussian sampling) 等 基线 (baselines)。

6.2.2. `价值网络 (Value Network)` 的有效性

强相关性： AdaptiveNN 视觉智能体 (Vision Agent) 预测的 状态价值 (state values) 与 验证集 (validation data) 上的 测试损失 (test loss) 呈强相关性。
代理度量： 这种相关性表明，对于 标签 (label) 未知的 测试样本 (test sample)，可以利用其关联的 状态价值 作为模型对其预测置信度的一个可靠 代理度量 (proxy measure)。
指导资源分配： 这与论文引入 价值网络 的目标一致，即提供一个评估 感知过程 (perception process) 价值的度量。
图 A2b： AdaptiveNN 视觉智能体 (Vision Agent) 预测的 状态价值 (state values) 与 ImageNet 验证集 (validation set) 测试损失 (test loss) 之间的相关性。图中显示了强烈的负相关（皮尔逊相关系数 (Pearson correlation coefficient) $\rho=-0.79, P < 0.0001$ ），表明 状态价值 能够有效预测模型在给定样本上的性能。

6.2.3. 终止策略分析

消融实验 (ablation studies) 进一步支持了 价值网络 (value network) 指导的 观察终止策略 (observation termination strategy) 的有效性。
这种策略能够有效地平衡 计算资源 (computational resources) 的分配，以优化模型性能并提高整体计算效率。
图 A2c： AdaptiveNN 在 ImageNet 上通过 价值网络 指导的 观察终止策略 (observation termination strategy) 与其他策略的比较。结果显示 价值网络 能够有效指导 计算资源 (computational resources) 的分配，从而优化模型性能和整体效率。

6.2.4. 系统级比较

超越 最先进方法 (state-of-the-art methods)： AdaptiveNN 在 计算量 (computation) 相同或更少的情况下，性能明显优于其他旨在提高 深度网络 (deep networks) 能源效率的 最先进方法。
主要动机的验证： 尽管 AdaptiveNN 的主要动机是模仿人类 视觉感知 (visual perception) 行为，以推动从“被动”到“主动和自适应”视觉模型的 范式转变 (paradigm shift)，而不是追求最佳 工程性能 (engineering performance)，但其仍展示了卓越的效率。
图 A2d： AdaptiveNN 与利用 空间冗余 (spatial redundancy) 的 最先进方法 (state-of-the-art methods) 在 ImageNet 计算量 (GFLOPs) 与 准确率 (Accuracy) 权衡 (trade-off) 方面的系统级比较。AdaptiveNN 在相同的计算成本下表现更优，或在降低计算成本的同时保持了竞争性准确率。
图 A2e： AdaptiveNN 与具有 在线可调计算成本 (online-adjustable computational cost) 的 多出口架构 (multi-exit architectures) 方法的系统级比较。AdaptiveNN 再次展现了其在效率和灵活性方面的优势。

7. 总结与思考

7.1. 结论总结

本文提出了 AdaptiveNN，一个通用且受人类视觉启发的框架，旨在将 机器视觉 (machine vision) 从“被动”范式推向“主动、自适应”范式。AdaptiveNN 将 视觉感知 (visual perception) 建模为 粗到精 (coarse-to-fine) 的 序列决策过程 (sequential decision-making process)，通过选择性地聚焦于任务相关区域（视觉固定点 (visual fixations)）、增量地整合信息，并在信息充足时主动终止观察。

关键贡献包括：

理论创新： 建立了整合 表征学习 (representation learning) 与 自奖励强化学习 (self-rewarding reinforcement learning) 的理论，实现了 AdaptiveNN 的 端到端训练 (end-to-end training)，无需额外的 固定点 (fixation) 位置监督。
卓越性能与效率： 在17个基准测试和9项任务中（涵盖大规模识别、细粒度识别、驾驶/医疗场景、具身AI等），AdaptiveNN 在不牺牲准确性的前提下，将 推理成本 (inference cost) 降低了高达28倍。
高度灵活性： 能够在不重新训练的情况下，灵活适应不同的任务需求和资源预算（例如，通过调整 阈值 (thresholds) 在线 (online) 调整计算成本）。
增强的可解释性： 模型的 视觉固定模式 (visual fixation patterns) 提供了决策过程的直观洞察。
类人行为： 在与人类视觉感知的多项并排比较和“视觉图灵测试”中，AdaptiveNN 表现出与人类高度相似的感知行为，达到 不可区分 (indistinguishable) 的水平。

这些优势有力地解决了 LeCun、Bengio 和 Hinton 提出的开放挑战，为开发更高效、灵活、可解释的 计算机视觉 (Computer Vision) 模型开辟了新路径。

7.2. 局限性与未来工作

7.2.1. 作者指出的局限性与未来方向

通用性与扩展： AdaptiveNN 的设计和理论分析避免了强假设或特殊实现，使其与各种 表征学习 (representation learning) 主干网络 (backbones) 和 视觉任务 (vision tasks) 兼容。未来的工作可以进一步探索其在更多复杂任务（如分割、物体定位等）中的应用。
认知科学贡献： AdaptiveNN 作为一个可扩展的、足够类人的 代理 (proxy) 模型，能够通过 计算模拟 (computational simulations) 来重新审视 人类视觉认知 (human visual cognition) 中“先天与后天 (nature versus nurture)”的百年争论。研究结果表明，许多人类视觉的 自适应行为 (adaptive behaviors) 和基本能力可以通过常规视觉任务学习获得，而无需强烈的 先天偏见 (innate biases)。这为 机器学习 (Machine Learning) 和 认知科学 (cognitive science) 之间的 交叉学科合作 (interdisciplinary collaborations) 提供了有价值的工具。
序列推理能力： AdaptiveNN 也为利用 强化学习 (Reinforcement Learning) 为 计算机视觉模型 (Computer Vision models) 赋予 自适应序列推理 (adaptive sequential 'reasoning'-like perception capabilities) 提供了宝贵的见解。未来的研究可以深入探索如何建模视觉感知任务为 序列决策过程 (sequential decision procedures)，以及如何通过 强化学习 进行训练，使其能够根据任务难度自适应地利用更多 视觉固定点。

7.2.2. 个人启发与批判

个人启发：
- 效率与生物启发： 论文将人类视觉的 选择性注意 (selective attention) 机制巧妙地引入 机器视觉，解决了 深度学习 (deep learning) 在处理高分辨率输入时面临的 资源瓶颈 (resource bottleneck)。这种 生物启发 (bio-inspired) 的方法论在追求极致性能的当下，为 效率优化 (efficiency optimization) 提供了新的思路，远比单纯的 模型剪枝 (model pruning) 或 量化 (quantization) 更具根本性。
- 通用性和可迁移性： AdaptiveNN 作为一个通用框架，其与多种 主干网络 (backbones) 和任务的兼容性令人印象深刻。这意味着该 主动感知 (active perception) 范式 (paradigm) 不仅限于视觉识别，还可推广到 多模态 (multimodal) 任务、具身智能体 (embodied agents) 甚至其他 序列决策 (sequential decision) 领域，其 可迁移性 (transferability) 极高。
- 可解释性与信任： 视觉固定模式 (visual fixation patterns) 提供的 可解释性 (interpretability) 是 AI 领域日益重要的需求，尤其是在医疗、自动驾驶等 高风险应用 (high-stakes applications) 中。能够直观地看到模型“看”到了哪里，极大增强了用户对模型的信任度。
- 认知科学的桥梁： 将 AI 模型作为 认知科学 (cognitive science) 的实验工具，通过 计算模拟 (computational simulations) 来探索人类认知中的基本问题，这是一个非常令人兴奋且具有深远意义的方向。
潜在问题、未经验证的假设或可改进的地方：
- 阈值 (Threshold) $\eta_t$ 的设定： 论文中 $\eta_t$ 的确定是通过在 验证集 (validation data) 上最大化固定总成本下的性能来解决的。虽然这提供了一种 在线 (online) 调整成本的方法，但其通用性和鲁棒性在高度动态、零样本 (zero-shot) 或 域外 (out-of-domain) 场景中可能面临挑战。如何实现 阈值 的真正自适应和 无监督 (unsupervised) 学习，以适应未知环境和任务，仍是一个开放问题。
- 视觉固定点 (Fixation) 尺寸与形状： 当前 视觉固定点 被定义为固定大小的方形 补丁 (patches)。人类的 视网膜 (retina) 具有 非均匀分辨率 (non-uniform resolution)，中心凹 (fovea) 区域高分辨率，外围分辨率逐渐降低。未来的工作可以探索 多尺度 (multi-scale) 或 非矩形 (non-rectangular) 固定点，甚至动态调整 固定点 的尺寸，以更精细地模仿人类视觉。
- 计算开销的衡量： 尽管 FLOPs 是一个标准指标，但它可能无法完全捕捉实际硬件上的 推理延迟 (inference latency) 或 能耗 (energy consumption)。例如，内存访问 (memory access) 模式、并行性 (parallelism) 等也会影响实际效率。未来的工作可以通过更精细的硬件 基准测试 (benchmarking) 来补充 FLOPs。
- 强化学习的稳定性与效率： 强化学习 (Reinforcement Learning) 训练通常对 超参数 (hyperparameters) 敏感，且可能需要大量 样本 (samples)。虽然论文使用了 PPO 和 GAE 等稳定化技术，但在更大规模、更复杂或 真实世界 (real-world) 交互环境中，其训练效率和 收敛性 (convergence) 仍需进一步优化。
- 预眼跳注意 (Presaccadic Attention) 的建模： 论文通过将 内部视觉表征 (internal vision representation) 中的相关特征作为 可学习上下文嵌入 (learnable context embeddings) 添加到下一个 固定点 (fixation) 的 词元 (tokens) 中，来模拟 预眼跳注意。这一机制的生物学精确性和其对性能的定量贡献，可以作为未来深入研究的方向。
- 人类行为的建模局限： 尽管 AdaptiveNN 实现了高度类人行为，但人类视觉感知是一个极其复杂的系统，涉及高级认知、记忆、情感等。目前模型主要在低级和中级感知层面模仿人类，如何将高级认知功能融入 主动感知 框架，是长期挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。