论文状态：已完成

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

发表：2025/08/14

文本到图像生成 (20)高保真图像合成 (3)自回归图像生成 (2)连续图像标记处理 (1)离散文本标记训练 (1)

原文链接 PDF 下载

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了自回归模型NextStep-1，配合流匹配头，能够有效处理连续图像词元，避免了计算密集型扩散模型和量化损失的问题。该模型在文本到图像生成方面实现了最先进的性能，并在图像编辑中表现优异，展现了方法的强大和通用性。

摘要

Prevailing autoregressive (AR) models for text-to-image generation either rely on heavy, computationally-intensive diffusion models to process continuous image tokens, or employ vector quantization (VQ) to obtain discrete tokens with quantization loss. In this paper, we push the autoregressive paradigm forward with NextStep-1, a 14B autoregressive model paired with a 157M flow matching head, training on discrete text tokens and continuous image tokens with next-token prediction objectives. NextStep-1 achieves state-of-the-art performance for autoregressive models in text-to-image generation tasks, exhibiting strong capabilities in high-fidelity image synthesis. Furthermore, our method shows strong performance in image editing, highlighting the power and versatility of our unified approach. To facilitate open research, we will release our code and models to the community.

思维导图

论文精读

中文精读约 42 分钟读完 · 27,159 字

1. 论文基本信息

1.1. 标题

NextStep-1: 面向大规模连续词元自回归图像生成 (NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale)

1.2. 作者

论文由 NextStep-Team 团队撰写。根据“Contributors and Acknowledgments”部分，核心研究人员包括 Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu。其中，Zheng Ge 被标记为项目负责人。该团队的隶属机构是 StepFun AI。

1.3. 发表期刊/会议

该论文作为预印本 (preprint) 发布在 arXiv 平台。

1.4. 发表年份

2025年。

1.5. 摘要

当前主流的文本到图像自回归 (Autoregressive, AR) 模型在图像处理方面存在局限：要么依赖计算密集型且笨重的扩散模型来处理连续图像词元 (continuous image tokens)，要么采用矢量量化 (Vector Quantization, VQ) 方法将图像转换为离散词元 (discrete tokens)，但这会引入量化损失 (quantization loss)。本文提出了 NextStep-1，一个拥有 140 亿参数的自回归模型，其与一个 1.57 亿参数的流匹配头 (flow matching head) 配对。该模型在离散文本词元和连续图像词元上进行训练，并采用下一个词元预测 (next-token prediction) 目标。NextStep-1 在文本到图像生成任务中，为自回归模型取得了最先进的 (state-of-the-art) 性能，在高保真图像合成方面展现出强大的能力。此外，该方法在图像编辑方面也表现出色，凸显了其统一方法的强大和通用性。为了促进开放研究，团队将向社区发布代码和模型。

1.6. 原文链接

arXiv 预印本链接: https://arxiv.org/abs/2508.10711
PDF 链接: https://arxiv.org/pdf/2508.10711v2.pdf
发布状态: 预印本。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

论文主要试图解决当前文本到图像自回归 (Autoregressive, AR) 模型在处理图像词元时面临的两个核心问题：

对重型扩散模型的依赖与计算成本： 现有 AR 模型通常需要结合计算资源密集型的扩散模型来处理连续图像词元，这导致模型复杂、计算量大。
矢量量化 (VQ) 带来的量化损失： 另一些 AR 模型采用 VQ 将图像转换为离散视觉词元，虽然简化了处理，但引入了不可避免的量化损失，可能损害图像质量。

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白？

AR 模型的潜力未被完全释放： 自回归模型在大型语言模型 (Large Language Models, LLMs) 领域取得了巨大成功，展现了其在处理序列数据方面的可扩展性和灵活性。将这种范式扩展到图像生成，理论上能提供一个统一的多模态输入处理框架，并自然地适应各种条件信号。然而，上述问题限制了 AR 模型在图像生成领域达到与最先进的扩散模型相当的性能。
性能差距： 尽管有一些研究致力于使用连续潜在表示 (continuous latent representations)，但自回归模型与最先进的扩散方法之间在图像质量和一致性方面仍然存在显著的性能差距。
曝光偏差和次优词元化： 使用 VQ 生成离散词元的方法可能面临训练与推理不匹配导致的曝光偏差 (exposure bias) 问题，并且图像词元化本身也可能不是最优的。

2.1.3. 这篇论文的切入点或创新思路是什么？

NextStep-1 的创新切入点在于直接使用轻量级流匹配头 (flow matching head) 和连续图像词元，将纯自回归范式推进到大规模图像生成领域。 具体来说：

连续词元与轻量级流匹配头： 放弃对重型扩散模型的依赖，也避免 VQ 带来的量化损失。通过一个相对轻量级的流匹配头直接对连续图像词元进行逐块自回归生成。
统一的下一个词元预测目标： 将离散文本词元和连续图像词元统一在一个序列中，并采用统一的下一个词元预测 (next-token prediction) 目标进行训练。
稳健的图像词元化器设计： 引入通道归一化和随机扰动来增强连续图像词元的鲁棒性，促进稳定的潜在空间，从而支持高维度潜在空间下的稳定训练。

2.2. 核心贡献/主要发现

论文的核心贡献和主要发现包括：

提出了 NextStep-1 模型： 引入了一个 140 亿参数的自回归模型，结合一个 1.57 亿参数的流匹配头，以统一的方式在离散文本词元和连续图像词元上进行训练，并采用下一个词元预测目标。
实现了自回归模型的最先进性能： NextStep-1 在文本到图像生成任务中取得了自回归模型的最先进性能 (state-of-the-art)，特别是在高保真图像合成方面展现出强大能力。在 WISE、GenAI-Bench、DPG-Bench 和 OneIG-Bench 等多个基准测试中表现出色，甚至在某些方面超越了许多扩散模型。
展示了强大的图像编辑能力： 通过对 NextStep-1 进行微调得到的 NextStep-1-Edit 在指令引导的图像编辑任务中表现出强大的实用编辑能力，在 GEdit-Bench-EN 和 ImgEdit-Bench 上取得了竞争性结果。
揭示了核心生成逻辑位于 Transformer 主干网络： 通过消融实验发现，模型对流匹配头的大小不敏感，强烈表明 Transformer 主干网络执行了条件分布的核心生成建模，而流匹配头仅作为轻量级采样器。
强调了词元化器设计的重要性： 论文证明了改进的词元化器设计，特别是通道归一化和噪声正则化，对于在高维连续潜在空间中实现稳定和高质量的自回归图像生成至关重要，有效缓解了分类器自由引导 (Classifier-Free Guidance, CFG) 下的生成不稳定性。
促进开放研究： 承诺将发布代码和模型，以支持更广泛的社区研究。

3. 预备知识与相关工作

本节旨在为读者铺垫理解论文所需的前置知识，并介绍相关工作的演进与本文的差异。

3.1. 基础概念

3.1.1. 自回归模型 (Autoregressive Models, AR)

自回归模型是一种序列模型，其核心思想是基于已生成的序列元素来预测下一个序列元素。在文本生成中，这意味着根据前面所有的词元 (token) 来预测下一个词元。在图像生成中，如果将图像分解为一系列视觉词元，自回归模型就可以逐个生成这些词元。其优点是能够自然地处理可变长度的序列，并能捕捉长距离依赖，但缺点是生成过程是串行的，可能导致推理速度较慢。

3.1.2. 扩散模型 (Diffusion Models)

扩散模型是一类生成模型，它通过模拟一个逐渐向数据添加噪声的“前向扩散过程”，然后学习一个“逆向去噪过程”来从纯噪声中恢复出数据。在图像生成中，扩散模型从一个随机噪声图像开始，逐步去除噪声，最终生成清晰的图像。扩散模型在近年来在图像生成质量上取得了显著突破，但通常计算成本较高，并且其采样过程也需要多次迭代。

3.1.3. 矢量量化 (Vector Quantization, VQ)

矢量量化是一种数据压缩技术，它将连续的输入向量映射到一组有限的、预定义的“码本向量”中的一个。在图像生成中，VQ-VAE (Vector Quantized Variational Autoencoder) 等模型使用 VQ 来将连续的图像潜在表示 (latent representation) 转换为离散的视觉词元。这些离散词元可以像文本词元一样被自回归模型处理。然而，VQ 的主要缺点是会引入不可逆的量化损失 (quantization loss)，即在将连续信息转换为离散表示时丢失信息，这可能影响最终图像的保真度。

3.1.4. 连续图像词元 (Continuous Image Tokens)

与离散图像词元相对，连续图像词元是指图像的潜在表示仍然保留为连续数值的形式，而不是被量化到离散的码本中。直接处理连续词元可以避免量化损失，从而可能保留更多的图像细节和纹理。然而，这也增加了模型训练的复杂性和稳定性挑战，因为连续空间比离散空间更难建模。

3.1.5. 流匹配 (Flow Matching)

流匹配是一种生成建模技术，它学习一个从简单分布（如高斯噪声）到复杂数据分布的连续变换路径 (continuous path)。与扩散模型类似，它也涉及学习一个“速度场”或“流场”，该流场指导噪声样本平滑地演变为数据样本。流匹配的目标是最小化预测流场与目标流场之间的差异。它提供了一种高效的生成方式，并且在理论上具有优于某些扩散模型的特性。在本文中，流匹配头 (flow matching head) 用于预测从噪声图像块到目标图像块的连续流。

3.1.6. 因果变换器 (Causal Transformer)

变换器 (Transformer) 是一种基于自注意力 (self-attention) 机制的神经网络架构，广泛用于序列建模。 自注意力 (Self-Attention) 机制允许模型在处理序列中的某个元素时，能够同时考虑序列中的所有其他元素，并为它们分配不同的权重，从而捕捉长距离依赖关系。其核心计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：

$Q$ (Query), $K$ (Key), $V$ (Value) 分别是输入序列经过线性变换后的查询、键和值矩阵。
Q, K, V 的维度分别为 $n \times d_k$ , $n \times d_k$ , $n \times d_v$ ，其中 $n$ 是序列长度， $d_k$ 是键和查询的维度， $d_v$ 是值的维度。
$QK^T$ : 查询和键的点积，表示序列中不同位置之间的相似度。
$\sqrt{d_k}$ : 用于缩放点积结果，防止梯度过大，稳定训练。
$\mathrm{softmax}$ : 将相似度分数归一化为注意力权重，使得所有权重之和为 1。
$V$ : 值矩阵，乘以注意力权重后得到加权求和的输出，捕获了序列中所有元素的信息。

因果变换器 (Causal Transformer) 是变换器的一种变体，主要用于生成任务。其关键特点是采用了因果掩码 (causal mask)，确保在预测序列中的当前词元时，模型只能看到其之前的词元，而不能看到未来的词元。这使得模型能够严格地遵循自回归的生成顺序。

3.1.7. 分类器自由引导 (Classifier-Free Guidance, CFG)

分类器自由引导 (CFG) 是一种在扩散模型和流匹配模型中常用的技术，用于提高生成样本与条件输入（如文本提示）的对齐质量。它通过结合有条件生成 (conditioned generation) 和无条件生成 (unconditioned generation) 的预测来工作。在推理时，模型会同时进行基于条件 $y$ 的预测 $\nu_\theta(x|y)$ 和基于空条件 $\emptyset$ 的预测 $\nu_\theta(x|\emptyset)$ 。最终的引导预测 $\tilde{\nu}(x|y)$ 通过插值这两种预测得到： $\tilde { \nu } ( x | y ) = ( 1 - w ) \cdot \nu _ { \theta } ( x | \emptyset ) + w \cdot \nu _ { \theta } ( x | y )$ 其中 $w$ 是引导尺度 (guidance scale)，控制着条件预测对最终结果的影响强度。较大的 $w$ 会使生成结果更严格地遵循条件，但有时也可能引入伪影。

3.2. 前人工作

大型语言模型 (LLMs) 的成功： 论文引用了 Brown et al., 2020 (GPT-3), OpenAI, 2025a (GPT-4.1), Radford et al., 2018, 2019 (GPT-1, GPT-2) 等工作，强调了自回归模型在语言领域取得的巨大成功，这为将其扩展到文本到图像生成提供了动力。
现有的自回归图像生成模型：
- 基于 VQ 的方法： 大多数现有方法（如 Chen et al., 2025b (Janus-Pro), Dong et al., 2024, Sun et al., 2024a,b, Tong et al., 2024, Wang et al., 2024b (Emu3)）依赖于 VQ (Eslami et al., 2021, Yu et al., 2023, Zheng et al., 2022) 将图像词元化为离散视觉词元。这些方法面临曝光偏差 (Han et al., 2025) 和次优图像词元化 (Li et al., 2024c) 的局限性。
- 基于连续潜在表示的方法： 一些近期工作 (Fan et al., 2024 (Fluid), Li et al., 2024c, Sun et al., 2024c, Tschannen et al., 2024, 2025) 已经开始探索使用连续潜在表示，但与最先进的扩散方法相比仍存在性能差距。
最先进的扩散模型： 论文对比了 Esser et al., 2024 (Stable Diffusion 3 Medium), Labs, 2024 (Flux), Podell et al., 2024 (SDXL) 等扩散模型，这些模型在图像质量和一致性方面表现出色，是自回归模型需要努力赶超的目标。

3.3. 技术演进

文本到图像生成领域的技术演进大致经历了以下几个阶段：

早期生成模型： 包括 GANs (Generative Adversarial Networks) 和 VAEs (Variational Autoencoders)，它们在生成图像方面取得了初步成功，但往往难以生成高分辨率和多样性的图像，且难以精确控制生成内容。
基于离散词元的自回归生成： 受 LLMs 成功的启发，研究者开始将图像编码为离散视觉词元（通常通过 VQ-VAE），然后使用自回归 Transformer 逐个生成这些词元。这类模型如 DALL-E 系列的早期版本，能实现较好的文本到图像对齐，但 VQ 带来的量化损失和训练复杂性是一个挑战。
扩散模型的崛起： 扩散模型在图像质量和生成多样性方面取得了革命性进展，迅速成为文本到图像生成领域的主流。它们通过迭代去噪过程生成图像，但通常需要大量的计算资源和多次采样步数。一些自回归模型也开始利用扩散模型来作为图像解码器。
连续潜在表示的探索： 为了避免 VQ 的量化损失，研究者开始探索直接在连续潜在空间中进行自回归生成。这需要更精妙的潜在空间设计和更稳定的训练方法。NextStep-1 正是这一趋势的代表，它结合了 Flow Matching 技术来处理连续词元。

3.4. 差异化分析

NextStep-1 与现有相关工作的主要区别和创新点体现在以下几个方面：

与基于 VQ 的自回归模型相比：
- 核心差异： NextStep-1 采用连续图像词元和流匹配头，而传统 VQ 模型使用离散图像词元。
- 优势： 避免了 VQ 引入的量化损失，理论上能够保留更多图像细节和纹理，生成更高保真度的图像。
- 挑战： 连续潜在空间的直接建模通常更具挑战性，需要更精细的稳定化技术。
与结合扩散模型的自回归模型相比：
- 核心差异： 许多自回归模型（如 Imagen 系列的早期版本）使用 Transformer 生成语义表示，然后将其作为条件输入给一个独立的、计算量大的扩散模型进行最终图像生成。NextStep-1 则是一个“纯粹”的自回归范式，通过一个相对轻量级的流匹配头直接逐块生成连续图像词元，从而减少了对外部重型模型的依赖。
- 优势： 架构更统一、更简洁，且理论上更符合自回归的“下一个词元预测”的原始精神。
- 挑战： 需要确保轻量级流匹配头能够有效地捕捉图像的复杂分布，且自回归逐块生成过程的效率是关键考量。
与最先进的扩散模型相比：
- 核心差异： NextStep-1 采用自回归序列生成，而扩散模型采用并行去噪。
- 优势： 自回归模型在处理多模态序列和复杂条件信号方面具有天然的灵活性和可扩展性。
- 挑战： 自回归的串行生成过程通常推理速度较慢，且在高分辨率生成方面，扩散模型已发展出许多成熟的优化技术，自回归模型仍需探索。
创新性的词元化器设计： NextStep-1 引入的通道归一化和随机扰动（适应自 \sigma`-VAE`）的词元化器设计，有效解决了高维连续潜在空间中的训练不稳定性问题，是其能够成功处理连续词元并达到高性能的关键。 # 4. 方法论本节将详细拆解 `NextStep-1` 的技术方案，深入讲解其方法原理和核心组件。 ## 4.1. 方法原理 `NextStep-1` 将自回归语言建模的成熟范式扩展到图像生成。其核心思想是<strong>将离散的文本词元和连续的图像词元统一到一个单一的序列中，然后使用一个因果变换器 (Causal Transformer) 和下一个词元预测 (next-token prediction) 目标进行端到端训练</strong>。这种统一的序列处理方式使得模型能够自然地处理多模态输入，并以自回归的方式生成文本和图像。在训练过程中，模型同时优化两个目标：针对离散文本词元的标准交叉熵损失，以及针对连续图像词元的流匹配损失。流匹配损失使得模型能够学习从噪声图像块到目标图像块的连续变换。在推理时，模型通过迭代预测下一个词元（无论是文本还是图像块），逐步构建完整的图像。 ## 4.2. 核心方法详解 (逐层深入) `NextStep-1` 的整体框架如图 Figure 2 所示，主要包括一个图像词元化器 (Image Tokenizer)、一个因果变换器 (Causal Transformer)，以及两个任务头：语言建模头 (Language Modeling Head) 和逐块流匹配头 (Patch-wise Flow Matching Head)。 ![Figure 2 | Overview of NextStep-1 Framework. NextStep-1 employs a causal transformer to process tokenized text and image tokens. During training, Flow Matching Head predicts the continuous flow from a noise sample to the next target image patch, conditioned on the output hidden state. At inference, this allows for generating images by iteratively guiding noise to create the next patch.](/files/papers/69553ca3b6faa3ab260b75f0/images/2.jpg) *该图像是一个示意图，展示了NextStep-1框架的工作流程。图中包含了自回归模型如何通过因果变换器处理文本和图像令牌，及其训练中Flow Matching Head如何预测从噪声样本到目标图像块的连续流。* Figure 2 | `NextStep-1` 框架概述。`NextStep-1` 使用一个因果变换器来处理词元化的文本和图像词元。在训练期间，流匹配头预测从噪声样本到下一个目标图像块的连续流，并以输出隐藏状态为条件。在推理时，这使得模型能够通过迭代引导噪声来创建下一个图像块。 ### 4.2.1. 统一多模态生成与连续视觉词元 (Unified Multi-model Generation with Continuous Visual Tokens) `NextStep-1` 的设计通过一个简单直观的架构，将已成熟的自回归语言建模范式推广到图像生成。为了将多模态输入统一成一个单一的序列，图像首先会被图像词元化器 (Image Tokenizer) 转化为连续图像词元，然后与离散文本词元结合。假设 $x = \{ x _ { 0 } , x _ { 1 } , . . . , x _ { n } \}$ 是统一后的多模态词元序列，其中每个 $x_i$ 可以是离散的文本词元，也可以是连续的视觉词元。在这种统一序列下的自回归目标形式化为： p ( x ) = \prod _ { i = 1 } ^ { n } p ( x _ { i } \mid x _ { < i } ) . * **\text{符号解释：}** * `p(x)`: \text{整个多模态序列} $x$ \text{的联合概率分布。} * $p(x_i \mid x_{<i})$: \text{在给定序列中所有前序词元} $x_{<i} = \{x_0, x_1, ..., x_{i-1}\}$ \text{的条件下，预测第} $i$ \text{个词元} $x_i$ \text{的条件概率。} * $\prod$: \text{乘积符号，表示整个序列的联合概率是各个条件概率的乘积，体现了自回归的特性。} \text{统一的多模态生成任务通过从条件分布} $p(x_i \mid x_{<i})$ \text{中采样下一个词元} $x_i$ \text{来进行，这个分布由神经网络建模。离散文本词元通过一个语言建模头} (language modeling head) \text{进行采样，而连续图像词元则通过一个流匹配头} (flow-matching head) \text{进行采样。} \text{模型的训练目标包含两种不同的损失：} 1. **\text{文本词元损失：}** \text{针对离散文本词元的标准交叉熵损失} ($\mathcal { L } _ { \mathrm { t e x t } }$)\text{。} 2. **\text{图像词元损失：}** \text{针对连续图像词元的流匹配损失} ($\mathcal { L } _ { \mathrm { v i s u a l } }$)\text{。具体来说，流匹配损失是预测的速度矢量与目标速度矢量之间的均方误差} (mean squared error)\text{，目标速度矢量用于将一个加噪图像块映射到其对应的干净图像块。} \text{模型通过优化这两种损失的加权和进行端到端训练：} \mathcal { L } _ { \mathrm { t o t a l } } = \lambda _ { \mathrm { t e x t } } \mathcal { L } _ { \mathrm { t e x t } } + \lambda _ { \mathrm { v i s u a l } } \mathcal { L } _ { \mathrm { v i s u a l } } * **符号解释：** * $\mathcal { L } _ { \mathrm { t o t a l } }$: 模型的总训练损失。 * $\mathcal { L } _ { \mathrm { t e x t } }$: 针对文本词元的损失，通常是交叉熵损失。 * $\mathcal { L } _ { \mathrm { v i s u a l } }$: 针对图像词元的损失，此处是流匹配损失。 * $\lambda _ { \mathrm { t e x t } }$: 文本损失的权重超参数。 * $\lambda _ { \mathrm { v i s u a l } }$: 图像损失的权重超参数，用于平衡两种模态的损失贡献。 ### 4.2.2. 模型架构 (Model Architecture) #### 4.2.2.1. 图像词元化器 (Image Tokenizer) 图像词元化器是 `NextStep-1` 的关键组件，它负责将原始图像编码为连续的潜在表示，并进行一系列处理以确保其稳定性和鲁棒性。 * **初始化与编码：** 图像词元化器从 `Flux VAE` (`Labs, 2024`) 进行微调，该 `VAE` 以其强大的重建性能而被选中。它首先将图像编码成 16 通道的潜在变量 $\mathfrak { z }$，并应用 $8 \times$ 的空间下采样因子。这意味着，一个 $256 \times 256$ 的图像会被编码成 $32 \times 32 \times 16$ 的潜在表示。 * **潜在空间稳定化与归一化：** 为了稳定并归一化潜在空间，模型应用<strong>通道归一化 (channel-wise normalization)</strong>，将每个通道标准化为零均值和单位方差。 * **随机扰动以增强鲁棒性：** 为了增强图像词元化器的鲁棒性并促进更均匀的潜在分布，模型引入了随机扰动。这项技术改编自 \sigma-VAE (Sun et al., 2024c)，在那里它被用于防止方差崩溃 (variance collapse)。扰动后的潜在变量 $\tilde { z }$ $\tilde{z}$ 计算如下： $\tilde { z } = \mathrm { N o r m l i z a t i o n } ( z ) + \alpha \cdot \varepsilon , \quad \mathrm { w h e r e } \ \alpha \sim \mathcal { U } [ 0 , \gamma ] \ \mathrm { a n d } \ \varepsilon \sim N ( 0 , I )$
- 符号解释：
  - $\tilde { z }$ : 经过归一化和随机扰动后的最终潜在变量。
  - $\mathrm { N o r m l i z a t i o n } ( z )$ : 原始潜在变量 $z$ 经过通道归一化后的结果（零均值、单位方差）。
  - $\alpha$ : 一个随机缩放因子，从均匀分布 $\mathcal { U } [ 0 , \gamma ]$ 中采样。
  - $\varepsilon$ : 标准高斯噪声，从标准正态分布 $N ( 0 , I )$ 中采样（ $I$ 是单位矩阵，表示各维度独立）。
  - $\gamma$ : 一个超参数，控制着最大噪声强度。
- 目的： 这种扰动有助于正则化潜在空间，使其对小的输入变化更加鲁棒，并鼓励潜在变量在空间中更均匀地分布，从而有利于后续的生成任务。
序列化： 图像词元化器将潜在变量通过 pixel-shuffle 操作（具体是通过一个 $2 \times 2$ 核的空间到深度变换 space-to-depth transformation）转换成一个更紧凑的序列。例如，这会将一个 $256 \times 256$ 图像的潜在变量（原始尺寸为 $32 \times 32 \times 16$ ）转换为一个 $16 \times 16$ 的 64 通道词元网格。这个网格随后被展平为 256 个词元的 1D 序列，作为因果变换器的输入。

4.2.2.2. 因果变换器 (Causal Transformer)

初始化： 模型的因果变换器基于解码器专用模型 Qwen2.5-14B (Yang et al., 2024) 进行初始化。
多模态输入序列格式： 模型采用特定的格式来组织多模态输入序列： {text} <image_area>h*w <boi> {image} <eoi>..
- {text}: 表示离散文本词元。
- <image_area>h*w: 表示 2D 图像词元的空间维度元数据，例如图像的高度 $h$ 和宽度 $w$ 。
- $<boi>$ : 特殊词元，标记图像序列的开始 (beginning-of-image)。
- {image}: 表示连续图像词元序列。
- $<eoi>$ : 特殊词元，标记图像序列的结束 (end-of-image)。
任务头 (Heads)： 变换器输出的隐藏状态 (hidden states) 被传递给两个轻量级任务头，以计算模态特定的损失：
- 语言建模头 (Language Modeling Head): 用于计算文本隐藏状态的交叉熵损失，用于预测下一个离散文本词元。
- 逐块流匹配头 (Patch-wise Flow Matching Head): 遵循 Li et al., 2024c 的方法，使用每个图像块的隐藏状态作为条件，在时间步 $t$ 去噪目标图像块，并计算逐块流匹配损失。这个流匹配头是一个 1.57 亿参数的 MLP (Multi-Layer Perceptron)，包含 12 层和 1536 个隐藏维度。
位置编码 (Positional Information)： 模型使用标准的 1D 旋转位置编码 (Rotary Positional Embedding, RoPE) (Su et al., 2024)。尽管存在更复杂的 2D 或多模态 RoPE 变体 (Bai et al., 2025, Wang et al., 2024a)，但研究发现简单的 1D 形式对于混合文本-图像序列仍然非常有效，因此为保持简洁性和效率而保留。

5. 实验设置

本节详细介绍 NextStep-1 在训练和评估中所使用的数据集、评估指标以及对比基线。

5.1. 数据集

为了赋予模型广泛和通用的能力，NextStep-1 构建了一个多样化的训练语料库，主要由四类数据组成：纯文本语料库、图像-文本对数据、图像到图像数据和交错数据。

5.1.1. 文本语料库 (Text-only Corpus)

目的： 旨在保留大型语言模型 (LLM) 固有的广泛语言能力。
内容： 包含从 Step-3 (Wang et al., 2025a) 中抽样的 4000 亿个纯文本词元。

5.1.2. 图像-文本对数据 (Image-Text Pair Data)

目的： 构成模型文本到图像生成能力的基础。
构建流程： 采用了全面的流水线来从多样化的初始来源中整理出高质量、大规模的数据集。
1. 数据来源： 从包括网络数据、多任务 VQA (Visual Question Answering) 数据和文本丰富文档在内的多样化来源收集了大规模数据集。
2. 质量过滤： 应用了严格的过滤过程，对每张图像进行美学质量、水印存在、清晰度、OCR (Optical Character Recognition) 检测和文本-图像语义对齐的评估。
3. 重新标注 (Re-captioning)： 在对过滤后的图像进行去重后，使用 Step-1o-turbo 1 为每张图像生成丰富详细的英文和中文标注。
效果： 这种多阶段流水线确保了模型能够以强大的美学感知和广泛的世界知识进行训练。

5.1.3. 指令引导图像到图像数据 (Instruction-Guided Image-to-Image Data)

目的： 针对广泛的实际应用场景，如视觉感知 (visual perception)、可控图像生成 (controllable image generation)、图像修复 (image restoration) 和通用图像编辑 (general image editing)。
内容：
- 视觉感知和可控图像生成： 通过将 ControlNet (Zhang et al., 2023b) 的标注器应用于部分高质量图像-文本对数据，合成了 100 万个样本。
- 图像修复和通用图像编辑： 收集了 350 万个样本，包括来自 GPT-Image-Edit (Wang et al., 2025d)、Step1X-Edit (Liu et al., 2025) 和专有内部数据集的数据。
质量过滤： 遵循 Step1X-Edit (Liu et al., 2025) 的方法，所有编辑数据都经过严格的 VLM (Vision-Language Model) 过滤流水线，评估图像对质量、合理性、一致性和指令对齐，最终获得了约 100 万个高质量的指令引导图像到图像训练数据。

5.1.4. 交错数据 (Interleaved Data)

目的： 旨在无缝整合文本和图像，提供模态之间丰富而细致的序列关联，赋予模型广泛的世界知识。
内容： 知识丰富的交错数据集主要由四个不同类别组成：
1. 通用视频交错数据： 构建了一个大规模的 8000 万样本视频交错数据集，通过 Step-Video (Ma et al., 2025a) 的启发式整理流水线，包括帧提取、去重和标注。
2. 教程视频： 遵循 mmtextbook (Zhang et al., 2025) 的方法，利用 ASR (Automatic Speech Recognition) 和 OCR 工具收集并处理教程视频。这部分数据专门针对文本丰富的真实世界场景，增强模型在上下文中的文本理解和生成能力。
3. 以角色为中心的场景 (NextStep-Video-Interleave-5M)： 如图 Figure 3 所示，从视频中提取以特定角色为中心的帧，并生成类似 Oliveira and de Matos, 2025 的丰富故事风格标注，显著提高了模型的多轮交互能力。
4. 多视图数据： 从两个开源数据集 MV-ImageNet-v2 (Han et al., 2024) 和 Objaverse-XL (Deitke et al., 2023) 中整理了多视图数据，增强了模型的几何推理能力和多视图一致性。
  
  该图像是一个示意图，展示了角色绑定和多模态标注数据处理的步骤，包括面部检测、特征匹配和框架提取等流程。图中详细描述了如何通过余弦相似度匹配角色，并提供检查列表以确保一致性。

Figure 3 | 以角色为中心的数据处理。

5.2. 评估指标

对论文中出现的每一个评估指标，本节将提供其概念定义、数学公式和符号解释。

5.2.1. GenEval (Ghosh et al., 2023)

概念定义： GenEval 旨在评估文本到图像生成模型的视觉-文本对齐 (visual-textual alignment) 能力。它量化了生成图像与给定文本提示在语义和视觉内容上的匹配程度。分数越高表示对齐越好。
数学公式： 论文未提供 GenEval 的具体计算公式。通常，此类对齐指标可能依赖于 CLIP score (Contrastive Language-Image Pre-training) 或人工评估。
符号解释： GenEval↑ 表示该指标分数，越高越好。

5.2.2. GenAI-Bench (Lin et al., 2024)

概念定义： GenAI-Bench 评估模型在处理不同复杂程度文本提示时的图像生成能力，特别是其对基本 (Basic) 和高级 (Advanced) 合成指令的理解和执行。
数学公式： 论文未提供 GenAI-Bench 的具体计算公式。通常这类基准会结合自动化评估（如 CLIP score）和人工评估来衡量生成图像与文本提示的对齐程度。
符号解释：
- Basic↑: 在基本提示下得分，越高越好。
- Advanced↑: 在高级提示下得分，越高越好。

5.2.3. DPG-Bench (Hu et al., 2024)

概念定义： DPG-Bench 侧重于评估模型在生成包含长描述和多个对象的复杂场景时，保持图像元素之间正确合成关系和细节保真度的能力。
数学公式： 论文未提供 DPG-Bench 的具体计算公式。通常涉及对图像中对象数量、位置、属性等与提示一致性的自动化评估。
符号解释： DPG-Bench↑ 表示该指标分数，越高越好。

5.2.4. OneIG-Bench (Chang et al., 2025)

概念定义： OneIG-Bench 提供多维度细粒度评估，旨在全面衡量文本到图像模型的性能，包括图像与文本的对齐 (Alignment)、文本在图像中的渲染质量 (Text)、模型的推理能力 (Reasoning)、对图像风格的控制 (Style) 以及生成图像的多样性 (Diversity)。
数学公式： 论文未提供 OneIG-Bench 的具体计算公式。通常通过结合自动化指标（如 CLIP score、OCR 准确率）和人工评估来给出各维度评分。
符号解释：
- Alignment: 图像与文本的对齐程度。
- Text: 图像中渲染文本的质量和准确性。
- Reasoning: 模型理解和实现复杂推理提示的能力。
- Style: 模型控制图像风格的能力。
- Diversity: 生成图像的多样性。
- Overall↑: 综合总分，越高越好。

5.2.5. WISE (Niu et al., 2025)

概念定义： WISE (World Knowledge-informed Semantic Evaluation) 旨在评估文本到图像生成模型将世界知识融入生成图像的能力，强调事实基础和语义理解。分数越高表示模型对世界知识的整合能力越强。它涵盖文化 (Cultural)、时间 (Time)、空间 (Space)、生物 (Biology)、物理 (Physics) 和化学 (Chemistry) 等多个领域。
数学公式： 论文未提供 WISE 的具体计算公式。通常此类基准通过人工评估或自动化 VLM 评估，对生成图像与提示中包含的世界知识的一致性、准确性进行打分。
符号解释：
- Cultural, Time, Space, Biology, Physics, Chemistry: 各领域得分，越高越好。
- Overall↑: 总分，越高越好。
- Overall (Rewrite)↑: 在提示重写 (prompt rewrite) 协议下的总分，越高越好。

5.2.6. GEdit-Bench (Liu et al., 2025) 和 ImgEdit-Bench (Ye et al., 2025)

概念定义： GEdit-Bench 和 ImgEdit-Bench 是用于评估图像编辑模型性能的基准测试，衡量模型根据指令对图像进行修改的能力。G_SC (Semantic Consistency) 评估编辑前后语义一致性，G_PQ (Perceptual Quality) 评估编辑后图像的感知质量， $G_O$ (Overall) 评估整体效果。
数学公式： 论文未提供具体公式。这些指标通常通过 GPT-4.1 (OpenAI, 2025a) 等 VLM 进行自动化评估打分。
符号解释：
- G_SC↑: 语义一致性得分，越高越好。
- G_PQ↑: 感知质量得分，越高越好。
- $G_O↑$ : 整体效果得分，越高越好。
- ImgEdit-Bench↑: ImgEdit-Bench 上的得分，越高越好。

5.2.7. PSNR (Peak Signal-to-Noise Ratio)

概念定义： 峰值信噪比衡量信号的最大可能功率与可能影响其表示的破坏性噪声功率之间的比率。在图像处理中，它通常用于量化压缩图像或重建图像的质量。PSNR 值越高表示图像质量越好，噪声越少。
数学公式： $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right)$ 其中，MSE (Mean Squared Error) 均方误差的计算公式为： $\mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1}\sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
符号解释：
- $\mathrm{MAX}_I$ : 图像中像素可能的最大值。例如，对于 8 位灰度图像， $\mathrm{MAX}_I = 255$ 。
- $\mathrm{MSE}$ : 均方误差，衡量原始图像 $I$ 和重建图像 $K$ 之间像素值的平均平方差。
- I(i,j): 原始图像在像素 (i,j) 处的像素值。
- K(i,j): 重建图像在像素 (i,j) 处的像素值。
- m, n: 图像的行数和列数。
- $\log_{10}$ : 以 10 为底的对数。

5.2.8. SSIM (Structural Similarity Index Measure)

概念定义： 结构相似性指标衡量两幅图像之间的相似度，其设计更符合人类视觉感知系统。它综合考虑了图像的亮度 (luminance)、对比度 (contrast) 和结构 (structure) 信息，而不是简单地比较像素值。SSIM 值接近 1 表示两幅图像非常相似，质量越高。
数学公式： $\mathrm{SSIM}(x,y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}$
符号解释：
- x, y: 分别表示原始图像和重建图像的局部窗口像素值。
- $\mu_x$ : 图像 $x$ 的平均像素值。
- $\mu_y$ : 图像 $y$ 的平均像素值。
- $\sigma_x^2$ : 图像 $x$ 的方差。
- $\sigma_y^2$ : 图像 $y$ 的方差。
- $\sigma_{xy}$ : 图像 $x$ 和 $y$ 的协方差。
- $C_1 = (K_1L)^2$ : 一个小常数，用于防止分母为零。 $K_1$ 是一个常数 (通常取 0.01)， $L$ 是像素值的动态范围（例如，8 位图像为 255）。
- $C_2 = (K_2L)^2$ : 另一个小常数。 $K_2$ 是一个常数 (通常取 0.03)。

5.3. 对比基线

论文将 NextStep-1 的性能与广泛的基线模型进行了比较，这些模型涵盖了专有模型、扩散模型和现有的自回归模型，以全面评估其性能。

专有模型 (Proprietary Models):
- DALL-E 3 (Betker et al., 2023)
- Seedream 3.0 (Gao et al., 2025)
- GPT4o (OpenAI, 2025b)
- Imagen3 (Baldridge et al., 2024)
- Recraft V3 (team, 2024)
- Kolors 2.0 (team, 2025)
- Imagen4 (deepmind Imagen4 team, 2025)
- Gemini 2.0 (Gemini2, 2025)
- Doubao (Shi et al., 2024)
- Flux.1-Kontext-pro (Labs et al., 2025)
扩散模型 (Diffusion Models):
- Stable Diffusion 1.5 (Rombach et al., 2022)
- Stable Diffusion XL (Podell et al., 2024)
- Stable Diffusion 3 Medium (Esser et al., 2024)
- Stable Diffusion 3.5 Large (Stability-AI, 2024)
- PixArt-Alpha (Chen et al., 2024b)
- Flux.1-dev (Labs, 2024)
- Transfusion (Zhou et al., 2025)
- CogView4 (Z.ai, 2025)
- Lumina-Image 2.0 (Qin et al., 2025)
- HiDream-I1-Full (Cai et al., 2025)
- Mogao (Liao et al., 2025)
- BAGEL (Deng et al., 2025)
- Show-o2-7B (Xie et al., 2025b)
- OmniGen2 (Wu et al., 2025b)
- Qwen-Image (Wu et al., 2025a)
- SANA-1.5 (Xie et al., 2025a)
- BLIP3-o (Chen et al., 2025a)
- Playground v2.5 (Li et al., 2024b)
- MetaQuery-XL (Pan et al., 2025)
自回归模型 (AutoRegressive Models):
- SEED-X (Ge et al., 2024)
- Show-o (Xie et al., 2024)
- VILA-U (Wu et al., 2024)
- Emu3 (Wang et al., 2024b)
- SimpleAR (Wang et al., 2025c)
- Fluid (Fan et al., 2024)
- Infinity (Han et al., 2025)
- Janus-Pro-7B (Chen et al., 2025b)
- Token-Shuffle (Ma et al., 2025b)

5.4. 训练策略 (Training Recipe)

5.4.1. 图像词元化器训练 (Training Image Tokenizer)

初始化： 从 Flux.1-dev VAE (Labs, 2024) 初始化，该模型以其强大的重建性能而被选中。
微调： 在第 3.2 节详述的图像-文本数据集上进行微调，以适应特定数据分布。
优化器： 采用 AdamW 优化器 (Loshchilov and Hutter, 2019)，参数设置为 $( \beta _ { 1 } = 0 . 9 , \beta _ { 2 } = 0 . 9 5 , \varepsilon = 1 \times 1 0 ^ { - 8 } )$ ，以确保收敛稳定性。
训练步数与学习率： 训练 50K 步，总批次大小为 512，使用 $1 \times 1 0 ^ { - 5 }$ 的恒定学习率，并在此之前进行 1000 步的线性预热 (linear warm-up)。

5.4.2. 预训练 (Pre-Training)

预训练遵循一个三阶段课程 (three-stage curriculum)，旨在逐步完善模型的能力。在这些阶段中，除了预训练的图像词元化器外，所有模型参数都进行端到端训练。具体的超参数和数据比例详见 Table 1。

以下是原文 Table 1 的结果：

	Stage1	Stage2	Annealing	SFT	DPO
	Pre-Training			Post-Training
Hyperparameters
Learning Rate (Min, Max)	1 × 10-4	1 × 10-5	(0, 1 × 10−5)	(0, 1 × 10−5)	2 × 10-6
LR Scheduler	Constant	Constant	Cosine	Cosine	Constant
Weight Decay	0.1	0.1	0.1	0.1	0.1
Loss Weight (CE : MSE)	(0.01 : 1)	(0.01 : 1)	(0.01 : 1)	(0.01 : 1)	-
Training Steps	200K	100K	20K	10K	300
Warm-up Steps	5K	5K	0	500	200
Sequence Length per Rank	16K	16K	16K	8K
Image Area (Min, Max)	256×256	(256×256, 512×512)	(256×256, 512×512)	(256×256, 512×512)	(256×256, 512×512)
Image Tokens (Min, Max)	256	(256, 1024)	(256, 1024)	(256, 1024)	(256, 1024)
Training Tokens	1.23T	0.61T	40B	5B
Data Ratio
Text-only Corpus	0.2	0.2	0.2	0
Image-Text Pair Data	0.6	0.6	0.6	0.9
Image-to-Image Data	0.0	0.0	0.1	0.1
Interleaved Data	0.2	0.2	0.1	0

1. Stage1：

目的： 学习图像结构和构图的基础理解。
分辨率： 所有图像被调整大小并随机裁剪至固定的 $256 \times 256$ 分辨率，以提高计算效率。
数据组合： $20\%$ 纯文本语料库、 $60\%$ 图像-文本对和 $20\%$ 交错数据。
训练量： 消耗约 1.23 万亿 (1.23T) 词元。

2. Stage2：

目的： 在更高分辨率范围内训练模型。
分辨率策略： 采用动态分辨率策略，针对 $256 \times 256$ 和 $512 \times 512$ 的基础区域进行训练，并利用不同的宽高比桶 (aspect ratio buckets) 来提高计算效率。
数据组合： 丰富了数据混合，增加了更多文本丰富和视频交错数据，以利用模型处理这些分辨率下细微细节的能力。
训练量： 消耗约 0.61 万亿 (0.61T) 词元。

3. Annealing (退火阶段)：

目的： 锐化模型在高度精选数据集上的能力。
训练策略： 在一个包含 2000 万 (20M) 样本的高质量子集上训练一个 epoch。这些样本从第 3.2 节的数据中通过更严格的美学分数、图像清晰度、语义相似性、水印等过滤阈值进行选择。
效果： 显著改善了模型的最终输出，增强了整体图像结构、构图、纹理和美学吸引力。
训练量： 消耗约 400 亿 (40B) 词元。

5.4.3. 后训练 (Post-Training)

在广泛语料库上进行预训练以建立通用模型后，后训练旨在使模型输出与人类偏好和下游任务对齐。通过监督微调 (Supervised Fine-Tuning, SFT) 和直接偏好优化 (Direct Preference Optimization, DPO) 两个阶段实现这种对齐。具体的超参数详见 Table 1。

1. 监督微调 (Supervised Fine-Tuning, SFT)：

目的： 增强模型的指令遵循能力，并使其输出与人类偏好对齐。
数据集： SFT 数据集总计 500 万 (5M) 样本，由三部分组成：
1. 高质量图像-文本对： 包含人类选择的高语义一致性和视觉吸引力的图像-文本对，并通过从其他生成模型获取的图像进行增强，以通过蒸馏 (distillation) 改进模型处理复杂和富有想象力提示的能力。
2. 思维链 (Chain-of-Thought, CoT) 数据： (Deng et al., 2025, Wei et al., 2022)，通过在创建最终图像之前加入基于语言的推理步骤来改进文本到图像生成。
3. 指令引导图像到图像数据： 来自第 3.3 节的高质量指令引导图像到图像数据，以增强模型的图像编辑能力。
训练量： 消耗约 50 亿 (5B) 词元。

2. 直接偏好优化 (Direct Preference Optimization, DPO)：

目的： 为了使模型与人类偏好对齐，采用 Direct Policy Optimization (DPO) (Rafailov et al., 2023)，该方法受到 Diffusion-DPO (Wallace et al., 2024) 的启发。
偏好数据集： 构建了两种不同类型的偏好数据集，基于大约 20,000 个多样化提示的精选集合。
1. 标准 DPO 数据集： 对于每个提示 $c$ ，直接使用 SFT 模型生成 16 张候选图像。这些图像随后由 ImageReward (Xu et al., 2023) 打分，形成一个偏好对 $( y ^ { w } , y ^ { l } )$ 。其中，获胜图像 $y ^ { w }$ 从前 4 个最佳候选图像中随机采样，而失败图像 $y ^ { l }$ 从剩余的 12 个候选图像中随机采样。
2. 自思维链 (Self-CoT DPO) 数据集： 为了增强模型的推理能力，引入了显式推理步骤。对于每个提示 $c$ ，首先提示模型生成详细的文本 CoT，然后将其扩展到原始提示。使用这个 CoT 增强的提示，遵循与标准 DPO 数据集相同的流水线，形成偏好对 $( y ^ { w } , y ^ { l } )$ 。
训练量： 训练 300 步。

6. 实验结果与分析

本节将详细解读 NextStep-1 的实验结果，分析其在文本到图像生成和图像编辑方面的性能，并探讨关键设计选择对模型表现的影响。

6.1. 核心结果分析

6.1.1. 文本到图像生成性能 (Performance of Text-to-Image Generation)

NextStep-1 在多个代表性基准测试中进行了全面的文本到图像 (Text-to-Image, T2I) 生成性能评估，这些基准测试涵盖了图像-文本对齐和世界知识等不同方面。

6.1.1.1. 图像-文本对齐 (Image-Text Alignment)

以下是原文 Table 2 的结果：

Method	GenEval↑	Basic	Advanced	DPG-Bench↑
Method	GenEval↑	GenAI-Bench↑		DPG-Bench↑
Proprietary
DALL-E 3 (Betker et al., 2023)	0.67	0.90	0.70	83.50
Seedream 3.0 (Gao et al., 2025)	0.84	-	-	88.27
GPT4o (OpenAI, 2025b)	0.84		-	85.15
Diffusion
Stable Diffusion 1.5 (Rombach et al., 2022)	0.43	-	-	-
Stable Diffusion XL (Podell et al., 2024)	0.55	0.83	0.63	74.65
Stable Diffusion 3 Medium (Esser et al., 2024)	0.74	0.88	0.65	84.08
Stable Diffusion 3.5 Large (Esser et al., 2024)	0.71	0.88	0.66	83.38
PixArt-Alpha (Chen et al., 2024b)	0.48	-	-	71.11
Flux.1-dev (Labs, 2024)	0.66	0.86	0.65	83.79
Transfusion (Zhou et al., 2025)	0.63	-	-	-
CogView4 (Z.ai, 2025)	0.73	-	-	85.13
Lumina-Image 2.0 (Qin et al., 2025)	0.73	-	-	87.20
HiDream-I1-Full (Cai et al., 2025)	0.83	0.91	0.66	85.89
Mogao (Liao et al., 2025)	0.89	-	0.68	84.33
BAGEL (Deng et al., 2025)	0.82/0.88‡	0.89/0.86‡	0.69/0.75†	85.07
Show-o2-7B (Xie et al., 2025b)	0.76	-		86.14
OmniGen2 (Wu et al., 2025b)	0.80/0.86*			83.57
Qwen-Image (Wu et al., 2025a)	0.87	-		88.32
AutoRegressive
SEED-X (Ge et al., 2024)	0.49	0.86	0.70
Show-o (Xie et al., 2024)	0.53	0.70	0.60
VILA-U (Wu et al., 2024)	-	0.76	0.64
Emu3 (Wang et al., 2024b)	0.54/0.65*	0.78	0.60	80.60
SimpleAR (Wang et al., 2025c)	0.63	-	-	81.97
Fluid (Fan et al., 2024)	0.69	-	-	-
Infinity (Han et al., 2025)	0.79	-	-	86.60
Janus-Pro-7B (Chen et al., 2025b)	0.80	0.86	0.66	84.19
Token-Shuffle (Ma et al., 2025b)	0.62	0.78	0.67	-
NextStep-1	0.63/0.73†	0.88/0.90*	0.67/0.74*	85.28

GenEval (Ghosh et al., 2023)： NextStep-1 取得 0.63 分（使用 Self-CoT 时为 0.73），展现了其强大的文本-图像对齐能力。
GenAI-Bench (Lin et al., 2024)： 在基本提示上达到 0.88 分（使用 Self-CoT 时为 0.90），在高级提示上达到 0.67 分（使用 Self-CoT 时为 0.74）。这些结果表明 NextStep-1 在组成和语言理解方面具有卓越能力，性能与 Stable Diffusion 3.5 Large 和 BAGEL 等扩散模型具有竞争力。

DPG-Bench (Hu et al., 2024)： 在长上下文、多对象场景中，NextStep-1 达到 85.28 分，验证了其在复杂提示下的可靠组成保真度。

以下是原文 Table 3 的结果：

Method	Alignment	Text	Reasoning	Style	Diversity	Overall↑
Proprietary
Imagen3 (Baldridge et al., 2024)	0.843	0.343	0.313	0.359	0.188	0.409
Recraft V3 (team, 2024)	0.810	0.795	0.323	0.378	0.205	0.502
Kolors 2.0 (team, 2025)	0.820	0.427	0.262	0.360	0.300	0.434
Seedream 3.0 (Gao et al., 2025)	0.818	0.865	0.275	0.413	0.277	0.530
Imagen4 (deepmind Imagen4 team, 2025)	0.857	0.805	0.338	0.377	0.199	0.515
GPT-4o (OpenAI, 2025b)	0.851	0.857	0.345	0.462	0.151	0.533
Diffusion
Stable Diffusion 1.5 (Rombach et al., 2022)	0.565	0.010	0.207	0.383	0.429	0.319
Stable Diffusion XL (Podell et al., 2024)	0.688	0.029	0.237	0.332	0.296	0.316
Stable Diffusion 3.5 Large (Stability-AI, 2024)	0.809	0.629	0.294	0.353	0.225	0.462
Flux.1-dev (Labs, 2024) CogView4 (Z.ai, 2025)	0.786	0.523	0.253	0.368	0.238	0.434
SANA-1.5 1.6B (PAG) (Xie et al., 2025a)	0.786	0.641	0.246	0.353	0.205	0.446
SANA-1.5 4.8B (PAG) (Xie et al., 2025a)	0.762	0.054	0.209	0.387	0.222	0.327
Lumina-Image 2.0 (Qin et al., 2025)	0.765	0.069	0.217	0.401	0.216	0.334
HiDream-I1-Full (Cai et al., 2025)	0.819	0.106	0.270	0.354	0.216	0.353
BLIP3-o (Chen et al., 2025a)	0.829	0.707	0.317	0.347	0.186	0.477
	0.711	0.013	0.223	0.361	0.229	0.307
BAGEL (Deng et al., 2025)	0.769	0.244	0.173	0.367	0.251	0.361
Show-o2-1.5B (Xie et al., 2025b)	0.798	0.002	0.219	0.317	0.186	0.304
Show-o2-7B (Xie et al., 2025b)	0.817	0.002	0.226	0.317	0.177	0.308
OmniGen2 (Wu et al., 2025b)	0.804	0.680	0.271	0.377	0.242	0.475
Qwen-Image (Wu et al., 2025a)	0.882	0.891	0.306	0.418	0.197	0.539
AutoRegressive
Emu3 (Wang et al., 2024b)	0.737	0.010	0.193	0.361	0.251
Janus-Pro (Chen et al., 2025b)	0.553	0.001	0.139	0.276	0.365	0.311 0.267
NextStep-1	0.826	0.507	0.224	0.332	0.199	0.417

OneIG-Bench (Chang et al., 2025)： 在英文提示下，NextStep-1 的总分达到 0.417。这一结果显著优于其自回归同类模型，如 Emu3 (0.311) 和 Janus-Pro (0.267)。这表明 NextStep-1 在对齐、文本渲染、推理和风格控制等细粒度方面也表现出优势。

6.1.1.2. 世界知识 (World Knowledge)

以下是原文 Table 4 的结果：

Model	Cultural	Time	Space	Biology	Physics			Chemistry Overall↑ Overall (Rewrite)↑
Proprietary
GPT-4o (OpenAI, 2025b)	0.81	0.71	0.89	0.83	0.79	0.74	0.80	-
Diffusion
Stable Diffusion 1.5 (Rombach et al., 2022)	0.34	0.35	0.32	0.28	0.29	0.21	0.32	0.50
Stable Diffusion XL (Podell et al., 2024)	0.43	0.48	0.47	0.44	0.45	0.27	0.43	0.65
Stable Diffusion 3.5 Large (Stability-AI, 2024)	0.44	0.50	0.58	0.44	0.52	0.31	0.46	0.72
PixArt-Alpha (Chen et al., 2024b)	0.45	0.50	0.48	0.49	0.56	0.34	0.47	0.63
Playground v2.5 (Li et al., 2024b)	0.49	0.58	0.55	0.43	0.48	0.33	0.49	0.71
Flux.1-dev (Labs, 2024)	0.48	0.58	0.62	0.42	0.51	0.35	0.50	0.73
MetaQuery-XL (Pan et al., 2025)	0.56	0.55	0.62	0.49	0.63	0.41	0.55
BAGEL (Deng et al., 2025)	0.44/0.76‡	0.55/0.69†	0.68/0.75‡	0.44/0.65†	0.60/0.75†	0.39/0.58†	0.52/0.70†	0.71/0.77†
Qwen-Image (Wu et al., 2025a)	0.62	0.63	0.77	0.57	0.75	0.40	0.62	-
AutoRegressive
Show-o-512 (Xie et al., 2024)	0.28	0.40	0.48	0.30	0.46	0.30	0.35	0.64
VILA-U (Wu et al., 2024)	0.26	0.33	0.37	0.35	0.39	0.23	0.31	-
Emu3 (Wang et al., 2024b)	0.34	0.45	0.37	0.48	0.41	0.45	0.27	0.39
Janus-Pro-7B (Chen et al., 2025b) NextStep-1	0.30		0.49	0.36	0.42	0.26	0.35	0.71 0.79/0.83*
	0.51/0.70‡	0.54/0.65‡	0.61/0.69‡	0.52/0.63†	0.63/0.73‡	0.48/0.52†	0.54/0.67*

WISE (Niu et al., 2025)： NextStep-1 在自回归模型中取得了最佳性能，总分为 0.54（使用 Self-CoT 时为 0.67），甚至超过了大多数扩散模型。值得注意的是，在提示重写 (prompt rewrite) 协议下，其得分提高到 0.79（使用 Self-CoT 时为 0.83）。这些结果共同证明了 NextStep-1 强大的知识感知语义对齐和跨领域推理能力。

6.1.2. 图像编辑性能 (Performance of Image Editing)

通过在第 3.3 节的 100 万高质量编辑数据上进行微调，NextStep-1-Edit 展示了与先进的基于扩散的模型竞争的性能。

以下是原文 Table 5 的结果：

Model	G_SC	G_PQ	G_0	G_SC	G_PQ	G_0	ImgEdit-Bench↑
Model	GEdit-Bench-EN (Full Set)↑			GEdit-Bench-CN (Full Set)↑			ImgEdit-Bench↑
Proprietary
Gemini 2.0 (Gemini2, 2025)	6.87	7.44	6.51	5.26	7.60	5.14
Doubao (Shi et al., 2024)	7.22	7.89	6.98	7.17	7.79	6.84
GPT-4o (OpenAI, 2025b)	7.74	8.13	7.49	7.52	8.02	7.30	4.20
Flux.1-Kontext-pro (Labs et al., 2025)	7.02	7.60	6.56	1.11	7.36	1.23	-
Open-source
Instruct-Pix2Pix (Brooks et al., 2023)	3.30	6.19	3.22				1.88
MagicBrush (Zhang et al., 2023a)	4.52	6.37	4.19				1.83
AnyEdit (Yu et al., 2024a)	3.05	5.88	2.85				2.45
OmniGen (Xiao et al., 2024)	5.88	5.87	5.01				2.96
OmniGen2 (Wu et al., 2025b)	7.16	6.77	6.41	-	-		3.44
Step1X-Edit v1.0 (Liu et al., 2025)	7.13	7.00	6.44	7.30	7.14	6.66	3.06
Step1X-Edit v1.1 (Liu et al., 2025)	7.66	7.35	6.97	7.65	7.40	6.98	-
BAGEL (Deng et al., 2025)	7.36	6.83	6.52	7.34	6.85	6.50	3.42
Flux.1-Kontext-dev (Labs et al., 2025)	-	-	6.26	-	-	-	3.71
GPT-Image-Edit (Wang et al., 2025d)	-	-	7.24	-	-	-	3.80
NextStep-1	7.15	7.01	6.58	6.88	7.02	6.40	3.71

NextStep-1-Edit 在 GEdit-Bench-EN 上取得了 6.58 分（ $G_O$ 指标），在 ImgEdit-Bench 上取得了 3.71 分，这表明其具有强大的实用编辑能力。

6.2. 消融实验/参数分析

6.2.1. 图像生成的主导者：AR 变换器还是 FM 头？ (What Governs Image Generation: the AR Transformer or the FM Head?)

论文探讨了 NextStep-1 框架中的一个关键架构区别：直接使用流匹配目标对连续图像词元进行自回归建模。与其他依赖重型扩散模型（通过 Transformer 产生语义嵌入来条件化扩散模型）的自回归模型不同，NextStep-1 是逐块生成图像，并通过一个更轻量级的流匹配模型来建模每个图像块的分布。论文认为这使得 NextStep-1 成为一个纯粹的自回归范式，采用下一个词元预测 (NTP) 建模，而非仅仅由 Transformer 协调的扩散模型。

一个关键发现是模型对流匹配头 (Flow Matching Head) 大小表现出惊人的不敏感性。以下是原文 Table 6 的结果：

	Layers	Hidden Size	# Parameters
FM Head Small	6	1024	40M
FM Head Base	12	1536	157M
FM Head Large	24	2048	528M

以下是原文 Table 7 的结果：

	GenEval	GenAI-Bench	DPG-Bench
Baseline	0.59	0.77	85.15
w / FM Head Small	0.55	0.76	83.46
w / FM Head Base	0.55	0.75	84.68
w / FM Head Large	0.56	0.77	85.50

论文在三种不同大小的流匹配头（小、基础、大）上进行了消融实验。每次实验中，仅重新初始化和训练该头 10K 步。尽管模型大小差异显著（40M、157M、528M），所有三种头都产生了非常相似的结果。下图 Figure 4 展示了不同流匹配头下生成的图像。

Figure 3 | Data processing of character-centric data. 该图像是图表，展示了在不同流匹配头下生成的图像，包括小流匹配头、基础流匹配头和大流匹配头下的图像合成效果。这些图像分别呈现了不同场景中的动物、建筑和舞者，展示了模型的高保真图像合成能力。

Figure 4 | 在不同流匹配头下生成的图像。

这种对头大小的不敏感性强烈表明，Transformer 主干网络执行了条件分布 $p ( x _ { i } \mid x _ { < i } )$ 的核心生成建模。 流匹配头，类似于语言模型中的 LM 头，主要作为一个轻量级采样器，将 Transformer 的上下文预测转化为连续词元。因此，核心的生成逻辑存在于 Transformer 的自回归 NTP 过程中。

6.2.2. 词元化器是图像生成的关键 (Tokenizer is the Key to Image Generation)

6.2.2.1. 缓解强分类器自由引导 (CFG) 下的不稳定性 (Mitigating Instability under Strong Classifier-Free Guidance)

问题： 基于 VAE 的自回归模型在强分类器自由引导 (CFG) 尺度下，已知会出现视觉伪影（如灰色块）。
分析： 尽管先前工作曾假设这种不稳定性源于 1D 位置嵌入中的不连续性，但论文分析表明，根本原因在于高引导尺度下词元级别分布偏移 (token-level distributional shifts) 的放大。
现象： 在推理时，CFG 被引入以增强条件保真度。引导预测 $\tilde { \nu }$ $\tilde{ν}$ 通过插值计算： $\tilde { \nu } ( x | y ) = ( 1 - w ) \cdot \nu _ { \theta } ( x | \emptyset ) + w \cdot \nu _ { \theta } ( x | y )$
- 符号解释：
  - $\tilde { \nu } ( x | y )$ : 引导后的预测。
  - $\nu _ { \theta } ( x | \emptyset )$ : 无条件预测。
  - $\nu _ { \boldsymbol { \theta } } ( \boldsymbol { x } | \boldsymbol { y } )$ : 条件预测。
  - $w$ : 引导尺度。在扩散模型中，高引导尺度下的推理是稳定的，因为潜在变量通常是归一化的，确保条件和无条件预测保持一致的尺度。然而，在词元级别的自回归模型中，整个潜在张量的全局归一化不能强制执行每个词元的统计一致性。因此，条件和无条件预测之间微小的差异会被大引导尺度放大，导致生成词元的统计数据在序列中显著漂移。
经验验证： 下图 Figure 5 经验性地展示了这一现象。
- 在适度的 $CFG=1.5$ 尺度下，每个词元的均值和方差在整个生成过程中保持稳定。
- 但在高 $CFG=3.0$ 尺度下，两个统计量对于后续词元显著发散，这种分布偏移直接对应于视觉伪影的出现。
  
  该图像是图表，展示了在不同CFG设置下，采样步骤中每个token的均值和方差的演变。上方的图显示了CFG=1.5和CFG=3.0的均值和方差，说明了在参数变化下图像质量的稳定性与变化。

Figure 5 | 在两种 CFG 设置下，采样步骤中每个词元的均值和方差的演变。在 $\mathrm { C F G } = 1 . 5$ 时，均值和方差分别保持接近 0 和 1，表明稳定性。在 $\mathrm { C F G } = 3 . 0$ 时，它们显著漂移，导致图像质量下降。通过归一化，输出潜在变量的分布在所有 CFG 设置下保持稳定。

解决方案： NextStep-1 的词元化器设计，特别是其通道归一化 (channel-wise normalization)（见公式 (3)），直接解决了这个问题，通过强制执行每个词元的统计稳定性。这一简单但关键的设计选择缓解了不稳定性，使得在不降低图像质量的情况下使用强引导成为可能。

6.2.2.2. 正则化潜在空间对生成至关重要 (A Regularized Latent Space is Critical for Generation)

反直觉发现： 论文的一个关键发现是生成损失与自回归模型的最终合成质量之间存在反直觉的负相关。具体而言，在词元化器训练期间应用更高的噪声强度 $\gamma$ （见公式 (3)）会增加生成损失，但却悖论般地提高了生成图像的质量。例如，NextStep-1 使用的词元化器在 $\gamma = 0 . 5$ 下训练，虽然产生了最高的生成损失，但生成了最高保真度的图像。相反，为低生成损失而训练的词元化器会导致自回归模型产生类似纯噪声的输出。
归因： 这种现象归因于噪声正则化 (noise regularization)，它培养了一个良好条件的潜在空间 (well-conditioned latent space)。这个过程增强了两个关键属性：
1. 词元化器解码器对潜在扰动的鲁棒性 (Fig. 6)。
2. 更分散的潜在分布 (Fig. 7)，这被先前工作 (Sun et al., 2024c, Yang et al., 2025, Yao et al., 2025) 认为对生成有益。
未来方向： 尽管目前尚不清楚是鲁棒性还是分散性在其中扮演了关键角色，这些结果强调了基于噪声的正则化的实际益处，并为未来的分析指明了有希望的方向。

下图 Figure 6 展示了噪声扰动对图像词元化器性能的影响。

$Figure 5 | Evolution of per-token mean and variance over sampling steps under two CFG settings. At $\\mathrm { C F G } = 1 . 5$ , the mean and variance stay close to 0 and 1, respectively, indicating stability. At $\\mathrm { C F G } = 3 . 0 ,$ they drift significantly, causing image quality degradation. With normalization, the distributions of output latents remain stable across all CFG settings.$ 该图像是图表，展示了噪声扰动对图像编码器性能的影响。上面部分为定量指标（rFID、PSNR和SSIM）与噪声标准偏差的关系，下面部分展示了在不同噪声标准偏差（0.2和0.5）下的重建示例。

Figure 6 | 噪声扰动对图像词元化器性能的影响。上方面板显示了定量指标（rFID↓、PSNR↑和SSIM↑）与噪声强度的关系。下方面板展示了在噪声标准差为 0.2 和 0.5 时的定性重建示例。

下图 Figure 7 展示了三种 VAE 变体的 16 通道潜在分布：Flux.1-dev、NextStep-1 (无噪声) 和 NextStep-1 (有噪声)。蓝色条形图显示了经验直方图；红色线条表示标准正态分布。NextStep-1 VAE (有噪声) 与正态分布的对齐最佳，反映出分散的潜在分布。

Figure 6 | Impact of Noise Perturbation on Image Tokenizer Performance. The top panel displays quantitative metrics (rFID↓, PSNR↑, and SSIM↑) versus noise intensity. The bottom panel presents qualitative reconstruction examples at noise standard deviations of 0.2 and 0.5. 该图像是多维数据的直方图，展示了不同维度（Dimension 0 至 Dimension 15）的经验分布与正态分布的比较。每个子图中，蓝色柱状图表示经验分布，红色曲线表示正态分布，直观展现了各个维度数据的特征。

Latent Distribution of Flux.1-dev VAE

该图像是多维数据的直方图，展示了不同维度（Dimension 0 至 Dimension 15）的经验分布与正态分布的比较。每个子图中，蓝色柱状图表示经验分布，红色曲线表示正态分布，直观展现了各个维度数据的特征。该图像是 latent distribution 的直方图，展示了 NextStep-1 VAE 中不同维度的潜在分布特征。每个图表表示不同维度的经验和正态分布，强调了模型在隐空间的表现。

Latent Distribution of NextStep-1 VAE w/o Noise Figure 7 | 三种 VAE 变体的 16 通道潜在分布：Flux.1-dev、NextStep-1 VAE (无噪声) 和 NextStep-1 VAE (有噪声)。蓝色条形图显示了经验直方图；红色线条表示标准正态分布。NextStep-1 VAE 与正态分布的对齐最佳，反映出分散的潜在分布。

6.2.2.3. 重建质量是生成质量的上限 (Reconstruction Quality is the Upper Bound of Generation Quality)

核心原则： 图像词元化器的重建保真度从根本上决定了最终生成图像质量的上限，特别是对于精细细节和纹理。这一原则已在许多近期研究 (Dai et al., 2023, Esser et al., 2024, Labs, 2024) 中得到验证，导致扩散范式中出现了一种趋势，即在具有出色重建性能 ( $PSNR > 30$ ) 的 VAE 基础上构建生成模型。
对比： 相比之下，基于 VQ 的自回归模型在历史上难以超越这一阈值 (如 Table 8 所示)。

本文贡献： NextStep-1 成功地将自回归模型应用于高保真连续 VAE，弥合了这一差距。

以下是原文 Table 8 的结果：

Tokenizer	Latent Shape	PSNR ↑	SSIM ↑
Discrete Tokenizer
SBER-MoVQGAN (270M) (Zheng et al., 2022)	32x32	27.04	0.74
LlamaGen (Sun et al., 2024a)	32x32	24.44	0.77
VAR (Tian et al., 2024)	680	22.12	0.62
TiTok-S-128 (Yu et al., 2024b)	128	17.52	0.44
Sefltok (Wang et al., 2025b)	1024	26.30	0.81
Continuous Tokenizer
Stable Diffusion 1.5 (Rombach et al., 2022)	32x32x4	25.18	0.73
Stable Diffusion XL (Podell et al., 2024)	32x32x4	26.22	0.77
Stable Diffusion 3 Medium (Esser et al., 2024)	32x32x16	30.00	0.88
Flux.1-dev (Labs, 2024)	32x32x16	31.64	0.91
NextStep-1	32x32x16	30.60	0.89

7. 总结与思考

7.1. 结论总结

NextStep-1 成功地将自回归范式推进到大规模连续词元图像生成领域，取得了显著的里程碑。该模型通过结合一个 140 亿参数的自回归 Transformer 和一个 1.57 亿参数的轻量级流匹配头，在离散文本词元和连续图像词元上进行训练，并采用统一的下一个词元预测目标。

主要贡献包括：

在文本到图像生成任务中，NextStep-1 实现了自回归模型的最先进 (state-of-the-art) 性能，并在多个基准测试中展现出高保真图像合成、卓越的组合和语言理解能力，甚至超越了许多扩散模型。
在指令引导的图像编辑任务中，NextStep-1-Edit 也表现出强大的实用编辑能力。
研究深入分析了模型架构，发现**Transformer 主干网络是核心的生成建模者**，而流匹配头则作为轻量级采样器。
强调了词元化器设计的重要性，特别是通道归一化和噪声正则化，它们在高维连续潜在空间中对于稳定训练和高质量生成至关重要，有效缓解了分类器自由引导下的不稳定性。
通过成功地将自回归模型应用于高保真连续 VAE，弥合了传统 VQ 模型在重建质量上的不足。

总而言之，NextStep-1 证明了纯粹的自回归模型在处理连续图像词元时，能够实现与扩散模型相媲美的图像生成质量，为多模态生成研究开辟了新的方向。

7.2. 局限性与未来工作

论文作者也坦诚地指出了 NextStep-1 当前存在的局限性，并提出了未来可能的研究方向：

7.2.1. 伪影 (Artifacts)

问题： 尽管 NextStep-1 在高维连续潜在空间中实现了与扩散模型相当的生成质量，但这种方法也带来了独特的稳定性挑战。当从低维潜在空间 VAE 切换到高维潜在空间 VAE 时，偶尔会出现失败模式，如图 Figure 8 所示的几种生成伪影。

该图像是一个示意图，展示了高维连续标记的失败案例。图中包含多种生成图像的实例，包括不同的风格和内容，旨在突出当前图像生成技术在处理复杂视觉信息时的局限性。

Figure 8 | 高维连续词元的失败案例。

潜在原因：
1. 局部噪声或块状伪影： 可能是后期生成阶段的数值不稳定性导致。
2. 全局噪声： 可能反映了模型欠收敛 (under-convergence)，暗示增加训练可以缓解。
3. 细微网格状伪影： 可能揭示了 1D 位置编码在捕获 2D 空间关系方面的局限性。
未来工作： 深入研究这些伪影的根本原因，并开发更鲁棒的连续词元自回归生成技术。

7.2.2. 序列解码的推理延迟 (Inference Latency of Sequential Decoding)

问题： 自回归生成固有的串行性质导致推理延迟较高。对 H100 GPU (983 TFLOPS, 3.36 TB/s 带宽) 上批次大小为 1 的每词元延迟进行理论分析，如 Table 9 所示，表明主要瓶颈在于 LLM 的串行解码，而流匹配头中的多步采样也占据了每词元生成成本的相当大一部分。

以下是原文 Table 9 的结果：

Sequence Length	LLM Decoder	LM Head	FM Head	Total	w/o FM Head
Sequence Length	Last-token Latency (ms)			Accumulated Latency (s)
256	7.20	0.40	3.40	2.82	1.95
1024	7.23	0.40	3.40	11.31	7.83
4096	7.39	0.40	3.40	45.77	31.86

未来工作：
1. 优化流匹配头： 通过减少参数数量、应用蒸馏 (distillation) 实现少步生成 (Meng et al., 2023)，或使用更先进的少步采样器 (Lu et al., 2022, 2025) 来提高效率。
2. 加速自回归主干网络： 借鉴 LLM 领域的最新进展，如推测解码 (speculative decoding) (Leviathan et al., 2023) 或多词元预测 (multi-token prediction) (Gloeckle et 2024)，将其应用于图像词元生成领域。

7.2.3. 高分辨率训练的挑战 (Challenges in High-Resolution Training)

问题： 与扩散模型相比，NextStep-1 在扩展到高分辨率图像生成时面临两大挑战：
1. 串行生成与训练步数： 自回归生成的严格序列性导致在高分辨率下需要更多训练步数才能收敛。扩散模型在每个迭代中并行细化整个图像，能更直接地利用 2D 空间归纳偏置 (inductive biases)。
2. 技术迁移难度： 扩散模型中为高分辨率开发的技术（如时间步移位 timestep shift）难以适应 NextStep-1 的设置。这是因为流匹配头主要作为轻量级采样器，而 Transformer 主干网络执行核心生成建模；因此，采样过程的修改对最终输出影响不大。
未来工作： 专门为逐块自回归模型设计高分辨率生成策略是一个重要的研究方向。

7.2.4. SFT 的挑战 (Challenges in SFT)

问题： NextStep-1 的 SFT (Supervised Fine-Tuning) 过程与扩散模型相比，面临独特的挑战。在小型、高质量数据集上进行微调时，模型表现出不稳定的动态。与扩散模型（通常只需几千个样本即可适应目标分布并保持稳定和通用图像生成）不同，NextStep-1 的 SFT 只有在百万级样本的数据集上训练时才能产生实质性改进。在较小的数据集上，模型处于不稳定的平衡状态：要么改进微不足道，要么突然过度拟合目标分布。
未来工作： 确定一个既能与目标分布对齐又保持通用生成能力的中间检查点仍然是一个重大挑战。需要探索更有效的 SFT 策略或数据增强方法。

7.3. 个人启发与批判

7.3.1. 个人启发

自回归范式的潜力： NextStep-1 的成功再次证明了自回归模型在多模态序列建模上的强大潜力。其统一的文本和连续图像词元处理方式，为未来构建真正的通用多模态智能体提供了坚实的基础。通过“下一个词元预测”的简单而强大机制，模型能够学习到非常复杂的跨模态生成模式。
Transformer 的核心作用： 论文的消融实验（流匹配头大小不敏感）有力地表明，核心的生成智能和模式识别能力主要 reside 在 Transformer 的主干网络中。这进一步巩固了 Transformer 作为通用序列学习器的地位，也暗示了在多模态领域，提升 Transformer 自身的规模和训练数据多样性可能比过度设计下游任务头更重要。
词元化器设计的精妙： NextStep-1 的词元化器设计，特别是通道归一化和噪声正则化，是其成功处理高维连续潜在空间的关键。这启发我们，在处理连续表示时，对潜在空间的“健康”管理（如稳定分布、鲁棒性）与主干网络的建模能力同等重要。这种正则化思想或许可以推广到其他连续潜在表示的生成模型中。
流匹配的效率优势： 相比于传统的扩散模型需要多次迭代去噪，流匹配作为一种学习连续路径的生成方法，在采样效率上具有优势。将其应用于逐块生成，可能为未来的实时多模态生成提供一条可行的路径。

7.3.2. 批判与潜在改进

推理延迟的根本性挑战： 尽管论文提出了加速推理的未来方向，但自回归逐词元/逐块生成的本质决定了其在推理速度上难以与并行生成（如扩散模型）匹敌。未来的工作可能需要探索更激进的并行化策略，例如，在生成一个图像块的同时，预计算下一个或下几个图像块的潜在表示，或者结合更高效的硬件架构。
高分辨率生成仍待突破： 论文承认高分辨率训练是一个主要挑战。扩散模型已经有成熟的分阶段或多尺度训练策略来解决这个问题。NextStep-1 作为自回归模型，如何有效地利用 2D 空间信息（而非简单地展平为 1D 序列）来扩展到更高分辨率，是一个需要深入研究的问题。例如，可以探索更先进的 2D 位置编码或多尺度特征融合机制。
伪影的根源： 伪影的出现提示，在高维连续潜在空间中，模型可能仍未完全捕捉到图像的全局一致性和局部细节。这可能与损失函数的设计、采样过程的稳定性、或者潜在空间的表示能力有关。对这些伪影进行更细致的分类和诊断，可能会揭示模型学习中的深层问题。
SFT 的数据依赖性： SFT 阶段对大规模高质量数据的依赖性（百万级样本）可能限制了模型在小样本或特定领域微调时的灵活性。未来的工作可以探索更数据高效的对齐方法，例如结合少量人类反馈学习 (RLHF) 或利用更强大的多模态预训练模型作为基础，以减少对海量微调数据的需求。
缺乏对重建损失与生成质量反相关性的深层解释： 论文提到了“噪声正则化”和“分散潜在分布”，但这只是现象。更深层的问题是，为什么更高的重建损失（即词元化器在重建时引入更多误差）反而能提高生成模型的质量？这可能暗示了生成任务和重建任务在最优潜在空间特征上的差异，或者高斯噪声引入了一种“去偏”效应，使得潜在空间更具泛化性。这值得进一步的理论分析和实验验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。