DS-VTON: An Enhanced Dual-Scale Coarse-to-Fine Framework for Virtual Try-On
TL;DR 精炼摘要
DS-VTON提出增强型双尺度粗到精框架,核心贡献在于同时解决了虚拟试穿中服装精准对齐与精细纹理保持的挑战。其关键方法是分两阶段:先低分辨率生成以实现稳健结构对齐,再通过创新的“混合-精炼扩散”过程,在无掩码策略下精细化高分辨率纹理并纠正细节。该方法在标准基准上达到SOTA,显著提升了服装对齐与纹理保真度。
摘要
Despite recent progress, most existing virtual try-on methods still struggle to simultaneously address two core challenges: accurately aligning the garment image with the target human body, and preserving fine-grained garment textures and patterns. These two requirements map directly onto a coarse-to-fine generation paradigm, where the coarse stage handles structural alignment and the fine stage recovers rich garment details. Motivated by this observation, we propose DS-VTON, an enhanced dual-scale coarse-to-fine framework that tackles the try-on problem more effectively. DS-VTON consists of two stages: the first stage generates a low-resolution try-on result to capture the semantic correspondence between garment and body, where reduced detail facilitates robust structural alignment. In the second stage, a blend-refine diffusion process reconstructs high-resolution outputs by refining the residual between scales through noise-image blending, emphasizing texture fidelity and effectively correcting fine-detail errors from the low-resolution stage. In addition, our method adopts a fully mask-free generation strategy, eliminating reliance on human parsing maps or segmentation masks. Extensive experiments show that DS-VTON not only achieves state-of-the-art performance but consistently and significantly surpasses prior methods in both structural alignment and texture fidelity across multiple standard virtual try-on benchmarks.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): DS-VTON: An Enhanced Dual-Scale Coarse-to-Fine Framework for Virtual Try-On (DS-VTON: 一种用于虚拟试穿的增强型双尺度从粗到精框架)
- 作者 (Authors): Xianbing Sun, Yan Hong, Jiahui Zhan, Jun Lan, Huijia Zhu, Weiqiang Wang, Liqing Zhang, Jianfu Zhang。作者分别来自上海交通大学 (Shanghai Jiao Tong University) 和蚂蚁集团 (Ant Group)。
- 发表期刊/会议 (Journal/Conference): 本文目前发布在
arXiv上,这是一个预印本 (Preprint) 服务器,意味着它尚未经过同行评审。从其引用格式和内容来看,它可能旨在投递至顶级的计算机视觉或人工智能会议,如 CVPR, ECCV, ICLR 等。 - 发表年份 (Publication Year): 2025 (根据 arXiv ID
2506.00908推断)。 - 摘要 (Abstract): 尽管虚拟试穿技术取得了进展,但现有方法大多难以同时解决两大核心挑战:精确地将服装图像与目标人体对齐,以及保留服装精细的纹理和图案。这两个需求天然对应于一个“从粗到精”的生成范式。受此启发,论文提出了
DS-VTON,一个增强的双尺度框架。该框架包含两个阶段:第一阶段生成一个低分辨率的试穿结果,专注于捕捉服装和身体之间的语义对应关系,较低的细节有助于实现稳健的结构对齐;第二阶段采用一种混合-精炼扩散 (blend-refine diffusion) 过程,通过混合噪声和图像来精炼尺度间的残差,从而重建高分辨率输出,此阶段强调纹理保真度并有效纠正低分辨率阶段的细节错误。此外,该方法采用完全无掩码 (mask-free) 的生成策略,不依赖于人体解析图或分割掩码。实验表明,DS-VTON在多个标准虚拟试穿基准上均达到了最先进水平,并在结构对齐和纹理保真度方面显著优于先前方法。 - 原文链接 (Source Link):
- 原文链接: https://arxiv.org/pdf/2506.00908
- PDF 链接: http://arxiv.org/pdf/2506.00908v2
- 发布状态:预印本 (Preprint)。
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 虚拟试穿 (Virtual Try-On, VTON) 技术旨在生成用户穿着指定服装的逼真照片。然而,要实现逼真效果,必须同时满足两个看似矛盾的要求:(1) 结构对齐:服装必须自然地贴合人体的姿势、体型和遮挡关系;(2) 细节保真:服装原有的纹理、图案、文字等精细细节必须被完美保留。
- 现有挑战 (Gap): 以往的方法,无论是基于 生成对抗网络 (Generative Adversarial Networks, GANs) 还是 扩散模型 (Diffusion Models),通常在单一尺度上处理整个生成任务。这导致模型在学习全局结构和局部细节之间难以权衡,经常出现服装扭曲、纹理模糊或图案丢失等问题。此外,许多方法严重依赖人体解析掩码 (
human parsing masks) 来指定试穿区域,但这些掩码的质量参差不齐,其错误会直接传递给最终生成结果,限制了方法的鲁棒性和应用场景。 - 创新思路: 本文的切入点是“分而治之”。作者认为结构对齐和细节恢复是两个不同尺度的问题,应该分开处理。他们提出了一个双尺度 (
dual-scale) 框架:首先在低分辨率下专注于解决宏观的结构对齐问题,因为此时图像细节被抑制,模型更容易捕捉整体轮廓;然后在高分辨率下,利用低分辨率阶段提供的可靠结构作为引导,专注于恢复和增强精细纹理。这种从粗到精的策略更符合任务的内在逻辑。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出
DS-VTON框架: 这是一个新颖的双尺度、无掩码的虚拟试穿框架。它将复杂的试穿任务分解为低分辨率的结构对齐和高分辨率的细节精炼两个阶段,显著提升了生成质量。 - 引入
blend-refine扩散过程: 设计了一种创新的扩散过程,用于连接高低分辨率两个阶段。它通过将低分辨率结果与高斯噪声进行加权混合来初始化高分辨率阶段的去噪过程,从而实现从粗略结构到精细细节的可控、平滑过渡。 - 实现最先进的性能: 在两个主流的虚拟试穿数据集
VITON-HD和DressCode上的大量实验证明,DS-VTON在定量指标 (FID, KID) 和定性效果(视觉真实感)上均全面超越了现有的顶尖方法。
- 提出
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 虚拟试穿 (Virtual Try-On, VTON): 一项计算机视觉任务,输入一张人物图片和一张服装平铺图,输出一张该人物穿着这件服装的合成图片。它是时尚电商和元宇宙等领域的核心技术。
- 生成对抗网络 (Generative Adversarial Networks, GANs): 一种深度学习模型,由一个生成器 (Generator) 和一个判别器 (Discriminator) 组成。生成器负责创造逼真的数据,判别器负责区分真实数据和生成数据。两者相互博弈,最终使生成器能够产出高质量的图像。在 VTON 中,GAN 通常用于最后的图像合成步骤。
- 扩散模型 (Diffusion Models): 一类强大的生成模型,其工作原理分为两个过程:(1) 前向过程 (Forward Process): 逐步向真实图像中添加高斯噪声,直至其变为纯噪声;(2) 反向过程 (Reverse Process): 训练一个神经网络(通常是
U-Net架构)来学习逆转这个过程,即从纯噪声出发,逐步去除噪声,最终生成一张清晰的图像。Stable Diffusion是其中一个著名的代表,它在潜在空间 (latent space) 中进行扩散,提高了效率。 - U-Net 架构: 一种常用于图像分割和生成的神经网络结构,呈 “U” 形。它包含一个编码器 (Encoder) 用于提取特征,一个解码器 (Decoder) 用于重建图像,以及编码器和解码器之间的“跳跃连接” (Skip Connections),这些连接有助于保留图像的细节信息。
-
前人工作 (Previous Works):
- GAN-based 方法: 如
ACGPN,VITON-HD等。这些方法通常分为两步:首先用一个扭曲模块 (warping module) 将服装图像变形以匹配人体姿态,然后用一个生成模块将变形后的服装与人物图像融合。局限性在于,扭曲过程可能不完美,而后续的融合步骤又容易导致服装纹理的丢失或模糊。 - Diffusion-based 方法: 如
IDM-VTON,Leffa,FitDiT等。这些方法利用扩散模型强大的生成能力,通常在一个单一尺度的去噪过程中直接合成最终图像。局限性在于,单一流程难以兼顾全局结构和局部细节,且大多依赖外部工具生成的人体掩码,引入了不确定性。
- GAN-based 方法: 如
-
技术演进 (Technological Evolution): VTON 技术的发展脉络大致如下:
- 早期基于传统图形学的方法,效果有限。
- 基于 GAN 的两阶段(扭曲+生成)方法成为主流,提升了真实感。
- 扩散模型的兴起带来了生成质量的飞跃,催生了单阶段端到端的 VTON 方法。
- 本文则在扩散模型的基础上,回归并优化了“从粗到精”的思想,提出了双尺度扩散框架,试图解决单阶段方法中的固有矛盾。
-
差异化分析 (Differentiation):
- 双尺度 vs. 单尺度: 与
IDM-VTON,Leffa等单尺度扩散模型不同,DS-VTON将任务分解到两个尺度上,专门优化,从而在结构和细节上都取得更优效果。 - 无掩码 vs. 有掩码: 与几乎所有先前方法都不同,
DS-VTON是完全无掩码的。它不依赖于任何预处理得到的人体分割图,直接将原始人物和服装图像作为输入,这使得流程更简洁、鲁棒性更强。 blend-refine扩散 vs. 标准精炼: 与SDXL等模型的标准精炼机制(在高分辨率图像上加噪再进行少量步数去噪)不同,DS-VTON的blend-refine过程通过混合低分辨率结果和噪声来构建初始状态,这在数学上建立了两阶段数据分布之间的直接桥梁,实现了更有效的引导和信息传递。
- 双尺度 vs. 单尺度: 与
4. 方法论 (Methodology - Core Technology & Implementation Details)

*该图像为虚拟试穿效果和方法流程图。上半部分展示了DS-VTON方法对多种服装的虚拟试穿结果,显示人物穿着目标服装的真实感和细节保留。下半部分对比了现有单尺度方法与DS-VTON的双尺度粗细处理流程及效果,突出DS-VTON在结构对齐和高质量纹理细节恢复上的优势。图中通过放大局部区域直观展示了高分辨率细节的改进。*
上图(图像1)展示了 DS-VTON 的核心思想。图(a)展示了其在多样化场景下的高质量试穿结果。图(b)揭示了现有方法通常采用单尺度 (Single Scale) 流程并依赖掩码输入,这限制了它们捕捉全局语义的能力。图(c)则清晰地展示了 DS-VTON 的双尺度 (Dual Scale) 流程,不依赖掩码,先生成低分辨率结构,再精炼为高分辨率细节结果。
-
方法原理 (Methodology Principles):
DS-VTON的核心思想是将虚拟试穿这个复杂任务分解为两个更简单、更专注的子任务,并通过一个精心设计的blend-refine机制将它们有机地连接起来。- 低分辨率阶段 (Coarse Stage): 目标是结构对齐。通过降低图像分辨率,模型被迫忽略高频的纹理细节,从而更专注于学习服装的整体形状、褶皱如何与人体的姿态和轮廓相匹配。
- 高分辨率阶段 (Fine Stage): 目标是细节恢复。在低分辨率结果提供的可靠结构框架之上,模型的主要任务是填充和增强精细的纹理、图案和材质,同时修正低分辨率阶段可能产生的微小瑕疵。
-
方法步骤与流程 (Steps & Procedures):
该图像为方法流程示意图与实验结果对比图。上半部分展示了DS-VTON的双阶段框架:左侧低分辨率阶段通过Reference U-Net和Denoising U-Net进行结构对齐,右侧高分辨率阶段结合低分辨率输出及融合参数进行纹理细化重建;底部为多组虚拟试穿效果对比,展示了不同参数配置和方法在细节保留、纹理还原以及结构对齐上的优劣,突出DS-VTON方法在服装虚拟试穿中的效果提升。
上图(图像2)详细展示了 DS-VTON 的两阶段生成流程。
-
网络架构: 两个阶段共享相同的网络架构,该架构基于
Stable Diffusion 1.5,并采用双 U-Net (dual U-Net) 设计。- 参考 U-Net (Reference U-Net): 专门用于编码服装图像 的特征。
- 去噪 U-Net (Denoising U-Net): 负责在人物图像 的条件下去噪生成最终结果。服装特征通过自注意力层 (
self-attention) 注入到去噪 U-Net 中。 - 无掩码策略: 模型直接使用原始的人物图像和服装图像,不进行任何掩码操作。
-
第一阶段:低分辨率生成 (Low-resolution Stage):
- 输入: 将原始人物图像 和服装图像 按比例 (论文中最佳值为2) 下采样,得到 和 。
- 过程: 送入参考 U-Net, 与高斯噪声混合后送入去噪 U-Net。执行标准的扩散模型反向去噪过程。
- 输出: 生成一张低分辨率的试穿结果 。这张图结构正确,但细节模糊。
-
第二阶段:高分辨率生成 (High-resolution Stage):
- 输入: 原始高分辨率的人物图像 、服装图像 ,以及由第一阶段生成并上采样至高分辨率的 。
- 核心过程 (
blend-refine): 这一阶段的去噪过程不是从纯高斯噪声开始,而是从一个混合的初始潜在状态 开始。 - 输出: 生成最终的高分辨率、高细节的试穿结果 。
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
blend-refine扩散过程是方法的核心创新。它修改了标准扩散模型的初始状态和学习目标。-
高分辨率阶段的初始潜在状态:
- 符号解释:
- : 扩散过程开始时的潜在状态 (在时间步 T)。
- : 一个从标准正态分布 中采样的纯高斯噪声张量。
- : 从低分辨率阶段生成的、并已上采样到目标分辨率的粗略试穿结果。它为生成提供了结构先验。
- : 两个平衡系数,用于控制噪声的随机性与低分辨率结果的结构指导强度。论文实验表明, 时效果最佳。
- 符号解释:
-
blend-refine的前向过程:- 符号解释:
- : 在时间步 时的带噪状态。
- : 目标生成的清晰图像,即真实的高分辨率试穿结果 。
- : 预定义的噪声调度系数。
- 目的: 这个公式定义了如何从目标清晰图像 得到任意时刻 的带噪图像 。与标准 DDPM 不同的是,这里添加的“噪声”项是 的混合体。
- 符号解释:
-
模型学习目标: 模型被训练来预测这个混合的“噪声”项,即 。在去噪的每一步,模型都会预测并减去这个混合项,从而逐步将初始的 恢复成最终的清晰图像 。
-
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
VITON-HD: 一个高分辨率的上半身虚拟试穿数据集,包含约 13,679 对人物-服装图像。DressCode: 一个更大、更多样化的高分辨率数据集,包含三种服装类别:上半身 (upper-body)、下半身 (lower-body) 和连衣裙 (dresses),共计约 53,854 对图像。- 数据增强: 由于采用了无掩码策略,模型需要“人物A穿着服装B”和“人物A穿着服装C”这样的数据对进行训练。因此,作者使用
IDM-VTON模型为原始数据集中的每个人物合成了穿着不同服装的新图像,以构建训练所需的数据。
-
评估指标 (Evaluation Metrics):
- FID (Fréchet Inception Distance):
- 概念定义: FID 是一种广泛用于评估生成模型图像质量的指标。它通过比较生成图像集和真实图像集在 Inception-v3 网络特征空间中的统计分布(均值和协方差)来衡量二者的相似度。FID 分数越低,表示生成图像的质量和多样性越接近真实图像。
- 数学公式:
- 符号解释:
- : 分别是真实图像和生成图像特征向量的均值。
- : 分别是真实图像和生成图像特征向量的协方差矩阵。
- : 矩阵的迹(主对角线元素之和)。
- KID (Kernel Inception Distance):
- 概念定义: KID 是 FID 的一种替代方案,它使用最大均值差异 (Maximum Mean Discrepancy, MMD) 来比较两个分布。相比 FID,KID 对小样本量的估计更无偏,计算更简单。同样,KID 分数越低,表示生成图像与真实图像的分布越接近。
- 数学公式: 其中核函数 通常使用三阶多项式核:。
- 符号解释:
- : 分别是真实图像和生成图像的分布。
- : Inception 网络的特征提取器。
- : 核函数。
- : 特征向量的维度。
- User Study (用户研究): 邀请人类参与者对不同方法生成的试穿结果进行主观评估,并选择他们认为效果最好的一个。该指标以百分比形式呈现,直接反映了生成结果的视觉感知质量。
- FID (Fréchet Inception Distance):
-
对比基线 (Baselines): 论文选取了多个当前最先进的虚拟试穿方法作为比较对象,包括
CatVTON,IDM-VTON,Leffa,OOTDiffusion, 和FitDiT。这些模型涵盖了主流的基于扩散模型的 VTON 技术路线,具有很强的代表性。
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis):
-
定性比较 (Qualitative Comparison):
该图像为虚拟试穿效果对比图,展示若干不同方法(如CatVTON、IDM-VTON、FitDiT、OOTDiffusion、Leffa)和本论文提出的DS-VTON在多套服装试穿上的结果。每组包括原始服装图、人模特原图及各方法生成穿着效果,配有服装局部纹理细节放大对比,红色框标注关注区域。整体显示DS-VTON在服装与人体结构对齐及细节纹理还原上优于其他方法,且DS-VTON的高分辨率(HR)版本细节更丰富清晰。上图(图像7)展示了在
VITON-HD数据集上的视觉效果对比。- 结构对齐: 在第一行,大多数基于掩码的方法难以准确处理人物的手臂姿态,导致服装变形。
FitDiT虽有所改善,但在手部重建和衣物衔接处(红框内)产生了明显瑕疵。相比之下,DS-VTON能够生成结构非常自然、贴合人体姿态的结果。 - 细节保留: 在第三行和第五行,对于带有复杂花纹和图案的服装,
CatVTON和IDM-VTON出现了严重的纹理简化和图案丢失。Leffa和OOTDiffusion虽然能保留部分纹理,但清晰度不足或引入了额外的噪点。DS-VTON(特别是其高分辨率结果DS-VTON(HR)) 则能高度忠实地还原服装的精细纹理和颜色。
- 结构对齐: 在第一行,大多数基于掩码的方法难以准确处理人物的手臂姿态,导致服装变形。
-
定量比较 (Quantitative Comparison): 由于系统未提供 Table 1 的图像,以下为原文数据的转录版本: Table 1: Quantitative comparisons on the VITON-HD and DressCode datasets.
| Dataset | \multicolumn{3}{c|}{VITON-HD} | \multicolumn{3}{c|}{DressCode} | :--- | :--- | :--- | :--- | :--- | :--- | :--- | Method | FID ↓ | KID ↓ | User Study ↑ | FID ↓ | KID ↓ | User Study ↑ | OOTDiffusion | 9.02 | 0.63 | 4.1 | 7.10 | 2.28 | 7.2 | IDM-VTON | 9.10 | 1.06 | 11.6 | 5.51 | 1.42 | 9.1 | CatVTON | 9.40 | 1.27 | 3.4 | 5.24 | 1.21 | 5.2 | Leffa | 9.38 | 0.92 | 4.7 | 6.17 | 1.90 | 7.5 | FitDiT | 9.33 | 0.89 | 19.7 | 4.47 | 0.41 | 34.3 | DS-VTON (ours) | 8.24 | 0.31 | 56.5 | 4.21 | 0.34 | 36.7
从表格数据可以看出,
DS-VTON在两个数据集上的 FID 和 KID 指标均显著低于所有基线模型,取得了目前最好的成绩。尤其是在用户研究中,DS-VTON获得了压倒性的偏好(在 VITON-HD 上获得 56.5% 的票数),这强有力地证明了其生成结果在视觉上更受用户青睐。
-
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
双尺度设计的有效性:
该图片为虚拟试衣效果对比示意图。左侧显示原始服装和人像,后续多列图展示了在不同噪声强度参数σ(1、2、4)和不同分辨率(低分辨率LR与高分辨率HR)下生成的穿衣结果。图中用黄色框标注细节部位,突出高分辨率下细节纹理和结构对齐的改进效果,说明了DS-VTON在不同尺度和噪声条件下细节恢复能力的差异。上图(图像8)和下表(Table 2 转录)验证了双尺度设计的必要性。
Table 2: Ablation study on dual-scale design and downsampling ratio .
Version FID ↓ KID ↓ (单阶段) 8.97 1.01 (双阶段, 无降采样) 8.77 0.61 (双阶段, 4倍降采样) 8.41 0.57 (双阶段, 2倍降采样) 8.24 0.31 - 当 且没有第二阶段时(即单阶段高分辨率生成),模型性能最差,如上图中黄色框内所示,结构容易出错。
- 当 时,降采样过度导致低分辨率阶段丢失了过多结构信息(如第一行的条纹),影响了最终的恢复效果。
- 在保留足够结构信息和简化对齐任务之间取得了最佳平衡,因此性能最好。这充分证明了双尺度框架的有效性以及选择合适下采样率的重要性。
-
blend-refine系数 的影响:
该图像为插图,展示虚拟试穿中不同参数设置对生成效果的影响。左侧依次为原始服装图和人物图,右侧六张为试穿效果图,标注了不同的参数σ、α和β值,展示低分辨率与高分辨率阶段的调节如何影响服装与人体的匹配及细节表现。上图(图像9)和下表(Table 3 转录)探究了不同 系数组合对结果的影响。
Table 3: Ablation study on coefficients under fixed .
Version FID ↓ KID ↓ 8.24 0.31 8.46 0.55 8.26 0.35 8.75 0.94 - 当 过大、 过小(如 ),意味着随机性过强,低分辨率的结构引导不足,导致服装上的文字和条纹出现扭曲。
- 当 过大、 过小(如 ),意味着过度依赖低分辨率结果,导致高分辨率阶段的细节恢复能力不足,条纹出现轻微变形。
- 在结构引导和细节生成之间取得了最好的平衡,验证了该参数选择的合理性。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 论文成功地提出了
DS-VTON,一个新颖且高效的双尺度虚拟试穿框架。通过将任务分解为低分辨率的结构对齐和高分辨率的细节恢复,并引入创新的blend-refine扩散过程来桥接两个阶段,该方法显著提升了生成图像的质量。结合完全无掩码的设计,DS-VTON在多个基准测试中不仅超越了现有的所有方法,还在结构准确性和纹理保真度上设立了新的标杆。 -
局限性与未来工作 (Limitations & Future Work):
- 数据生成依赖: 当前的无掩码训练方式依赖于使用其他 VTON 模型(如
IDM-VTON)来合成训练数据。这意味着DS-VTON的性能上限可能会受到数据合成模型质量的限制,并且可能继承其偏见或瑕疵。 - 固定混合系数: 高分辨率阶段的混合系数 和 是固定的。对于不同复杂度或类型的服装,一个自适应或可学习的系数调度机制可能会带来更好的效果。
- 未来方向: 作者提出,未来的工作可以探索更好的数据解耦和身份保持方法,以及研究动态调整混合系数的策略,以实现更灵活、更具内容感知能力的精炼过程。
- 数据生成依赖: 当前的无掩码训练方式依赖于使用其他 VTON 模型(如
-
个人启发与批判 (Personal Insights & Critique):
- 范式创新: “从粗到精”是一个经典思想,但
DS-VTON将其与扩散模型和创新的blend-refine过程结合,为解决生成任务中的多尺度挑战提供了一个非常优雅且有效的范例。这种思想不仅限于虚拟试穿,完全可以迁移到其他高分辨率图像生成任务中,如图像超分辨率、图像编辑等。 - 无掩码的价值: 放弃对掩码的依赖是 VTON 领域一个重要的进步。它大大简化了数据预处理流程,增强了模型的鲁棒性和实用性,使其更容易在真实世界的复杂场景中部署。这体现了利用大型预训练模型(如 Stable Diffusion)强大先验知识的巨大潜力。
- 潜在问题: 论文中提到的数据生成依赖是一个关键的潜在问题。如果训练数据合成器本身在某些姿态或服装类型上表现不佳,
DS-VTON也很难学习到正确的生成方式。未来的研究或许可以探索更弱监督或自监督的方式来构建训练对,摆脱对另一个强生成模型的依赖。此外,虽然模型效果出色,但两阶段的推理过程会比单阶段稍慢,在对实时性要求极高的场景下可能需要进一步优化。
- 范式创新: “从粗到精”是一个经典思想,但
相似论文推荐
基于向量语义检索推荐的相关论文。