AiPaper
论文状态:已完成

A Hierarchical 3D Gaussian Representation for Real-Time Rendering of Very Large Datasets

发表:2024/07/19
原文链接
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

针对3D高斯溅射在超大规模场景渲染中的资源瓶颈,本文引入层次化3D高斯表示,作为高效LOD系统,旨在实现超大规模场景的实时高质量渲染。其关键在于“分而治之”策略,将大场景分解独立训练,再整合为可优化的层次结构,并优化了稀疏数据下的高斯训练过程。该方案成功支持数公里、数万图级别大规模场景的实时渲染,保持视觉质量,且能根据资源自适应调整,实现层级间平滑过渡。

摘要

A Hierarchical 3D Gaussian Representation for Real-Time Rendering of Very Large Datasets BERNHARD KERBL ∗ , Inria, Université Côte d’Azur, France and TU Wien, Austria ANDREAS MEULEMAN ∗ and GEORGIOS KOPANAS, Inria, Université Côte d’Azur, France MICHAEL WIMMER, TU Wien, Austria ALEXANDRE LANVIN and GEORGE DRETTAKIS, Inria, Université Côte d’Azur, France (a) Calibrated Cameras (b) Subdivision into Chunks (c) Per-Chunk Hierarchy Generation (d) Hierarchy Consolidation (e) Real-Time Rendering (>30 FPS) 2h/chunk (in parallel) 22k images 1.6km trajectory Fig. 1. (a) Starting from thousands of calibrated cameras, covering a large area, we subdivide the scene into chunks (b). We introduce a 3D Gaussian Splatting hierarchy to allow efficient rendering of massive data, that we further optimize to enhance visual quality (c). We consolidate the hierarchies (d) enabling us to perform real-time rendering of very large datasets. Please see the video for real-time navigation of our large-scale scenes (project page: https://repo-sam.inria.fr/fungraph/hierarchical-3d-gaussians/). Novel view synthesis has seen major advances in recent years, with 3D Gaussian splatting offering an e

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): A Hierarchical 3D Gaussian Representation for Real-Time Rendering of Very Large Datasets (一种用于超大规模数据集实时渲染的层次化3D高斯表示方法)

  • 作者 (Authors): Bernhard Kerbl, Andreas Meuleman, Georgios Kopanas, Michael Wimmer, Alexandre Lanvin, and George Drettakis

  • 隶属机构 (Affiliations): Inria (法国国家信息与自动化研究所), Université Côte d'Azur (蔚蓝海岸大学), TU Wien (维也纳工业大学)

  • 发表期刊/会议 (Journal/Conference): ACM Transactions on Graphics (TOG), Vol. 43, No. 4, Article 62. 这篇论文被计算机图形学领域的顶级期刊接收,并将在 SIGGRAPH 2024 会议上展示,代表了该领域的最高水平。

  • 发表年份 (Publication Year): 2024

  • 摘要 (Abstract): 3D高斯溅射 (3D Gaussian Splatting) 技术在视觉质量、训练速度和实时渲染方面表现出色,但其资源需求限制了所能表示的场景规模。本文提出了一种层次化的3D高斯表示方法,能够在保持大规模场景视觉质量的同时,通过高效的细节层次 (LOD) 方案实现对远处内容的快速渲染,并确保层级间的平滑过渡。作者引入了一种“分而治之”的策略,将大场景分解成独立的“块” (chunks) 进行训练,然后将这些块整合成一个可优化的层次结构,以提升合并节点的视觉质量。针对大规模数据采集通常比较稀疏的问题,本文还改进并正则化了训练过程。最终,该方法实现了一个完整的解决方案,能够对数公里长、数万张图像构成的大规模场景进行实时渲染,并能根据可用资源自适应地调整细节层次。

  • 原文链接 (Source Link): /files/papers/68e0a61889df04cda4fa280f/paper.pdf (已发表)


2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 近年来,以3D高斯溅射 (3DGS) 为代表的新视角合成技术取得了巨大成功,但其在处理超大规模场景(如城市街区、数公里的轨迹)时面临严重的资源瓶颈。无论是训练还是渲染,随着场景规模的扩大,所需的计算和存储资源(尤其是GPU显存)会急剧增长,导致现有方法难以胜任。
    • 重要性与挑战: 实现对大规模真实世界环境的实时、高质量渲染,对于虚拟现实、自动驾驶仿真、数字孪生城市等应用至关重要。现有的方法,如基于神经辐射场 (NeRF) 的方案,训练和渲染速度慢,难以扩展;而原始的 3DGS 方法虽然快,但它是一个“扁平”的结构,无法有效管理和渲染远超单块GPU容量的场景数据。当前研究的空白 (Gap) 在于,缺少一种能够兼顾高质量与实时性的、可扩展的辐射场表示方法来处理超大规模场景。
    • 创新思路: 论文的切入点是借鉴传统计算机图形学中成熟的“分而治之” (divide-and-conquer) 和“细节层次” (Level-of-Detail, LOD) 思想,并将其与现代的 3DGS 表示方法相结合。他们不把整个大场景当作一个整体来处理,而是先将其分割成小块并行训练,再为每个小块乃至整个场景构建一个层次化的3D高斯树结构。这个层次结构使得渲染时可以根据物体远近动态选择合适的细节级别,从而在不牺牲远处视觉效果的前提下,大幅降低渲染开销。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 提出了一种全新的3D高斯层次结构: 这是本文最核心的贡献。该结构不仅定义了如何将多个3D高斯基元合并成一个更高层级的父节点高斯,还设计了一套高效的层级选择和层级间平滑过渡的机制,是实现 LOD 渲染的基础。

    • 提出了一种层次结构优化方法: 创建好的层次结构并非一成不变。作者提出了一种后续的优化流程,可以对层次结构中的中间节点(即合并后的高斯)进行微调,使其能更准确地表征其子节点的视觉外观,从而在较低细节层次下也能获得更好的视觉质量。

    • 实现了一套基于分块的大规模场景训练与渲染流程: 提出了一整套从数据预处理、分块并行训练、层次结构生成、全局整合到最终实时 LOD 渲染的完整解决方案。这使得处理数万张图像、绵延数公里的场景成为可能。


3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 新视角合成 (Novel View Synthesis - NVS): 指利用一组已知视角的图像,生成该场景在任意新视角下的图像的技术。这是计算机视觉和图形学中的一个核心问题。
    • 神经辐射场 (Neural Radiance Fields - NeRF): NeRF 是一种革命性的 NVS 技术。它使用一个小型神经网络来隐式地表示一个三维场景。这个网络输入一个三维空间点坐标 (x,y,z)(x, y, z) 和一个观察方向 (θ,φ)(θ, φ),输出该点的颜色 (R, G, B) 和体密度 σσ。通过沿相机射线进行体渲染 (Volume Rendering),就可以合成出高质量的图像。NeRF 的优点是细节还原度极高,但缺点是训练和渲染都非常缓慢。
    • 3D高斯溅射 (3D Gaussian Splatting - 3DGS): 这是本文工作的基础。与 NeRF 的隐式表示不同,3DGS 使用大量三维高斯分布(可以想象成一个个透明、有颜色的椭球体)来显式地表示场景。每个高斯基元都包含以下属性:
      • 位置 (Position, μμ): 椭球体的中心。
      • 协方差矩阵 (Covariance, ΣΣ): 决定了椭球体的形状、大小和朝向。
      • 不透明度 (Opacity, o): 椭球体的透明度。
      • 球谐函数系数 (Spherical Harmonics - SH): 用于表示与观察方向相关的颜色变化(即视角依赖的颜色)。 渲染时,这些三维高斯被快速投影到二维屏幕上,然后通过 alpha-blending 的方式混合在一起,形成最终的图像。3DGS 的巨大优势在于其极快的训练速度和实时的渲染帧率。
    • 细节层次 (Level-of-Detail - LOD): 计算机图形学中的经典优化技术。其核心思想是:当一个物体距离观察者很远时,它在屏幕上只占很小的面积,因此不需要用非常精细的模型来渲染它,使用一个简化的版本即可。这样可以大大节省计算资源,提高渲染速度。
  • 前人工作 (Previous Works):

    • 大规模NeRF方法:BlockNeRF 也采用了分块策略,将一个城市街区划分成多个 NeRF 模型进行训练。但它的训练和渲染成本极高,无法实现实时交互。其他 NeRF 变体虽然在不断提速,但在处理城市级别的超大规模场景时,其隐式表示和网格结构(如哈希网格)的内存消耗会呈立方级增长,扩展性受限。
    • 基于图像/网格的方法: 传统方法依赖于通过运动恢复结构 (SfM) 和多视图立体匹配 (MVS) 生成的精确三维网格。但这类方法在处理植被、薄结构、反光或无纹理表面时效果不佳,而这些在城市街景中非常常见。
    • 3DGS的相关工作: 原始 3DGS 方法虽然高效,但没有为超大规模场景设计。其他一些基于 3DGS 的工作主要关注动态场景或自动驾驶数据,但其场景规模仍在单块GPU可处理的范围内,未解决根本的可扩展性问题。
  • 差异化分析 (Differentiation): 本文与 BlockNeRF 等分块方法的核心区别在于:

    1. 底层表示不同: 本文基于显式的、对 LOD 更友好的 3DGS 表示,而 BlockNeRF 基于隐式的 NeRF

    2. 渲染性能不同: 本文首次为 3DGS 设计了一套完整的、可优化的动态 LOD 系统,实现了超大规模场景的实时渲染,这是之前所有大规模 NeRF 方法都无法做到的。

    3. 训练流程更适应稀疏数据: 针对大规模采集数据稀疏的特点,本文改进了 3DGS 的训练策略(如修改致密化逻辑、引入深度正则化),使其效果更好。


4. 方法论 (Methodology - Core Technology & Implementation Details)

本文方法的核心可以概括为:分块训练,层次合并,优化提升,实时渲染。下面详细拆解其技术方案。

4.1 层次化LOD的3D高斯溅射 (Hierarchical LOD for 3DGS)

为了实现 LOD,首先需要构建一个层次结构。这个结构是一个树,叶子节点是原始 3DGS 训练出的高斯基元,而每个中间节点则是一个代表其所有子节点集合的、新的“合并”高斯。

  • 层次结构的生成 (Hierarchy Generation):

    • 如何合并高斯: 论文给出了合并 N 个子高斯的数学方法。对于合并后的父节点高斯,其新的位置 μμ 和协方差 ΣΣ 通过加权平均计算得出,目的是最小化父节点分布与其子节点分布混合体之间的差异。公式如下: μ(l+1)=iNwiμi(l),Σ(l+1)=iNwi(Σi(l)+(μi(l)μ(l+1))(μi(l)μ(l+1))T) \begin{array} { l } { { \displaystyle \mu ^ { ( l + 1 ) } = \sum _ { i } ^ { N } w _ { i } \mu _ { i } ^ { ( l ) } , } } \\ { { \Sigma ^ { ( l + 1 ) } = \sum _ { i } ^ { N } w _ { i } ( \Sigma _ { i } ^ { ( l ) } + ( \mu _ { i } ^ { ( l ) } - \mu ^ { ( l + 1 ) } ) ( \mu _ { i } ^ { ( l ) } - \mu ^ { ( l + 1 ) } ) ^ { T } ) } } \end{array} 其中,l 代表层级,wiw_i 是每个子高斯的归一化权重。
    • 合并权重的确定: 权重 wiw_i 的设计至关重要,它应该反映每个子高斯对父节点的“贡献度”。作者从二维屏幕空间的角度推导出,权重应正比于每个高斯基元的不透明度和其投影到屏幕上的面积。实际计算中,投影面积近似等于其三维椭球体的表面积。
    • 其他属性的合并:
      • 颜色 (SH): 球谐函数系数也使用同样的权重进行加权平均。

      • 不透明度 (Opacity): 这是一个特殊情况。多个半透明的高斯重叠在一起时,其衰减效果会比单个高斯更慢。

        图像5

        如上图所示 (参考论文图2),两个重叠的高斯(红色和蓝色)在混合后(图e)会形成一个顶部更“平坦”、衰减更慢的剖面,这不再是一个标准的高斯分布。为了模拟这种效果,中间节点的“不透明度”被重新定义为一个可以大于1的 falloff 值(图f)。在渲染时,这个值的作用类似于不透明度,但最终计算出的 alpha 值会被限制在1以内。

    • 建树过程: 首先,使用一个轴对齐包围盒 (AABB) 层次结构 (BVH) 对所有高斯进行空间划分。然后,从叶子节点开始,自底向上地、递归地应用上述合并规则,计算出所有中间节点高斯的属性。
  • 层次结构切割选择与层级切换 (Hierarchy Cut Selection and Level Switching):

    • 切割选择 (Cut Selection): 当给定一个观察视角时,如何决定渲染树中的哪些节点?论文引入了 granularity (粒度) ϵ(n)\epsilon(n) 的概念,即一个节点 n 所包含的所有高斯在屏幕上的投影尺寸。渲染时设定一个目标粒度 τϵ\tau_{\epsilon} (例如1个像素)。系统会遍历这棵树,找到所有满足 ϵ(n)<τϵ\epsilon(n) < \tau_{\epsilon} 但其父节点不满足该条件的节点 n。这些节点构成了当前帧需要渲染的“切割面” (cut)。

      图像6

    • 平滑过渡 (Smooth Transitions): 为了避免在不同 LOD 层级间切换时出现跳变或闪烁,论文设计了一套平滑插值方案。当一个节点需要被其子节点替换时,其所有属性(位置、颜色、形状、不透明度)会在几帧内从父节点的值平滑地插值到子节点各自的值。

      • 旋转插值问题: 直接插值协方差矩阵可能会导致不自然的旋转。如下图所示,一个细长的椭球体,其长轴是X轴还是Y轴(配合90度旋转)在外观上是等价的,但其内部表示(旋转和缩放值)完全不同。直接插值会导致奇怪的旋转动画。

        图像7

        为解决此问题,在建树时,作者引入了一个 orientation matching (朝向匹配) 步骤,自顶向下地调整每个子节点的旋转轴,使其与父节点的相对旋转最小化。

      • 不透明度插值: 同样地,不透明度的插值也需要特殊处理,以保证在过渡的起始时刻,多个子节点混合后的效果与父节点完全一致。

4.2 优化和压缩层次结构 (Optimizing and Compacting the Hierarchy)

  • 优化层次结构 (Optimizing the Hierarchy):

    • 动机: 纯粹基于几何的合并规则可能无法完美还原子节点集合的外观。既然中间节点本身也是一个标准的高斯,那它也可以被进一步优化。
    • 方法: 作者在层次结构生成后,增加了一个额外的优化阶段。在这个阶段,训练时会随机选择一个训练视角和一个随机的目标粒度 τϵ\tau_{\epsilon}。这样,在不同的训练迭代中,层次结构中不同层级的节点都会被选中并参与到渲染和梯度反向传播中,从而得到优化。这个过程可以提升中间节点的表达能力,使得在渲染远处内容(使用较低 LOD)时,视觉质量更高。
  • 压缩层次结构 (Compacting the Hierarchy):

    • 动机: 初始生成的树中可能存在很多冗余节点(例如父节点只比子节点大一点点)。这些节点很少被 LOD 机制选中,优化不足且占用存储。
    • 方法: 论文提出了一种剪枝策略。通过在不同粒度下检查哪些节点是“必要的”,来移除那些在视觉上贡献不大的中间节点,从而得到一个更稀疏、更高效的层次结构。

4.3 大规模场景训练 (Large Scene Training)

这是将上述层次化方法应用到超大规模场景的整体框架。

图像2

  • 分而治之 (Divide-and-Conquer):

    • 如上图所示,整个流程首先将一个巨大的场景(图a)在空间上划分为多个重叠的 chunks (块)(图b)。
    • 粗略初始化: 在分块之前,先用整个场景的所有相机位姿和稀疏点云,快速训练一个非常粗糙的、不进行致密化的 3DGS 模型。这个模型作为“背景板”或“脚手架” (scaffold),为后续每个块的独立训练提供远处环境和天空的统一表示,避免块与块之间出现接缝或不一致。
    • 分块并行训练: 每个 chunk 连同其周边的“背景板”被独立地、并行地进行训练(图c)。这大大缩短了处理整个场景所需的总时间。
    • 层次结构整合: 每个块训练完成后,为其生成并优化各自的层次结构。最后,所有块的层次结构被整合在一起,形成一个全局的、覆盖整个场景的层次化表示(图d),用于最终的实时渲染(图e)。
  • 针对稀疏数据的训练改进 (Chunk-scale Training Improvements):

    • 修改致密化策略: 原始 3DGS 根据高斯在屏幕空间上的平均梯度来决定是否分裂或复制高斯。对于大规模、相机轨迹稀疏的数据,这种“平均”策略不够敏感。本文将其修改为使用最大梯度,这使得模型更容易在需要细节的地方增加高斯密度。

    • 深度正则化: 对于路面等缺乏纹理的区域,3DGS 可能会产生错误的几何形状。为了解决这个问题,作者使用了一个预训练的单目深度估算神经网络 (DPT) 来为每张训练图像生成深度图,并利用场景的稀疏点云 (SfM points) 对深度图的尺度进行校正。这个深度信息作为一个额外的监督信号,帮助模型学习更准确的场景几何。


5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • 论文主要使用了4个大规模数据集,其中3个是作者自己采集的 (SMALLCITY, CAMPUS, BIGCITY),1个由 Wayve 公司提供。
    • 这些数据集的规模远超以往 NVS 领域的标准数据集,涵盖了450米到7公里的轨迹,图像数量从约6千张到近4万张。
    • 采集设备: 作者使用了非常亲民的设备——一个装有5到6个 GoPro 相机的自行车头盔,以步行或骑行的方式进行数据采集。这证明了该方法对消费级设备和非专业采集方式的兼容性。
  • 评估指标 (Evaluation Metrics):

    • 图像质量指标:
      • PSNR (峰值信噪比): 衡量重建图像与真实图像之间像素级别的差异,越高越好。
      • SSIM (结构相似性指数): 从亮度、对比度和结构三方面衡量图像相似度,越高越好。
      • LPIPS (学习感知图像块相似度): 一种更符合人类视觉感知的图像相似度指标,越低越好。
    • 性能指标:
      • FPS (每秒帧数): 衡量实时渲染的速度,越高越好。
  • 对比基线 (Baselines):

    • 论文将自己的方法(在单个 chunk 上)与多种先进的 NVS 方法进行了比较,包括:Mip-NeRF 360, Instant-NGP, F2-NeRF,以及原始的 3DGS

    • 此外,还在一个公开的航拍大规模数据集上与 Mega-NeRF 进行了比较。


6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    图像3

    • 定性结果: 上图(论文图10)直观展示了本文方法与其它基线方法的视觉效果对比。可以看出,本文方法(Ours opt)生成的图像在清晰度、细节保留(如车辆轮廓、远处建筑)和伪影抑制方面,均显著优于其他方法。其他方法普遍存在模糊、扭曲或“漂浮物”等问题。
    • 定量结果 (参考论文表2):
      • 单块性能: 在单个 chunk 的公平比较中,本文的基础版本 (Ours (leaves)) 在所有质量指标上都全面超越了包括原始 3DGS 在内的所有基线方法。这证明了其针对稀疏数据的训练改进(修改致密化策略、深度正则化等)是行之有效的。
      • LOD效果: 随着目标粒度 τϵ\tau_{\epsilon} 的放宽(从 τ1=3pxτ1=3pxτ3=15pxτ3=15px),渲染速度 (FPS) 显著提升,而图像质量 (PSNR 等) 则相应下降,展示了 LOD 系统在速度与质量之间的有效权衡。
      • 层次结构优化效果: 对比 Ours (未优化) 和 Ours opt (优化后) 两组结果,可以发现在较粗糙的 LOD 级别下(如 τ2τ2, τ3τ3),经过优化的版本质量更高。这意味着花一些额外时间优化层次结构,可以让你在追求高帧率时获得更好的视觉体验。
    • 大规模场景性能 (参考论文表5): 论文展示了在完整的超大场景中,LOD 机制可以极大地减少每帧需要渲染的高斯数量。例如,在最大的 BIGCITY 场景中,中等细节设置 (τ2τ2) 下只需渲染全部高斯的8%,高细节设置 (τ1τ1) 下也只需渲染19%,从而实现了30-60+ FPS的实时渲染。若没有 LOD,这些场景根本无法在高端GPU上完整加载和渲染。
  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    图像4

    上图(论文图11)清晰地展示了各项关键技术组件的作用:

    • Consolidation (整合/清理): 如果没有这个步骤,来自不同块的重叠高斯会导致画面浑浊不清。

    • Depth Regularization (深度正则化): 如果没有深度监督,路面等区域的几何会出错,导致视角变化时出现扭曲。

    • Chunk Bundle Adj. (分块光束法平差): 如果不对每个块的相机位姿进行精细调整,结果会非常模糊。

    • Exposure Comp. (曝光补偿): 如果不处理不同图像间的曝光差异,会导致场景中出现颜色不一致的斑块。

    • Hierarchy Optimization (层次结构优化): 如果不优化中间节点,远处物体(如红圈中的车灯)会显得模糊不清,优化后则细节锐利。

      这些消融实验有力地证明了论文提出的每个技术点都是必不可少且有效的。


7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 本文成功地解决了 3DGS 在应用于超大规模场景时的可扩展性难题。通过巧妙地将经典图形学的“分而治之”和“LOD”思想与现代的 3DGS 表示相结合,首次实现了一个能够对数公里范围、数万张图像构建的场景进行实时、高质量自由视角漫游的系统。其核心贡献——可优化的层次化3D高斯表示——为处理海量三维数据提供了一个高效且实用的新范式。

  • 局限性与未来工作 (Limitations & Future Work):

    • 局限性:
      1. 依赖输入数据质量: 最终效果的好坏很大程度上取决于输入数据的质量,包括相机的覆盖率、位姿估计的准确性等。移动物体(如行人、车辆)的去除也不完美,会引入一些鬼影或伪影。
      2. 外推能力有限: 由于数据采集的路径是有限的,对于远离相机轨迹的区域,自由视角导航的能力会受限。
    • 未来工作:
      1. 结合先验知识: 引入场景几何或语义的先验知识(如使用AI生成模型),有望在稀疏数据下实现更好的补全和更大范围的自由漫游。
      2. 扩展层次结构的应用: 这个层次结构不仅可以用于渲染,未来还可能用于加速物理仿真、碰撞检测、场景编辑等,使 3DGS 成为一种更通用的图形学“一等公民”。
      3. 动态LOD选择: 实现一个能根据目标帧率动态调整 LOD 级别的系统,以在不同硬件上自动达到最佳性能与质量的平衡。
  • 个人启发与批判 (Personal Insights & Critique):

    • 启发:
      • 这篇论文是“温故而知新”的绝佳范例。它没有发明一个全新的底层表示,而是将一个前沿技术 (3DGS) 与经过数十年验证的经典图形学算法 (LOD, BVH) 完美融合,解决了实际应用中的核心痛点。这启示我们,在追求颠覆性创新的同时,不应忽视对经典思想的现代化改造与应用。
      • 该工作的工程意义巨大。它展示了一套完整的、切实可行的端到端解决方案,从使用消费级设备采集数据,到复杂的预处理流程,再到最终的实时渲染。这大大降低了构建大规模数字孪生环境的门槛,使其不再是少数拥有庞大计算资源和专业设备机构的专利。
    • 批判性思考:
      • 流程复杂性: 整个流程相当复杂,涉及多个步骤(自定义相机标定、分块、两阶段训练优化等),复现和部署可能有一定难度。特别是相机位姿估计部分,仍然需要一些手动干预(如手动指定闭环),这在一定程度上影响了系统的自动化程度。
      • 对动态元素的处理: 虽然论文中提到了移除移动物体,但这仍然是一个未被完美解决的难题。对于城市环境这样高度动态的场景,如何更鲁棒地处理动态元素是未来工作的一个关键方向。
      • 内存与存储开销: 虽然 LOD 解决了渲染时的显存瓶颈,但层次化表示本身会增加模型的磁盘存储体积(论文提到约增加68%)。对于更大规模的场景,如何高效地存储和流式加载这些数据,将是需要进一步研究的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。