REArtGS: Reconstructing and Generating Articulated Objects via 3D Gaussian Splatting with Geometric and Motion Constraints
TL;DR 精炼摘要
REArtGS框架创新性地解决了仅需关节物体任意两状态多视角图像,即可实现高保真3D表面重建及动态生成的核心难题。其关键在于对3D高斯基元引入几何和运动约束:通过无偏符号距离场(SDF)引导高斯不透明度场以提升几何重建质量,并利用关节物体的运动学结构构建可变形场,实现对未见状态的无监督高保真生成。实验证明,该方法在合成与真实数据集上均展现出卓越的纹理表面重建与动态生成效果。
摘要
Articulated objects, as prevalent entities in human life, their 3D representations play crucial roles across various applications. However, achieving both high-fidelity textured surface reconstruction and dynamic generation for articulated objects remains challenging for existing methods. In this paper, we present REArtGS, a novel framework that introduces additional geometric and motion constraints to 3D Gaussian primitives, enabling realistic surface reconstruction and generation for articulated objects. Specifically, given multi-view RGB images of arbitrary two states of articulated objects, we first introduce an unbiased Signed Distance Field (SDF) guidance to regularize Gaussian opacity fields, enhancing geometry constraints and improving surface reconstruction quality. Then we establish deformable fields for 3D Gaussians constrained by the kinematic structures of articulated objects, achieving unsupervised generation of surface meshes in unseen states. Extensive experiments on both synthetic and real datasets demonstrate our approach achieves high-quality textured surface reconstruction for given states, and enables high-fidelity surface generation for unseen states. Project site: https://sites.google.com/view/reartgs/home.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): REArtGS: 通过带有几何和运动约束的 3D 高斯溅射重建和生成关节物体 (REArtGS: Reconstructing and Generating Articulated Objects via 3D Gaussian Splatting with Geometric and Motion Constraints)
- 作者 (Authors): Di Wu, Liu Liu, Zhou Linli, Anran Huang, Liangtu Song, Qiaojun Yu, Qi Wu, Cewu Lu.
- 隶属机构: 作者主要来自合肥物质科学研究院、中国科学技术大学、合肥工业大学、上海交通大学以及字节跳动。这些机构在计算机视觉和机器人学领域均有深厚的研究背景。
- 发表期刊/会议 (Journal/Conference): 论文以预印本形式发布于 arXiv。从引用格式和内容来看,它很可能投稿至顶级的计算机视觉会议,如 CVPR、ICCV 或 ECCV。
- 发表年份 (Publication Year): 2025 (根据参考文献[17]的引用格式推断,论文目标发表于2025年,提交于2024年或2025年初)。
- 摘要 (Abstract): 论文提出了一种名为
REArtGS的新框架,旨在解决关节物体的高保真纹理表面重建和动态生成问题。该方法仅需输入关节物体任意两个状态下的多视角 RGB 图像。核心技术在于为 3D 高斯基元引入了额外的几何和运动约束。具体而言,它利用无偏符号距离场 (SDF) 来指导高斯不透明度场,从而提升几何重建质量;同时,它建立了受关节物体运动学结构约束的可变形场,以无监督的方式生成未见过的状态。实验证明,该方法在合成和真实数据集上均取得了高质量的重建与生成效果。 - 原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2503.06677
- PDF 链接: http://arxiv.org/pdf/2503.06677v4
- 发布状态: 预印本 (Preprint)。
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 如何仅使用稀疏的状态观测(两个状态的多视角图像),实现对关节物体(如剪刀、笔记本电脑)的高保真 3D 表面重建,并能动态生成其在任意未见过的中间状态下的 3D 模型。
- 重要性: 对关节物体进行精确的 3D 建模在虚拟现实 (VR)、增强现实 (AR)、机器人操纵和人机交互等领域至关重要。
- 现有研究的空白 (Gap):
- 基于神经辐射场 (NeRF) 的方法 (如
PARIS): 缺乏强几何约束,导致“形状-辐射度模糊性”(shape-radiance ambiguity),即模型可能生成视觉上正确但几何上不准确的表面,影响运动分析的精度。 - 基于 3D 高斯溅射 (3DGS) 的表面重建方法 (如
GOF): 同样面临几何约束不足的问题,或者通过限制高斯基元的形状来施加约束,这两种方式都可能导致重建的表面充满噪声和伪影。 - 基于 3DGS 的动态场景重建方法 (如
Deformable 3DGS,4DGS): 通常需要对物体的整个运动过程进行密集监督(即需要连续时间序列的输入),因此无法从仅有的两个状态推广到生成任意未见过的状态。
- 基于神经辐射场 (NeRF) 的方法 (如
- 本文切入点: 本文旨在结合 3DGS 的高效渲染能力与 SDF 的强几何约束能力,并引入关节物体的运动学先验,从而在仅有两个状态的稀疏监督下,同时解决高质量的静态重建和动态生成两大难题。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了
REArtGS框架: 这是一个新颖的、端到端的框架,首次成功地将 3DGS 应用于仅使用两个状态的多视角 RGB 图像进行关节物体的高质量纹理重建和时序连续生成。 - 提出了无偏 SDF 指导 (Unbiased SDF Guidance): 创新性地使用 SDF 来正则化 3D 高斯的
opacity场。其核心思想是强制渲染贡献最大的点也位于几何表面上(SDF 值为零),从而消除偏差,显著增强几何约束,得到更平滑、更准确的重建表面。 - 提出了基于运动学约束的可变形场: 在没有中间状态监督的情况下,通过对关节物体的运动学结构(旋转或平移)进行建模,约束 3D 高斯基元的可变形场。这使得模型能够以无监督的方式推断和生成物体在任意未见状态下的精确形状。
- 优越的实验性能: 在多个合成及真实世界数据集上,
REArtGS在重建和生成任务中的各项指标均显著优于当前最先进的方法。
- 提出了
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 关节物体 (Articulated Object): 指由多个刚性部件通过关节(如铰链、滑轨)连接而成的物体。这些关节允许部件之间进行相对运动,例如旋转或平移。常见的例子有剪刀、椅子、笔记本电脑等。
- 3D 高斯溅射 (3D Gaussian Splatting, 3DGS): 一种用于场景表示和新视角合成的前沿技术。它不使用传统的网格或体素,而是用数百万个三维高斯分布(称为高斯基元)来表示场景。每个高斯基元都具有位置、形状(协方差矩阵)、颜色和不透明度 (opacity) 属性。通过将这些高斯基元“溅射”或投影到 2D 图像平面上进行渲染,可以实现高质量且实时的渲染效果。
- 符号距离场 (Signed Distance Field, SDF): 一种隐式的三维几何表示方法。它是一个函数 ,对于空间中的任意点 ,函数值表示该点到最近表面的距离,其符号表示该点在表面的内部(通常为负)还是外部(通常为正)。因此,物体的表面可以精确地定义为 SDF 值为零的点的集合,即 的等值面。SDF 因其能提供平滑的表面和精确的法线信息而广泛用于几何建模。
- 运动学结构 (Kinematic Structure): 描述物体各部件如何运动的规则。对于简单的关节物体,通常由关节类型(如旋转关节
revolute joint、平移关节prismatic joint)、关节轴线、旋转中心等参数定义。
-
前人工作 (Previous Works):
PARIS: 使用 NeRF 来重建关节物体,但由于 NeRF 的隐式特性,几何约束较弱,容易产生悬浮的伪影,且难以分离动态和静态部分。GOF,2DGS: 这些是基于 3DGS 的表面重建方法,但它们主要关注静态场景。GOF直接从opacity场提取表面,容易产生噪声。2DGS等方法通过将 3D 高斯约束为平面来改善法线,但仍缺乏对全局几何一致性的强约束。Deformable 3DGS,4DGS: 这些方法用于动态场景,但它们通常使用一个 MLP 网络来学习每个高斯基元随时间变化的位移。这种方式需要密集的时序数据进行监督,无法仅从两个时间点泛化到整个运动过程。ArticulatedGS,ArtGS: 与本文目标类似,也使用 3DGS 处理关节物体。但论文指出,这些方法仍然受困于几何约束不足的问题,导致重建质量有待提升。
-
技术演进 (Technological Evolution): 该领域的研究路径大致为:从传统的基于几何的方法,发展到基于深度学习的隐式表示(如
DeepSDF,NeRF),这些方法在表达复杂几何方面表现出色但计算成本高且几何精度有限。近期,显式表示3DGS因其渲染速度和质量成为热点。本文的工作正处在这一技术前沿,试图融合显式表示 (3DGS) 的高效与隐式表示 (SDF) 的几何精度,并将其应用于更具挑战性的、监督信息稀疏的关节物体动态建模任务中。 -
差异化分析 (Differentiation): 与现有工作相比,
REArtGS的核心差异在于:- 监督信息的稀疏性: 仅需两个状态的图像,而
4DGS等动态方法需要连续视频。 - 几何约束的创新性: 提出了无偏的 SDF 正则化,直接优化高斯基元的空间分布以对齐真实几何表面,而不是简单地用 SDF 修剪高斯或正则化法线。
- 运动生成的无监督性: 通过显式地建模运动学参数(旋转轴/平移方向)来约束可变形场,而不是用一个黑盒 MLP 来回归变形。这使得模型能够泛化到任意未见过的状态,并且运动是符合物理规律的。
- 监督信息的稀疏性: 仅需两个状态的图像,而
4. 方法论 (Methodology - Core Technology & Implementation Details)
REArtGS 的整体流程分为两个主要阶段:重建 (Reconstruction) 和 生成 (Generation)。
图像 1: REArtGS 的整体流程图。左侧为重建阶段,利用多视角图像和无偏 SDF 指导优化 3D 高斯,生成高质量的静态表面。右侧为生成阶段,从重建结果中分割动态部分,并利用运动学约束的可变形场生成任意未见状态下的物体模型。
4.1 重建阶段:带有无偏 SDF 指导
此阶段的目标是利用初始状态 () 的多视角图像,重建出高质量的 3D 纹理网格。
-
方法原理 (Methodology Principles): 标准 3DGS 的
opacity场与真实物体表面之间没有明确的几何关联,导致提取的网格表面可能存在噪声。REArtGS引入 SDF 来提供这种强几何先验。其核心直觉是:一个高斯基元对渲染的贡献越大,其位置应该越接近真实的物体表面。 -
方法步骤与流程 (Steps & Procedures):
- 引入 SDF: 使用一个 MLP 网络来学习一个 SDF 函数 ,该函数隐式地表示场景的几何形状。
- SDF 到 Opacity 的转换: 为了将 SDF 的几何信息融入 3DGS 的渲染过程,论文设计了一个从 SDF 值到不透明度 的转换。这里使用了一个可学习的钟形函数 (见公式 6),使得 SDF 值为零(即在表面上)的点对应最高的不透明度。
- 最终 Opacity 的定义: 单个高斯基元 的最终不透明度 由两部分相乘得到:SDF 导出的不透明度 和
GOF中提出的渲染贡献 。 - 解决“偏差”问题: 渲染贡献 沿光线的最大值点(深度为 ) 和 SDF 导出的不透明度 的最大值点(即表面所在位置)可能不重合。这种偏差会削弱 SDF 的指导效果。
- 无偏正则化: 为了消除这种偏差,论文提出了关键的无偏正则化损失 。
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
-
钟形激活函数: 其中, 是点 的 SDF 值, 是一个可学习参数。当 时,该函数取最大值。
-
无偏正则化损失: 其中, 和 是相机中心和光线方向, 是沿该光线渲染贡献最大的深度。此损失项强制要求在渲染贡献最大的点 上的 SDF 值趋近于零。这就在渲染过程和几何表面之间建立了一座无偏差的桥梁。
该图像为两个三维散点图对比示意图,展示了无偏置SDF正则化(左图)与有偏置SDF正则化(右图)下的绝对SDF值分布情况。颜色渐变反映SDF绝对值大小,右图中SDF值分布更均匀且层次更清晰,表明加入无偏置SDF正则化后几何约束得到改善,提升了重建质量。
图像 4: 无偏 SDF 正则化的效果图。(a) 没有使用无偏正则化时,SDF 绝对值 的分布较为发散。(b) 使用后,SDF 绝对值在 附近更紧密地向零收敛,表明渲染峰值与几何表面实现了更好的对齐。
-
4.2 生成阶段:带有运动约束
此阶段利用重建阶段得到的高质量几何先验(密集的点云),结合结束状态 () 的图像,学习生成任意中间状态 的模型。
-
方法原理 (Methodology Principles): 由于缺乏中间状态的监督,直接学习一个通用的变形网络非常困难。因此,
REArtGS利用关节物体的运动通常遵循简单运动学(旋转或平移)这一先验知识来约束变形场。 -
方法步骤与流程 (Steps & Procedures):
- 无监督部件分割:
- 首先,通过一个预热训练,仅使用结束状态的图像,让高斯基元移动到新位置。位置变化量 大于平均值的基元被初步标记为动态部分。
- 然后,在训练过程中,周期性地重新评估动态部件。只有那些运动轨迹符合当前学习到的全局运动参数(旋转或平移)的基元才被保留在动态部分中。
- 运动参数化:
- 对于旋转关节,学习旋转中心 和一个表示旋转轴与角度的四元数 。
- 对于平移关节,学习平移方向向量 和平移距离 。
- 可变形场公式:
- 旋转: 使用罗德里格斯旋转公式 (Rodrigues' rotation formula) 来计算动态部分中的点 在任意状态 下的新位置 。 其中, 是状态 对应的旋转角度, 是由旋转轴构成的斜对称矩阵。
- 平移: 使用简单的线性插值来计算新位置 。
- 无监督部件分割:
4.3 优化与网格提取
- 总损失函数:
- : 渲染损失,包括 L1 损失和 D-SSIM 损失。
- : 核心的无偏 SDF 正则化损失。
- : 法线一致性损失,促使高斯基元的法线与 SDF 的梯度方向对齐。
- : Eikonal 损失,一个标准的 SDF 正则化项,促使 SDF 梯度的模长为 1。
- : 深度失真损失。
- 网格提取: 优化收敛后,使用
TSDF Fusion算法。首先,从优化好的高斯基元渲染出训练视角下的深度图、不透明度图和 RGB 图。然后,将这些信息融合到一个体素网格中,最后从该网格中提取出带纹理的三角网格。
5. 实验设置
- 数据集 (Datasets):
PartNet-Mobility: 一个大规模的、包含丰富关节物体的合成数据集,用于定量的评估和比较。AKB-48: 一个真实世界的关节物体知识库,包含多样的真实物体扫描数据,用于验证方法的泛化能力。
- 评估指标 (Evaluation Metrics):
- 倒角距离 (Chamfer Distance, CD): 衡量两个点云之间的平均最近点距离。论文使用了两种变体:CD (ws) (whole surface) 衡量整个表面的差异,CD (rs) (rendered surface) 仅衡量从测试相机视角可见部分的差异,后者更关注视觉效果。
- F1-score: 结合了准确率和召回率,用于评估点云重建的综合质量。
- 推土机距离 (Earth Mover's Distance, EMD): 衡量将一个点云分布变换为另一个点云分布所需的最小“代价”,对点云的密度分布更敏感。
- 对比基线 (Baselines):
- 基于 3D 输入的方法:
A-SDF,Ditto。 - 基于 RGB 输入的方法:
PARIS(NeRF-based),GOF(3DGS-based),ArtGS(3DGS-based),D-3DGS(dynamic 3DGS-based)。 - 公平性说明: 论文在与
ArtGS比较时,移除了其对深度图的依赖,以确保公平比较。
- 基于 3D 输入的方法:
6. 实验结果与分析
6.1 核心结果分析
图像 3: REArtGS 效果总览。输入两个状态的图像,即可重建高质量的纹理网格,并生成平滑、连贯的中间状态序列。
-
重建性能 (Reconstruction Performance):
-
定量: 根据论文中的 Table 1,
REArtGS在PartNet-Mobility数据集上的平均 CD (ws), CD (rs),F1, 和EMD指标(分别为 3.79, 1.236, 0.294, 0.695)均优于所有基线方法。 -
定性 (图像 5):
图像 5: 在 PartNet-Mobility数据集上的重建质量对比。REArtGS(Ours) 生成的表面比GOF、PARIS和ArtGS更平滑、细节更清晰,伪影更少。其带纹理的版本与真实模型 (GT) 非常接近。
-
-
生成性能 (Generation Performance):
-
定量: 根据论文中的 Table 2,
REArtGS在生成未见状态的任务上,各项平均指标同样领先于PARIS,D-3DGS, 和ArtGS等方法。 -
定性 (图像 6):
图像 6: 在 PartNet-Mobility数据集上的生成质量对比。REArtGS生成的动态序列在几何上保持了一致性和平滑性,而PARIS和D-3DGS的结果则出现了更多的噪声和形状退化。
-
-
真实世界泛化 (Real-World Generalization):
-
根据论文中的 Table 5 和图像 2,
REArtGS在AKB-48真实世界数据集上的表现同样出色,无论是重建还是生成,其平均指标均显著优于PARIS和ArtGS,证明了方法的强大泛化能力。
图像 2: 在 AKB-48真实世界数据集上的结果。该图展示了REArtGS能够处理真实场景中的光照变化和复杂纹理,成功重建和生成了多种物体的动态过程。
-
6.2 消融实验/参数分析
-
无偏 SDF 指导的有效性 (Ablation on SDF Guidance):
- 根据论文中的 Table 3,实验结果清晰地展示了:
- 与基线(仅 3DGS)相比,加入 SDF 指导 (w/ SDF) 后,所有指标都有了显著提升。
- 在 SDF 指导的基础上,再加入无偏正则化 (
w/ Unbiased Reg.),性能得到进一步提升。
- 这有力地证明了无偏 SDF 指导是提升重建质量的关键创新点。
- 根据论文中的 Table 3,实验结果清晰地展示了:
-
运动约束的有效性 (Ablation on Motion Constraints):
- 根据论文中的 Table 4,将
REArtGS的运动学约束替换为类似D-3DGS的基于 MLP 的通用变形场 (w/o motion constraints) 后,性能急剧下降(例如 CD (ws) 从 5.41 飙升至 18.65)。 - 这表明,在只有稀疏监督的情况下,显式的运动学约束对于实现高质量的动态生成至关重要。
- 根据论文中的 Table 4,将
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 该论文成功地提出了
REArtGS,一个功能强大的框架,它通过为 3D 高斯溅射引入创新的几何约束(无偏 SDF 指导)和运动约束(基于运动学的可变形场),解决了仅从两个状态的多视角图像中高质量地重建和生成关节物体的重大挑战。该方法在合成和真实数据上都取得了业界领先的性能。 -
局限性与未来工作 (Limitations & Future Work):
- 相机姿态依赖: 该方法假设输入的相机姿态是已知的,这在某些现实场景中可能是一个限制。未来的工作可以探索联合优化相机姿态。
- 透明/反光材质: 与大多数基于光线投射的方法一样,
REArtGS在处理具有透明或高反光材质的物体时可能会遇到困难。未来的研究可以引入基于物理的渲染模型来解决此问题。
-
个人启发与批判 (Personal Insights & Critique):
- 启发:
- 跨领域融合的典范: 本文是显式表示 (3DGS)、隐式几何表示 (SDF) 和经典机器人学(运动学)思想成功融合的绝佳案例。它表明,结合不同方法的优点是解决复杂问题的有效途径。
- 约束设计的智慧: “无偏 SDF 指导”的设计非常精妙,它没有粗暴地用一个表示去监督另一个,而是巧妙地找到了两者(渲染峰值与几何表面)之间的物理关联,并以此为桥梁进行优化,这种思想值得借鉴。
- 稀疏监督下的泛化: 在数据稀疏的情况下,引入强先验(如运动学模型)是实现泛化和避免过拟合的关键。这对于其他需要从小样本学习的任务具有普遍的指导意义。
- 批判性思考:
-
运动模型的简化: 当前模型假设物体的运动仅为单一的旋转或平移。对于具有多个关节(如人形机器人)或更复杂运动(如螺旋运动)的物体,该框架需要扩展。论文中提到的“顺序学习”多部件的方法可能会引入误差累积。
-
部件分割的鲁棒性: 无监督的部件分割方法依赖于运动幅度,对于运动微小或存在遮挡的部件,分割的准确性可能下降,进而影响后续的运动估计和生成。
-
拓扑变化: 该方法无法处理拓扑结构发生变化的场景,例如物体的组装或拆卸。
-
- 启发:
相似论文推荐
基于向量语义检索推荐的相关论文。