论文状态：已完成

MARR: A Multi-Agent Reinforcement Resetter for Redirected Walking

发表：2024/02/21

多智能体强化学习 (2)重定向行走重置技术 (1)多用户环境下的行为优化 (1)用户沉浸感与存在感 (1)环境上下文感知重置 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

MARR（多智能体强化重置器）是一种新方法，旨在优化虚拟现实中的重定向行走（RDW）中的重置机制。该系统基于多智能体强化学习，学习在动态用户和静态障碍物的环境中寻找最佳重置方向，从而显著减少重置次数，提升用户沉浸感，超越现有启发式算法的表现。

摘要

The reset technique of Redirected Walking (RDW) forcibly reorients the user’s direction overtly to avoid collisions with boundaries, obstacles, or other users in the physical space. However, excessive resetting can decrease the user’s sense of immersion and presence. Several RDW studies have been conducted to address this issue. Among them, much research has been done on reset techniques that reduce the number of resets by devising reset direction rules or optimizing them for a given environment. However, existing optimization studies on reset techniques have mainly focused on a single-user environment. In a multi-user environment, the dynamic movement of other users and static obstacles in the physical space increase the possibility of resetting. In this study, we propose Multi-Agent Reinforcement Resetter (MARR), which resets the user taking into account both physical obstacles and multi-user movement to minimize the number of resets. MARR is trained using multi-agent reinforcement learning to determine the optimal reset direction in different environments. This approach allows MARR to effectively account for different environmental contexts, including arbitrary physical obstacles and the dynamic movements of other users in the same physical space. We compared MARR to other reset technologies through simulation tests and user studies, and found that MARR outperformed the existing methods. MARR improved performance by learning the optimal reset direction for each subtle technique used in training. MARR has the potential to be applied to new subtle techniques proposed in the future. Overall, our study confirmed that MARR is an effective reset technique in multi-user environments.

思维导图

论文精读

中文精读约 16 分钟读完 · 7,847 字

1. 论文基本信息

1.1. 标题

MARR: A Multi-Agent Reinforcement Resetter for Redirected Walking (MARR：一种用于重定向行走的多智能体强化重置器)

1.2. 作者

Ho Jung Lee (延世大学计算机科学系)
Sang-Bin Jeon (延世大学计算机科学系)
Yong-Hun Cho (高丽大学数字体验实验室)
In-Kwon Lee (通讯作者，延世大学计算机科学系教授)

1.3. 发表期刊/会议

IEEE Transactions on Visualization and Computer Graphics (TVCG)

声誉： TVCG 是计算机图形学、可视化和虚拟现实（VR）领域的顶级期刊之一，具有极高的学术影响力和认可度（CCF A类推荐期刊）。

1.4. 发表年份

2024年 (Published at: 2024-02-21)

1.5. 摘要

本论文旨在解决虚拟现实（VR）中“重定向行走”（Redirected Walking, RDW）的一个关键痛点：重置（Reset）。当用户即将撞上物理边界或其他用户时，系统会强制停止并调整用户方向，这被称为重置。频繁的重置会破坏沉浸感。现有的重置方法大多针对单用户或静态障碍物，未充分考虑多用户环境下的动态避障。作者提出了 MARR (Multi-Agent Reinforcement Resetter)，这是一种基于多智能体强化学习（MARL）的方法。它将每个用户视为一个智能体，学习在复杂的物理空间（包含静态障碍和其他移动用户）中寻找最优的重置方向。实验表明，MARR 能够显著减少重置次数，优于现有的启发式重置算法。

1.6. 原文链接

MARR: A Multi-Agent Reinforcement Resetter for Redirected Walking (已正式发表)

2. 整体概括

2.1. 研究背景与动机

核心问题： 在有限的物理空间中体验无限的虚拟现实（VR）行走是一个经典难题。重定向行走（RDW）通过微调用户的视野旋转和位移，欺骗用户的感知，使其在物理空间绕圈而在虚拟空间走直线。然而，当物理空间受限（有墙壁、障碍物）或存在多个用户时，微调可能失败，必须触发重置（Reset）——即强制用户停下并转身，直到面向安全的物理方向。
现有挑战：
1. 频繁中断： 重置是一种“显式”干扰，会打破沉浸感，因此应尽可能减少。
2. 多用户复杂性： 现有的重置策略（如“转向中心”）主要针对单用户。在多用户环境中，其他用户是动态移动的障碍物。如果简单地转向物理中心，可能会撞上另一个正在经过的用户，导致刚重置完又需要重置。
3. 环境适应性差： 传统算法通常使用固定的规则（如“背对墙壁”），缺乏对复杂障碍物布局的全局理解。
创新思路： 作者认为，重置不仅仅是“避开墙壁”，更是一个长期规划问题。如果能预测其他用户的移动并理解环境结构，就能选择一个“未来一段时间内都不容易发生碰撞”的方向。为此，作者引入了多智能体强化学习（MARL）。

2.2. 核心贡献/主要发现

提出 MARR 模型： 这是首个将多智能体强化学习（MARL）应用于多用户 RDW 重置方向决策的研究。
环境适应性： MARR 能够根据具体的物理障碍布局和其他用户的实时位置，动态计算最优重置方向，而不仅仅是遵循固定规则。
性能验证： 通过仿真和真人用户实验，证明 MARR 在各种障碍物布局（简单、复杂）和用户数量下，重置次数均显著少于现有的最先进方法（如 MR2C, R2G）。
学习能力： 发现 MARR 能够适应不同的微调技术（Subtle Techniques），为每种技术学习特定的最佳重置策略。

下图（原文 Fig. 1）展示了 MARR 与传统方法的区别：传统方法 (a, b, c) 可能导致用户重置后面向障碍物或其他用户，而 MARR (d) 能找到更开阔的路径。

该图像是示意图，展示了在多用户环境中，MARR（多代理强化重置器）如何通过不同的重置方向减少用户的重置次数。图中(a)至(d)分别展示了在存在物理障碍和其他用户动态移动情况下的重置过程。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，初学者需要掌握以下概念：

重定向行走 (Redirected Walking, RDW): 一种 VR 移动技术。
- 隐式技术 (Subtle Technique): 在用户不易察觉的阈值内，对用户的旋转或平移施加增益（Gain）。例如，用户在物理世界转了 $90^\circ$ ，VR 里却转了 $100^\circ$ 。目的是让用户不知不觉地避开墙壁。
- 显式技术 (Overt Technique) / 重置 (Reset): 当隐式技术无法阻止碰撞时（如用户直冲墙角），系统会强制介入。最常见的是 2:1 Turn：让用户在物理世界原地旋转 $180^\circ$ （背对墙壁），但在虚拟世界中旋转 $360^\circ$ （视角回到原路），从而让用户可以继续在虚拟世界前行，同时在物理世界获得背后的安全空间。
强化学习 (Reinforcement Learning, RL): 机器学习的一个分支，通过让智能体 (Agent) 在环境 (Environment) 中试错，根据奖励 (Reward) 来学习最优策略 (Policy)。
多智能体强化学习 (Multi-Agent RL, MARL): 多个智能体在同一环境中同时学习。
- CTDE (Centralized Training Decentralized Execution): “集中训练，分散执行”。这是一种 MARL 框架。在训练时，有一个上帝视角的“导师”（Critic）能看到所有人的信息，帮助大家学习；但在实际应用（执行）时，每个智能体（Actor）只能根据自己看到的局部信息做决策。本文使用了 MA-POCA 算法，这是一种支持动态数量智能体的 CTDE 方法。
人工势场法 (Artificial Potential Field, APF): 传统机器人避障算法。将障碍物视为斥力场，目标视为引力场，计算合力方向作为移动方向。在 RDW 中常用于计算隐式引导方向。

3.2. 前人工作与差异

单用户重置策略：
- R2C (Reset-to-Center): 总是转向物理空间中心。简单但在有中心障碍物时失效。
- MR2C (Modified R2C): 改进版，若中心有障碍，则转向背离最近边界的方向。
- R2G (Reset-to-Gradient): 基于人工势场，转向势能下降最快（最安全）的方向。
- SFR2G (Step-Forward R2G): 类似 R2G，但通过模拟向前走几步来寻找更优方向。
多用户 RDW：
- 早期的多用户研究（如 Bachman 等人）主要集中在利用 APF 进行隐式引导，重置策略仍然沿用单用户的逻辑。
- 差异点： 本文的 MARR 是第一个专门针对多用户重置方向进行优化的 RL 模型。它不再依赖人工设计的规则（如势场），而是通过数据驱动的方式学习如何与他人协作避让。

4. 方法论

4.1. 方法原理

MARR 的核心思想是将每个 VR 用户建模为一个强化学习智能体。目标是训练一个策略网络，当某个用户触发重置时，该网络能根据当前的全局状态（障碍物位置、所有用户的朝向和位置），输出一个最优的重置偏航角（Yaw Angle），使得该用户在重置后能走得更远，尽量减少未来的重置次数。

下图（原文 Fig. 2）展示了 MARR 的训练架构：

$该图像是示意图，展示了多代理强化学习中的 Actor-Critic 架构。图中左侧和右侧分别展示了两个代理（Actor 1 和 Actor 2）的观察 $O_1$ 和 $O_2$ 以及对应的动作 $a_1$ 和 $a_2$。中央的 Critic 负责评估各个代理的动作，帮助优化它们的策略。整体结构强调了在多用户环境中，各代理的协作与动态决策过程。$ 该图像是示意图，展示了多代理强化学习中的 Actor-Critic 架构。图中左侧和右侧分别展示了两个代理（Actor 1 和 Actor 2）的观察 $O_1$ 和 $O_2$ 以及对应的动作 $a_1$ 和 $a_2$ 。中央的 Critic 负责评估各个代理的动作，帮助优化它们的策略。整体结构强调了在多用户环境中，各代理的协作与动态决策过程。

4.2. 核心方法详解 (逐层深入)

4.2.1. 强化学习框架 (CTDE)

作者采用了 MA-POCA (Multi-Agent Posthumous Credit Assignment) 算法。

Critic (评论家): 在训练阶段，Critic 接收所有智能体的观察信息，评估当前局面的好坏。
Actor (演员): 每个用户对应一个 Actor，根据自己的局部观察做出决策。
优势: 利用全局信息训练，但应用时不需要通信，每个头显独立计算。

4.2.2. 状态空间 (States)

当第 $i$ 个用户需要重置时，Actor 观察到的状态 $o_i$ 包含该用户在物理空间中的位置和朝向： $o_i = (u_i, \theta_i)$

符号解释：
- $u_i$ : 用户 $i$ 的二维物理位置 (x, y)。作者将其线性归一化到 $[-1, 1]$ 范围，以便模型能适应不同大小的房间。
- $\theta_i$ : 用户 $i$ 的朝向，同样归一化到 $[-1, 1]$ 。
全局状态 $s_t$ : Critic 在训练时看到的是所有用户的集合 $s_t = (o_1, o_2, ..., o_n)$ 。

4.2.3. 动作空间 (Action)

动作 $a_t$ 决定了用户的重置方向 $\theta_a$ 。为了避免无效的重置（例如转向墙壁），作者限制了动作的搜索范围。这分为两种情况，如下图（原文 Fig. 3）所示：

$Fig. 3. Reset process by action of MARR: $\\theta _ { i }$ : The user's current direction of movement, $\\theta _ { n }$ : The normal direction of the wall or obstacle that caused the reset, $\\theta _ { c }$ : The opposite direction of $\\theta _ { i }$ , $\\theta _ { a }$ : The reset direction determined by MARR.$ 该图像是示意图，展示了多代理强化重置器（MARR）的重置过程。在图(a)中，表示用户当前运动方向的角度为 $\theta _{i}$ ，引发重置的墙壁或障碍物法线方向为 $\theta _{n}$ ，而MARR确定的重置方向为 $\theta _{a}$ 。图(b)中进一步展示了重置后各个方向的关系，其中 $\theta _{c}$ 是 $\theta _{i}$ 的相反方向。

边界重置 (Boundary Reset): 因撞墙触发。动作范围限制在墙壁法线 $\theta_n$ 的左右 $90^\circ$ 内。
用户重置 (User Reset): 因撞人触发。动作范围限制在背对对方方向 $\theta_c$ 的左右 $90^\circ$ 内。

动作 $\theta_a$ 的计算公式如下： $\theta_a \in \begin{cases} [\theta_n - \frac{\pi}{2}, \theta_n + \frac{\pi}{2}], & \text{如果是边界重置} \\ [\theta_c - \frac{\pi}{2}, \theta_c + \frac{\pi}{2}], & \text{如果是用户重置} \end{cases}$

解释： 模型输出一个标量值，映射到上述蓝色半圆区域内的一个具体角度。这个角度就是用户重置后将要面向的物理方向。

4.2.4. 奖励函数 (Reward Function)

这是引导智能体学习的关键。总奖励 $R$ 由三部分组成： $R(s_t, a_t) = w_r R_r + w_d R_d + w_a R_a$ 其中 $w$ 为权重。

重置惩罚 ( $R_r$ ): $R_r = -1$
- 目的： 只要发生重置，就给予惩罚。智能体为了最大化总分，会尽力避免重置。
距离奖励 ( $R_d$ ): $R_d(s_t, a_t) = d_j$
- 符号解释： $d_j$ 是用户 $j$ 在本次重置后，直到下一次重置前所行走的距离（归一化处理）。
- 目的： 鼓励选择一个能让用户“走得更久”的方向。
可视区域奖励 ( $R_a$ ): 这是为了鼓励用户转向开阔区域。 $R_a(s_t, a_t) = \frac{\text{forward visible area}}{\text{total visible area}} = \frac{\int_{\theta_a - \pi/8}^{\theta_a + \pi/8} \frac{1}{2}(f(\theta))^2 d\theta}{\int_{-\pi}^{\pi} \frac{1}{2}(f(\theta))^2 d\theta}$
- 符号解释：
  - $f(\theta)$ : 从用户当前位置沿角度 $\theta$ 射线发出，直到碰到障碍物或边界的距离。
  - $\theta_a$ : 模型选择的重置方向。
  - 积分区间 $[\theta_a - \pi/8, \theta_a + \pi/8]$ : 表示用户前方约 $45^\circ$ 的视野扇区。
- 直观解释： 分子是用户重置后“正前方”可视扇形的面积，分母是用户当前位置周围 $360^\circ$ 所有可视区域的总面积。
- 目的： $R_a$ 越大，说明用户面向的方向越开阔，不仅避开了当前的墙，也避开了远处的障碍。

5. 实验设置

5.1. 环境与数据集

仿真平台: 基于 Unity ML-Agents 和 Open-RDW 库。
物理空间布局: 作者设计了多种具有代表性的布局（见原文 Fig. 4），包括：
- (a) 简单矩形障碍。
- (b) 中心圆形障碍。
- (c) 规则排列的方柱（类似礼堂）。
- (d) 复杂布局（不规则多障碍）。
训练与测试: 智能体在这些环境中训练，通过在虚拟空间中随机生成的路径行走来积累经验。

该图像是示意图，展示了用于模拟和用户研究的物理空间布局，包括六个不同的训练和测试布局：(a) 简单，(b) 圈，(c) 正方形，(d) 复杂，(e) 更多和 (f) 更少。这些布局用于评估 MARR 的重置方向算法。

5.2. 对比基线 (Baselines)

为了验证 MARR 的效果，作者将其与三种经典的重置技术进行了对比：

MR2C (Modified Reset-to-Center): 优先转向中心，若中心受阻则背离边界。
R2G (Reset-to-Gradient): 转向人工势场梯度下降方向（最“空”的方向）。
SFR2G (Step-Forward R2G): 模拟向前走几步后的势场梯度，选择最优解。

同时，实验结合了三种隐式引导技术：NS (无引导), S2C (转向中心), TAPF (Thomas等人的 APF 算法)。

5.3. 评估指标

重置次数 (Number of Resets):
- 定义: 在固定的虚拟行走任务中，用户被强制中断的次数。
- 目标: 越低越好。这是衡量重置策略有效性的核心指标。
重置间平均距离 (Mean Distance between Resets, MDbR):
- 定义: 用户在两次重置之间平均行走的虚拟距离。
- 公式: $\text{MDbR} = \frac{\text{Total Virtual Distance}}{\text{Number of Resets}}$
- 目标: 越高越好，意味着沉浸体验越连续。

6. 实验结果与分析

6.1. 仿真测试结果

作者在不同大小和布局的房间中进行了广泛的仿真测试 (E1, E2, E3, E4, E5)。

6.1.1. 小空间与中等空间 (E1, E2)

在 $5m \times 5m$ 和 $10m \times 10m$ 的空间中，MARR 展现出了显著优势。下图（原文 Fig. 5）展示了 $5m \times 5m$ 空间下的结果。我们可以看到，在所有障碍物类型（Simple, Circle, Complex）下，MARR（最右侧的柱子）的重置次数始终是最低的。特别是在 "Circle" 布局中，传统的 MR2C 因为总是试图转向被占据的中心，表现极差，而 MARR 能有效应对。

该图像是图表，展示了在不同环境（简单、圆形和复杂）下，MR2C、R2G和MARR三种重置技术的重置次数比较。横轴为不同的环境类别，纵轴为重置次数，结果显示MARR在各个环境下表现均优于其他方法。

6.1.2. 大空间与多用户 (E3)

在 $20m \times 20m$ 的大空间中，随着用户数量从 2 人增加到 8 人，碰撞概率激增。下图（原文 Fig. 7）显示，无论用户数量如何增加（横轴 2, 4, 6, 8），MARR（绿色折线）的重置次数增长最为平缓，且始终低于其他方法。这证明了 MARR 在高密度多用户环境下的可扩展性和协作性。

该图像是一个图表，展示了不同环境下（简单、圆形和复杂）使用不同重置技术（如 MARR 和 R2G）时的重置次数。可以看到，MARR 在所有情况下的表现优于其他方法，尤其是在三用户的环境中。图表提供了不同技术在两用户和三用户场景下的比较。 (注：此处引用原文 Fig. 6 作为中等空间示例，Fig. 7 见下方)

该图像是图表，展示了在不同用户数量下，各种重置技术（MR2C、R2G、SFR2G、MARR）所需的重置次数。图中包含三个子图，分别对应NS、S2C和TAPF场景，MARR在各场景下的重置次数明显低于其他技术。

6.1.3. 未见过的布局 (E4)

为了测试泛化能力，作者在训练时未使用的布局（移除或增加障碍物）上测试了 MARR。下图（原文 Fig. 8）展示了结果。箱线图显示 MARR 的分布位置最低，说明即使面对从未见过的障碍物布局，学到的策略依然有效。

$Fig. 8. Visualization of the number of resets in E4 performed by two users in $1 0 \\mathrm { m } \\times 1 0 \\mathrm { m }$ physical space with less and more obstacle types using TAPF algorithm and different reset techniques, respectively.$ 该图像是图表，展示了在不同障碍物类型下，两名用户在 10 ext{ m} imes 10 ext{ m} 物理空间中使用 TAPF 算法和不同重置技术所执行的重置次数对比。左侧为障碍物较少的情况，右侧为障碍物较多的情况，各技术的重置次数通过箱线图展示。

6.2. 用户研究 (User Study)

仿真之后，作者邀请了 28 名参与者佩戴 VR 头显进行真实行走实验。

场景: $6m \times 6m$ 物理空间，两人一组，寻找虚拟宝箱。
结果: 下图（原文 Fig. 11）展示了用户研究的数据。
- 左图 (Number of Resets): MARR 显著低于 MR2C 和 R2G。
- 右图 (MDbR): MARR 的平均行走距离显著高于其他方法。这证实了仿真结果在真实世界中是可复现的。
  
  该图像是一个示意图，展示了两名用户使用 TAPF 算法时不同重置技术下的重置次数和 MDBR 值。左侧为重置次数，包括 MR2C、R2G 和 MARR 三种方法的对比；右侧为 MDBR 结果，明显显示 MARR 在多用户环境中的优势。

6.3. 多智能体 vs 单智能体 (MARL Evaluation)

作者还对比了 MARR 与使用单智能体算法 (SAC) 训练的版本 MARR_S。下图（原文 Fig. 12）显示，MARR_S 的表现显著差于 MARR，甚至有时不如传统算法。

分析: 单智能体模型将其他用户视为简单的动态障碍，缺乏协作意识。而 MARR (MARL) 让智能体学会了“互相让路”或“预留空间”，从而达到了全局最优。

$Fig. 12. Visualization of the number of resets in MARL evaluation performed by two users in $1 0 \\mathrm { m } \\times 1 0 \\mathrm { m }$ physical space with complex obstacle type, using the TAPF algorithm and different reset techniques, respectively.$ 该图像是图表，展示了不同重置技术在 10 ext{ m} imes 10 ext{ m} 物理空间中进行的 MARL 评估下的重置次数。各重置技术包括 MR2C、R2G、SFR2G、MARR_S 和 MARR，结果表明 MARR 技术在重置次数上表现最佳。

6.4. 超参数设置

以下是原文 Table I 的转录，展示了训练 MARR 的关键参数：

Table I: MARR Model Hyperparameters
Hyperparameters	Value
batch size	2048
learning rate	0.001
layers	4
hidden units	256
γ (discount factor)	0.99
λ (TD parameter)	0.95
max steps	1.5 × 10⁷

7. 总结与思考

7.1. 结论总结

本文提出了 MARR，这是一种基于多智能体强化学习的重定向行走重置控制器。

有效性: 在多用户、多障碍物的复杂环境中，MARR 能显著减少重置次数，提升用户的沉浸感。
智能性: MARR 不依赖硬编码规则，而是通过观察全局状态（包括其他用户位置）来决策，这使得它比传统的势场法或中心法更具前瞻性。
通用性: 实验证明 MARR 对不同的物理空间布局和微调技术具有良好的适应性。

7.2. 局限性与未来工作

作者在文中坦诚了以下局限：

训练依赖: 虽然有一定的泛化能力，但为了达到最佳效果，MARR 最好针对特定的物理空间大小进行单独训练。如果空间尺寸变化巨大，模型性能会下降。
用户执行误差: 在用户研究中，部分不熟悉 VR 的用户难以精确执行系统指示的“原地旋转”角度。
仅优化方向: 目前 MARR 仅优化原地重置的方向。未来的研究可以探索同时优化重置的位置（即允许用户走到某个位置再重置）。

7.3. 个人启发与批判

启发: 这篇论文展示了 MARL 在解决“共享空间冲突”类问题上的巨大潜力。这种思路不仅适用于 VR，也可以迁移到多机器人路径规划、自动仓储调度等领域。将“避免未来的重置”作为长期奖励函数的设计非常巧妙，转化了一个瞬时决策问题为长期优化问题。
思考:
- 感知输入: 当前模型输入的是精确的坐标 $(u, \theta)$ 。在实际部署中，如果追踪系统有延迟或噪声，模型的鲁棒性如何？未来可以考虑引入噪声进行训练。
- 人机交互: 文中提到的“用户执行误差”是一个有趣的人机交互（HCI）问题。也许未来的重置策略不应给出一个精确角度，而是一个宽松的“安全扇区”，并通过视觉引导让用户自然停在扇区内。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。