HUMAN ACTIVITY RECOGNITION AND OPTIMIZATION OF BIPED EXOSKELETES THROUGH ARTIFICIAL INTELLIGENCE: AN INTEGRATED APPROACH

pp. 71 - 79

论文状态：已完成

HUMAN ACTIVITY RECOGNITION AND OPTIMIZATION OF BIPED EXOSKELETES THROUGH ARTIFICIAL INTELLIGENCE: AN INTEGRATED APPROACH

发表：2025/04/25

惯性传感器人体活动识别 (1)双足外骨骼优化 (1)强化学习控制策略 (1)支持向量机与随机森林分类 (1)基于模拟环境的外骨骼训练 (1)

原文链接

价格：0.10

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出利用惯性传感器实现人体活动识别，并结合强化学习优化双足外骨骼控制策略。通过SVM和随机森林算法实现92%分类准确率，强化学习在模拟环境中将代谢成本降低15%，显著提升外骨骼的适应性与能效，应用前景广阔。

摘要

Journal of Engineering Science Vol. XXXII, no. 1 (2025), pp. 71 - 79 Fascicle Electronics and Computer Science ISSN 2587-3474 Topic Biomedical Engineering eISSN 2587-3482 Journal of Engineering Science March, 2025, Vol. XXXII (1) HUMAN ACTIVITY RECOGNITION AND OPTIMIZATION OF BIPED EXOSKELETES THROUGH ARTIFICIAL INTELLIGENCE: AN INTEGRATED APPROACH Mihaela Rusanovschi *, ORCID: 0000 - 0002 -2447-5997, Galina Marusic, ORCID: 0000 - 0002 -2984- 2055 Technical University of Moldova, 168 Stefan cel Mare Blvd., Chisinau, Republic of Moldova * Corresponding author: Mihaela Rusanovschi, mihaela.rusanovschi@iis.utm.md Received: 03 . 02 . 2025 Accepted: 03 . 24 . 2025 Abstract. This paper explores the integration of inertial sensor -based human activity recognition (HAR) with the optimization of bipedal exoskeletons using artificial intelligen ce (AI) techniques. The motivation for the study stems from the need to improve the adaptability and energy efficiency of exoskeletons for practical applications. The specific hypothesis is that combining HAR with reinforcement learning (RL) can lead to pe rsonalized and efficient control strate

思维导图

论文精读

中文精读约 33 分钟读完 · 18,407 字

1. 论文基本信息

1.1. 标题

中文标题: 基于人工智能的人体活动识别与双足外骨骼优化：一种集成方法 英文标题: HUMAN ACTIVITY RECOGNITION AND OPTIMIZATION OF BIPED EXOSKELETONS THROUGH ARTIFICIAL INTELLIGENCE: AN INTEGRATED APPROACH

1.2. 作者

Mihaela Rusanovschi
- ORCID: 0000-0002-2447-5997
- 所属机构: 摩尔多瓦技术大学 (Technical University of Moldova)
- 联系邮箱: mihaela.rusanovschi@iis.utm.md (通讯作者)
Galina Marusic
- ORCID: 0000-0002-2984-2055
- 所属机构: 摩尔多瓦技术大学 (Technical University of Moldova)

1.3. 发表期刊/会议

期刊名称: Journal of Engineering Science 发表时间: 2025年3月, 第XXXII卷 (1)

1.4. 发表年份

2025年

1.5. 摘要

本文探讨了将基于惯性传感器的人体活动识别 (HAR) 与人工智能 (AI) 技术优化的双足外骨骼相结合的方法。该研究的动机源于提高外骨骼在实际应用中适应性和能源效率的需求。研究假设将人体活动识别 (HAR) 与强化学习 (RL) 相结合可以产生个性化且高效的控制策略。该研究开发了一个鲁棒的 HAR 系统，用于分类包括正常行走、楼梯攀爬/下降和坐下/站立等活动。该系统通过分割和特征提取对加速度计和陀螺仪数据进行预处理，随后使用支持向量机 (SVM) 和随机森林 (Random Forest) 算法进行监督分类。同时，在 Webots 等模拟环境中进行强化学习 (RL) 优化以增强外骨骼控制。初步结果表明，HAR 准确率达到 92%，通过 RL 将代谢成本降低了 15%，从而提高了外骨骼的稳定性和用户舒适度。这种创新的集成方法通过最大限度地减少手动调整，为外骨骼设计做出了贡献，并在康复和物理增强方面具有广阔的应用前景。

1.6. 原文链接

/files/papers/690214ed84ecf5fffe471893/paper.pdf 发布状态: 已正式发表。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 双足外骨骼在实际应用中面临适应性不足和能源效率不高的问题。传统的开发方法需要大量的人体测试、复杂的控制律手动设置，并且对外骨骼与用户多样化需求及环境条件的适应性有限。

为什么这个问题在当前领域是重要的: 随着医疗、工业和军事应用对可穿戴机器人设备（如双足外骨骼）的需求不断增长，提高其功能性和可靠性变得至关重要。外骨骼在辅助行动和康复治疗中具有巨大潜力，但现有技术在个性化和效率方面仍有待提升。

现有研究存在的具体挑战或空白 (Gap):

传统开发方法的局限性: 需要昂贵且耗时的人体实验，以及复杂的、非自适应的手动控制律设计。
人工智能应用的局限性: 尽管强化学习 (RL) 在模拟环境中训练自适应控制策略方面显示出巨大潜力，但其与实时人体活动识别 (HAR) 的结合尚未得到充分探索。现有研究要么专注于 HAR 用于活动监测，要么专注于 RL 用于控制，但很少将两者协同集成。
缺乏标准化评估指标: 现有的外骨骼研究缺乏统一的性能评估标准，导致不同研究之间的比较困难。
个性化控制的需求: 人体生物力学在个体之间存在显著差异，因此需要高度个性化的控制策略，而传统方法难以实现。

这篇论文的切入点或创新思路: 论文提出了一种集成方法，通过将基于惯性传感器的人体活动识别 (HAR) 系统与强化学习 (RL) 优化相结合，以解决双足外骨骼的适应性和能源效率问题。其核心创新在于利用 HAR 实时识别用户意图，并以此动态调整 RL 策略，从而实现个性化、自适应且高效的外骨骼控制。

2.2. 核心贡献/主要发现

论文最主要的贡献:

提出并验证了 HAR-RL 集成框架: 成功地将人体活动识别 (HAR) 与强化学习 (RL) 相结合，为双足外骨骼提供了一种自适应的控制策略。
开发了鲁棒的 HAR 系统: 使用惯性传感器数据，通过特征提取和监督学习（SVM、随机森林），实现了对多种日常活动（如行走、上下楼梯、坐立）的高精度分类。
通过 RL 优化了外骨骼控制: 在模拟环境中（Webots 和 OpenSim）使用 PPO 算法，显著降低了外骨骼用户的代谢成本，并提高了稳定性。
实现了外骨骼的快速自适应: HAR-RL 集成显著缩短了外骨骼对活动变化的适应时间，从 1.2 秒降至 0.5 秒。

论文得出了哪些关键的结论或发现:

高精度 HAR: 开发的 HAR 系统达到了 92% 的整体分类准确率，能够有效地识别用户的活动意图。
显著降低代谢成本: 强化学习优化使得外骨骼辅助下的代谢成本降低了 15%，同时提高了运动速度和稳定性。
改善用户舒适度和安全性: RL 优化在 OpenSim 模拟中显示出肌肉努力（如股四头肌力量）降低了 16%，踝部冲击力降低了 18%，从而提高了用户舒适度和安全性。
减少手动调整需求: 集成方法减少了对外骨骼手动调整的依赖，使其更加自动化和智能化。
潜在的广泛应用价值: 该方法在康复领域（加速患者恢复）和物理增强领域（提高工业活动效率）均具有重要的应用前景。

3. 预备知识与相关工作

3.1. 基础概念

为了充分理解这篇论文，读者需要了解以下核心概念：

双足外骨骼 (Bipedal Exoskeletons): 这是一种可穿戴的机器人设备，旨在增强人类的身体能力或辅助移动康复。它们通常由电机、传感器和控制系统组成，能够支持或代替下肢运动。
人工智能 (Artificial Intelligence, AI): 广义上指使机器能够模仿、学习和执行人类智能任务的技术。在本文中，AI 主要指机器学习，尤其是强化学习和监督学习技术。
人体活动识别 (Human Activity Recognition, HAR): HAR 是一项旨在通过分析来自传感器的数据来自动识别和分类人类正在进行的活动的技术。例如，识别一个人是在走路、跑步、坐下还是站立。
惯性传感器 (Inertial Sensors): 一类测量物体运动学量的传感器。
- 加速度计 (Accelerometer): 测量物体在空间中的线性加速度，通常在三个正交轴（x、y、z）上。它可以检测运动的强度和方向变化。
- 陀螺仪 (Gyroscope): 测量物体在空间中的角速度，通常也在三个正交轴上。它用于检测旋转运动和方向变化。
- 惯性测量单元 (Inertial Measurement Unit, IMU): 通常包含加速度计和陀螺仪（有时还包括磁力计）的传感器组合，用于提供更全面的运动数据。
强化学习 (Reinforcement Learning, RL): 强化学习是机器学习的一个分支，其中一个智能体 (agent) 通过与环境 (environment) 交互来学习最佳行为策略。智能体执行动作 (action)，环境根据动作反馈奖励 (reward) 或惩罚，智能体的目标是最大化长期累积奖励。
- 策略 (Policy): 智能体在给定状态下选择动作的规则或函数。
- 奖励函数 (Reward Function): 定义智能体在特定状态下执行特定动作后获得的“好坏”程度的函数。在 RL 中，设计合适的奖励函数至关重要。
- 状态空间 (State Space): 智能体可以感知到的所有可能环境配置的集合。
- 动作空间 (Action Space): 智能体可以执行的所有可能动作的集合。
- 近端策略优化 (Proximal Policy Optimization, PPO): 一种流行的强化学习算法，属于策略梯度方法，以其在连续动作空间中的稳定性和良好性能而闻名。它通过限制每次策略更新的幅度来避免过大的策略改变，从而提高训练的稳定性。
支持向量机 (Support Vector Machines, SVM): 一种监督学习模型，用于分类和回归分析。其核心思想是找到一个最优的超平面，将不同类别的数据点分隔开，并使分隔边界与最近的数据点之间的距离（即间隔）最大化。
- 径向基函数 (Radial Basis Function, RBF) 核 (Kernel): SVM 中常用的一种核函数，用于将数据从原始特征空间映射到更高维的特征空间，以便在非线性可分的情况下也能找到超平面。
随机森林 (Random Forest): 一种集成学习方法，用于分类和回归。它通过构建多个决策树，并在训练时引入随机性（例如，对数据进行自助采样和在每个节点分裂时随机选择特征子集），然后通过投票（分类）或平均（回归）来组合这些树的预测，以提高模型的准确性和鲁棒性。
代谢成本 (Metabolic Cost): 指人体在进行特定活动时所消耗的能量。在外骨骼研究中，降低代谢成本通常意味着减少用户的生理负担，提高效率和舒适度。
零力矩点 (Zero Moment Point, ZMP): 在双足机器人和人类步态分析中，ZMP 是一个关键的稳定性指标。它是在支撑平面上，所有接触力（包括地面反作用力）产生的力矩总和为零的点。当 ZMP 始终位于支撑多边形内部时，机器人或人被认为是稳定的。
PID 控制器 (Proportional-Integral-Derivative Controller): 一种传统的控制回路机制，广泛应用于工业控制系统。它通过计算比例项 (P)、积分项 (I) 和微分项 (D) 的加权和来生成控制输出，以最小化目标值与实际值之间的误差。
Webots: 一个开源的机器人模拟器，允许用户对各种机器人（包括双足机器人和外骨骼）进行建模、编程和仿真。它集成了物理引擎（如 ODE，Open Dynamics Engine），用于模拟机器人的物理行为。
OpenSim: 一款生物力学模拟软件，用于对肌肉骨骼系统进行建模和仿真。它可以用于分析人类运动，预测肌肉力，并研究人体与外部设备（如外骨骼）之间的交互。

3.2. 前人工作

强化学习 (RL) 在外骨骼控制中的应用: 文献 [6] 证明 RL 能够将外骨骼辅助运动的代谢能耗降低高达 20%。这表明 RL 在优化外骨骼能源效率方面具有巨大潜力。
人体活动识别 (HAR) 系统: 文献 [7] 指出，使用监督学习技术，HAR 系统在基本任务上的准确率可以超过 90%。这证实了惯性传感器在识别日常活动方面的有效性。
现有研究的局限性:
- 关注点单一: 现有研究往往只专注于 HAR 用于活动监测 [8]，或者只专注于 RL 用于外骨骼控制而没有利用实时活动数据 [9]。
- 缺乏集成: 这种两领域独立发展的现状，导致了一个研究空白，即 HAR 和 RL 的集成框架尚未得到充分探索。本文正是旨在弥补这一空白，通过结合 HAR 的活动检测精度和 RL 的控制适应性，为外骨骼优化提供协同框架。
外骨骼评估标准的挑战: 文献 [10] 指出，缺乏标准化的外骨骼性能评估指标，这使得跨研究的比较变得复杂。
个性化控制的需求: 文献 [11] 强调了个性化控制策略的必要性，因为人类生物力学因个体差异而显著不同。

3.3. 技术演进

双足外骨骼的发展从最初的物理增强和康复辅助设备，逐渐演变为更加智能化和自适应的系统。早期外骨骼主要依赖于预设的或手动调整的控制策略，这限制了它们对用户多样化需求和复杂环境的适应性。随着人工智能，特别是强化学习和机器学习技术的发展，研究人员开始探索使用 AI 来训练自适应控制策略，以减少人工干预并提高系统的自主性。同时，可穿戴传感器技术（如惯性测量单元）的进步，使得实时获取用户运动数据并进行人体活动识别成为可能。本文的工作正是沿着这一技术演进路线，将 HAR 和 RL 这两个相对独立的 AI 技术集成起来，以期实现更高级别的外骨骼智能化和个性化控制。

3.4. 差异化分析

本文的方法与相关工作中的主要方法相比，核心区别和创新点在于其集成化和动态适应性：

HAR-RL 的集成: 现有工作的融合与超越
- 许多研究要么单独关注 HAR 来识别活动，要么单独关注 RL 来优化控制。本文通过将 HAR 的预测作为 RL 策略调整的输入，实现了两个领域的紧密耦合。这意味着外骨骼可以实时感知用户的意图（例如，用户是想上楼还是平地行走），并据此动态调整其控制策略，而不是使用单一的、预设的或仅基于当前状态的策略。
减少手动调整与提高自适应性:
- 传统的控制方法（如 PID）或简单的 RL 策略可能需要针对不同活动或不同用户进行大量手动参数调整。本文的 HAR-RL 集成通过提供上下文感知能力，显著减少了这种手动调整的需求，使得外骨骼能够根据识别出的活动类别自动切换或调整其辅助模式。这种自适应能力是静态控制方法无法比拟的。
多目标优化与个性化:
- 奖励函数的设计结合了前进速度、代谢成本和稳定性等多个目标，并且可以根据 HAR 识别的活动进行动态加权调整。例如，在“上楼梯”时更强调稳定性，而在“正常行走”时更强调速度和能效。这种动态权重调整机制使得外骨骼能够提供更个性化和情境化的辅助。

4. 方法论

本研究的方法论分为两个主要组成部分：基于惯性传感器数据的人体活动识别（HAR）和在模拟环境中利用强化学习（RL）对外骨骼控制进行优化。所有方法都详细阐述，以确保结果的可复现性。

4.1. 方法原理

本研究的核心思想是构建一个集成系统，该系统能够通过分析惯性传感器数据（加速度计和陀螺仪）实时识别用户的当前活动（HAR），然后将这些活动识别结果作为输入，动态调整强化学习（RL）控制策略，以优化双足外骨骼的性能。其背后的直觉是，不同的人体活动（如行走、上下楼梯、坐立）对外骨骼的辅助需求是不同的；通过精确识别活动意图，外骨骼可以更智能地调整其输出扭矩、步态模式和稳定性目标，从而实现更高的能源效率、更好的稳定性和更佳的用户舒适度。

整个系统的工作流程可以概括为：

数据采集: 收集用户进行多种活动时的加速度计和陀螺仪原始数据。
HAR 模块: 对原始传感器数据进行预处理（分割、特征提取、归一化），然后利用监督学习模型（SVM、随机森林）对活动进行分类。
RL 优化模块: 在模拟环境中，使用强化学习算法（PPO）训练一个控制策略，该策略旨在最大化一个综合奖励函数，奖励函数考虑前进速度、代谢成本和稳定性。
HAR-RL 集成: 将 HAR 模块的活动预测结果输入到 RL 模块中，用于动态调整 RL 策略的奖励函数或直接作为状态空间的一部分，从而实现情境感知的自适应控制。

4.2. 核心方法详解

4.2.1. 人体活动识别 (HAR)

数据来源与采集: HAR 的数据来自集成的惯性传感器，包括：

三轴加速度计 (triaxial accelerometer): 测量 x、y、z 轴上的线性加速度，表示为 $acc_x$ , $acc_y$ , $acc_z$ 。
三轴陀螺仪 (triaxial gyroscope): 测量 x、y、z 轴上的角速度，表示为 $gyro_x$ , $gyro_y$ , $gyro_z$ 。这些数据是在人类受试者进行五种不同活动时收集的：

正常行走 (normal walking)
上楼梯 (climbing stairs)
下楼梯 (descending stairs)
坐下 (sitting down)
从椅子上站起 (rising from a chair) 采样率为 $50 \ \mathsf { Hz }$ ，每个记录大约持续 30 秒，生成连续的时间序列数据并以 CSV 格式存储。

数据预处理: 原始数据经过预处理以转换为适合分类的格式，包括以下步骤：

分割 (Segmentation): 时间序列数据被分割成固定大小的重叠时间窗。
- 窗大小 $N = 128$ 样本，对应于 $50 \ \mathsf { Hz }$ 采样率下约 2.56 秒的时间段。
- 重叠率为 50%，这有助于捕获活动之间的过渡信息。
- 每个窗口 $W = \{ \omega _ { 1 } , \omega _ { 2 } , \dots , \omega _ { N } \}$ 包含特定通道（例如 $acc_x$ ）的传感器值。
特征提取 (Feature Extraction): 对于每个窗口，计算统计特征以降低维度并提取相关信息。这些特征包括：
- 均值 (Mean): 衡量数据集中数值的中心趋势。 $\mu = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \omega _ { i }$ 其中， $\mu$ 是均值， $N$ 是窗口中的样本数， $\omega _ { i }$ 是窗口中第 $i$ 个样本的传感器值。
- 标准差 (Standard Deviation): 衡量数据点相对于均值的离散程度，反映数据的波动性。 $\sigma = \sqrt { \frac { 1 } { N - 1 } \sum _ { i = 1 } ^ { N } ( \omega _ { i } - \mu ) ^ { 2 } }$ 其中， $\sigma$ 是标准差， $N$ 是样本数， $\omega _ { i }$ 是第 $i$ 个样本值， $\mu$ 是样本均值。
- 均方根 (Effective Value (RMS)): 衡量信号的平均能量或强度。 $R M S = \sqrt { \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \omega _ { i } ^ { 2 } }$ 其中，RMS 是均方根值， $N$ 是样本数， $\omega _ { i }$ 是第 $i$ 个样本值。
- 信号幅值面积 (Signal Magnitude Area (SMA)): 专门用于加速度计数据，表示在给定时间内总的动态活动量。 $S M A = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } ( | a c c _ { x } ( i ) | + | a c c _ { y } ( i ) | + | a c c _ { z } ( i ) | )$ 其中，SMA 是信号幅值面积， $N$ 是窗口中的样本数， $| acc _ { x } ( i ) |$ , $| acc _ { y } ( i ) |$ , $| acc _ { z } ( i ) |$ 分别是第 $i$ 个样本在 x、y、z 轴上的加速度绝对值。这些特征对所有传感器通道（加速度计的 x, y, z 和陀螺仪的 x, y, z，共 6 个通道）进行计算，从而为每个窗口生成一个特征向量 $X = [ f _ { 1 } , f _ { 2 } , \dots , f _ { k } ]$ ，其中 $k$ 是特征总数（例如，如果每个通道使用 4 个特征，则 $k=24$ ）。
归一化 (Normalization): 使用 Z-score 变换对特征进行标准化，以确保所有特征具有相似的尺度，防止某些特征因数值范围较大而主导模型训练。 $x _ { s c a l e d } = \frac { x - \mu _ { t r a i n } } { \sigma _ { t r a i n } }$ 其中，x _ { s c a l e d } 是标准化后的特征值， $x$ 是原始特征值， $\mu _ { t r a i n }$ 和 $\sigma _ { t r a i n }$ 分别是在训练集上计算的特征的均值和标准差。

分类 (Classification): 使用了两种监督分类模型来识别活动：

支持向量机 (Support Vector Machines, SVM):
- SVM 的目标是找到一个最优的超平面 $\omega \cdot x + b = 0$ ，它能最大化地将不同类别的数据点分开。这个最优超平面通过最小化其法向量的 L2 范数（ $\left| \left| \omega \right| \right| ^ { 2 }$ ）来实现，同时满足分类约束。
- 数学表示为：最小化 ${ \scriptstyle { \frac { 1 } { 2 } } } \left| \left| \omega \right| \right| ^ { 2 }$ ，受限于 $y _ { i } ( \omega \cdot x _ { i } + b ) \geq 1$ 。其中， $\omega$ 是超平面的法向量， $b$ 是偏置项，x _ { i } 是第 $i$ 个训练样本的特征向量，y _ { i } 是对应的类别标签（对于二分类通常为 -1 或 1）。
- 对于非线性可分的数据，使用了径向基函数 (Radial Basis Function, RBF) 核 (Kernel)： $K _ { ( x _ { i } , x _ { j } ) } = \exp ( - \gamma | \big | x _ { i } - x _ { j } \big | | ^ { 2 } )$ 其中， $K$ 是核函数，x _ { i } 和 x _ { j } 是两个样本的特征向量， $\gamma$ 是 RBF 核的超参数，通过交叉验证进行调整。RBF 核能够将数据映射到更高维空间，使其在高维空间中线性可分。
随机森林 (Random Forest):
- 该模型训练了一个包含 $T = 100$ 个决策树的集成模型。
- 每棵决策树都在数据的引导样本（bootstrap samples）上进行训练，并且在每个节点分裂时，只考虑特征的一个随机子集，这有助于减少过拟合。
- 最终的预测通过多数投票法给出： $y _ { p r e d } = m o d e ( \{ y _ { 1 } , y _ { 2 } , \dots , y _ { T } \} )$ 其中，y _ { p r e d } 是最终预测类别，mode 函数返回集合中出现次数最多的元素， $\{ y _ { 1 } , y _ { 2 } , \dots , y _ { T } \}$ 是 $T$ 棵决策树各自的预测结果。

训练与测试:

使用 Python 中的 scikit-learn 库（版本 1.2.2）进行训练和测试。
数据集被划分为 70% 用于训练和 30% 用于测试。
train_test_split 函数与分层采样 (stratification) 结合使用，以确保训练集和测试集中各类别分布与原始数据集保持一致。

统计评估 (Statistical Evaluation): 模型性能通过混淆矩阵 (confusion matrix) 派生出的指标进行评估：

准确率 (Accuracy): 所有正确分类样本的比例。 $A c c u r a c y = \frac { \sum T P _ { k } } { N }$ 其中，T P _ { k } 是类别 $k$ 的真正例数（True Positives）， $N$ 是总样本数。
精确率 (Precision): 对于某一类别，被模型预测为该类别的样本中，实际也属于该类别的比例。 $P r e c i s i o n _ { k } = \frac { T P _ { k } } { T P _ { k } + F P _ { k } }$ 其中，F P _ { k } 是类别 $k$ 的假正例数（False Positives）。
召回率 (Recall): 对于某一类别，所有实际属于该类别的样本中，被模型正确识别为该类别的比例。 $R e c a l l _ { k } = \frac { T P _ { k } } { T P _ { k } + F N _ { k } }$ 其中，F N _ { k } 是类别 $k$ 的假反例数（False Negatives）。
F1 分数 (F1 Score): 精确率和召回率的调和平均值，综合衡量模型的准确性。 $F 1 _ { k } = 2 \cdot \frac { P r e c i s i o n _ { k } \cdot R e c a l l _ { k } } { P r e c i s i o n _ { k } + R e c a l l _ { k } }$ 为了评估模型的鲁棒性，还采用了 K 折交叉验证 ( $k=5$ )。

4.2.2. 外骨骼强化学习优化 (Optimization of Exoskeletons through Reinforcement Learning (RL))

强化学习策略的训练在模拟环境中进行。

仿真环境 (Simulation Environment):

Webots (版本 2023a): 一个开源的机器人模拟器，用于建模外骨骼的动力学。它集成了 ODE (Open Dynamics Engine) 物理引擎。外骨骼模型包括髋关节 (hip)、膝关节 (knee) 和踝关节 (ankle)，并模拟了电执行器。
OpenSim (版本 4.4): 生物力学软件，用于模拟人-外骨骼交互。它基于标准的人体肌肉骨骼骨架模型，模拟肌肉力量和关节角度。

RL 配置 (RL Configuration):

算法选择: 选择了近端策略优化 (Proximal Policy Optimization, PPO) 算法来训练控制策略，因为它在连续动作空间中表现出良好的稳定性。
状态空间 (State Space): 状态向量 $S$ $S$ 包含了外骨骼和人体的相关信息，提供给 RL 智能体作为决策依据。
- 关节角度 (joint angles): 髋关节、膝关节、踝关节的角度。
- IMU 数据 (IMU data): 加速度和角速度数据。
- 人-外骨骼界面的交互力 (interaction forces at the human-exoskeleton interface)。
动作空间 (Action Space): 动作向量 $A$ $A$ 表示由外骨骼执行器施加到三个关节（髋、膝、踝）的扭矩。
- 例如： $\tau _ { \mathrm { h i p } } , \tau _ { \mathrm { k n e e } } , \tau _ { \mathrm { a n k l e } }$ 。
奖励函数 (Reward Function): 奖励函数 $R$ $R$ 旨在指导 RL 智能体优化外骨骼控制，它是一个综合了多个性能指标的加权和。 $R = \omega _ { 1 } \cdot v _ { f o r w a r d } - \omega _ { 2 } \cdot E _ { m e t a b o l i c } + \omega _ { 3 } \cdot S _ { s t a b i l i t y }$ 其中：
- v _ { f o r w a r d } 是前进速度 $(\mathsf { m } { \cdot } \mathsf { s } ^ { - 1 })$ ，通常期望最大化。
- E _ { m e t a b o l i c } 是估计的代谢成本 $(\mathsf { J } { \cdot } \mathsf { k } \mathsf { g } ^ { - 1 })$ ，通常期望最小化（因此在奖励函数中带有负号）。
- S _ { s t a b i l i t y } 是基于零力矩点 (ZMP) 在支撑基底中的位置计算出的稳定性裕度 (stability margin)，通常期望最大化。
- $\omega _ { 1 } , \omega _ { 2 } , \omega _ { 3 }$ 是这些参数的权重，它们通过经验进行调整（例如，1.0, 0.5, 0.8），以平衡不同目标的重要性。

训练 (Training):

使用 Python 中的 Stable-Baselines3 库（版本 1.6.0）进行训练。
RL 智能体采用了演员-评论家 (actor-critic) 神经网络架构，该网络具有 2 个隐藏层，每层包含 64 个神经元。
训练过程持续 100 万个训练步 (training steps)。

4.2.3. HAR-RL 集成 (HAR-RL Integration)

动态调整控制策略: HAR 模块的预测结果被用于动态调整 RL 策略。
奖励函数调整: 例如，当检测到用户正在“上楼梯”时，RL 策略的奖励函数可能会更强调稳定性（即增加 $\omega _ { 3 }$ 的权重），以防止跌倒；当检测到用户在“正常行走”时，则可能更强调速度和能源效率（即增加 $\omega _ { 1 }$ 并降低 $\omega _ { 2 }$ 的权重）。
作为状态空间的额外输入: HAR 标签也被作为额外的输入传递到 RL 的状态空间中，使得 RL 智能体能够直接感知当前的活动上下文，从而做出更合适的决策。这种集成模拟了外骨骼如何根据用户意图进行自适应。

5. 实验设置

5.1. 数据集

HAR 数据集: 实验使用的 HAR 数据集是自定义收集的，而非公开数据集。
- 数据来源: 从人类受试者身上收集的惯性传感器数据（三轴加速度计和三轴陀螺仪）。
- 活动类型: 包含五种日常活动：
  1. 正常行走 (normal walking)
  2. 上楼梯 (climbing stairs)
  3. 下楼梯 (descending stairs)
  4. 坐下 (sitting down)
  5. 从椅子上站起 (rising from a chair)
- 采样率: $50 \ \mathsf { Hz }$ 。
- 记录时长: 每段记录大约 30 秒。
- 数据格式: 连续的时间序列数据，以 CSV 格式存储。
RL 仿真环境:
- Webots: 用于建模外骨骼动力学和物理交互。
- OpenSim: 用于模拟人-外骨骼的生物力学交互，包括肌肉力量和关节角度。
数据集选择理由: 尽管没有提供公开数据集，但选择这些活动类型是典型的 HAR 任务，能够涵盖外骨骼在日常生活中可能遇到的主要运动模式。自定义收集数据确保了传感器配置与外骨骼应用场景的紧密关联。

5.2. 评估指标

对论文中出现的每一个评估指标，都将提供其概念定义、数学公式和符号解释。

HAR 系统评估指标:
- 准确率 (Accuracy):
  1. 概念定义: 模型正确预测的样本数占总样本数的比例，用于衡量分类器整体的正确性。
  2. 数学公式: $A c c u r a c y = \frac { \sum _ { k } T P _ { k } } { N }$
  3. 符号解释:
    - T P _ { k }: 类别 $k$ 的真正例（True Positive）数量，即模型正确地将属于类别 $k$ 的样本预测为类别 $k$ 的数量。
    - $N$ : 总样本数量。
- 精确率 (Precision):
  1. 概念定义: 对于某一特定类别 $k$ ，所有被模型预测为该类别的样本中，实际也属于该类别 $k$ 的样本所占的比例。它衡量了模型预测为正例的准确性。
  2. 数学公式: $P r e c i s i o n _ { k } = \frac { T P _ { k } } { T P _ { k } + F P _ { k } }$
  3. 符号解释:
    - T P _ { k }: 类别 $k$ 的真正例数量。
    - F P _ { k }: 类别 $k$ 的假正例（False Positive）数量，即模型错误地将不属于类别 $k$ 的样本预测为类别 $k$ 的数量。
- 召回率 (Recall):
  1. 概念定义: 对于某一特定类别 $k$ ，所有实际属于该类别 $k$ 的样本中，被模型正确识别为该类别 $k$ 的样本所占的比例。它衡量了模型识别出所有正例的能力。
  2. 数学公式: $R e c a l l _ { k } = \frac { T P _ { k } } { T P _ { k } + F N _ { k } }$
  3. 符号解释:
    - T P _ { k }: 类别 $k$ 的真正例数量。
    - F N _ { k }: 类别 $k$ 的假反例（False Negative）数量，即模型错误地将属于类别 $k$ 的样本预测为不属于类别 $k$ 的数量。
- F1 分数 (F1 Score):
  1. 概念定义: 精确率和召回率的调和平均值，是综合衡量分类器性能的指标。当精确率和召回率都很高时，F1 分数也高。
  2. 数学公式: $F 1 _ { k } = 2 \cdot \frac { P r e c i s i o n _ { k } \cdot R e c a l l _ { k } } { P r e c i s i o n _ { k } + R e c a l l _ { k } }$
  3. 符号解释:
    - P r e c i s i o n _ { k }: 类别 $k$ 的精确率。
    - R e c a l l _ { k }: 类别 $k$ 的召回率。
RL 优化评估指标:
- 速度 (Speed): 外骨骼辅助下用户的移动速度，通常以米/秒 $(\mathsf { m } { \cdot } \mathsf { s } ^ { - 1 })$ 为单位。期望通过优化提高速度。
- 代谢成本 (Metabolic Cost): 外骨骼辅助下用户身体的能量消耗，通常以焦耳/千克 $(\mathsf { J } { \cdot } \mathsf { k } \mathsf { g } ^ { - 1 })$ 为单位。期望通过优化降低代谢成本。
- 稳定性 (Stability): 衡量外骨骼在运动过程中的平衡性，通常通过零力矩点 (ZMP) 偏离支撑中心的距离来量化，单位为厘米 $(\mathsf { cm })$ 。期望通过优化提高稳定性，减少 ZMP 偏差。
- 肌肉努力 (Muscle Effort): 在 OpenSim 模拟中，通过测量特定肌肉（如股四头肌）的力 $(\mathsf { N })$ 来评估。降低肌肉努力意味着减轻用户负担。
- 踝部冲击力 (Ankle Impact): 在 OpenSim 模拟中，测量踝关节受到的冲击力 $(\mathsf { N })$ 。降低冲击力有助于提高用户舒适度并减少受伤风险。
- 适应时间 (Adaptation Time): 外骨骼从识别到新的活动到相应调整控制策略所需的时间，单位为秒 $(\mathsf { s })$ 。期望通过 HAR-RL 集成显著缩短此时间。

5.3. 对比基线

HAR 模型的对比:
- 支持向量机 (SVM) (Support Vector Machines): 作为主要的监督学习分类器。
- 随机森林 (Random Forest): 作为另一种常用的监督学习分类器，用于与 SVM 进行性能比较。
外骨骼控制策略的对比:
- 强化学习 (RL) 策略 (Reinforcement Learning (RL) Policy): 本文提出的基于 PPO 算法的控制策略。
- 传统 PID 控制器 (Traditional PID Controller): 作为 RL 策略的基线，用于比较在代谢成本、速度和稳定性等方面的性能。

6. 实验结果与分析

本节展示了人体活动识别 (HAR) 和使用强化学习 (RL) 优化外骨骼控制所获得的实验结果。

6.1. 核心结果分析

6.1.1. HAR 系统性能

总体分类准确率: 采用 RBF 核的 SVM 模型在测试集上实现了 92% 的总体准确率，而随机森林模型则达到了 91%。这表明两种监督学习模型都表现出较高的分类性能。
按活动类别性能: 下表（原文 Table 1）详细展示了 SVM 模型在各个活动类别上的精确率、召回率和 F1 分数。
- 正常行走 (Normal walking) 的分类准确率最高（F1 分数为 0.94），这可能是因为其传感器信号具有较高的一致性和规律性。
- 坐下 (Sitting on a chair) 和 从椅子上站起 (Getting up from a chair) 的召回率略低（分别为 88% 和 87%），这表明模型在这两类活动之间存在轻微混淆，可能是由于它们的运动动态相似。

模型鲁棒性: 5 折交叉验证 (k=5) 证实了模型的鲁棒性，准确率的标准差为 $\pm 2 \%$ ，表明模型对未见过的数据具有良好的泛化能力。

以下是原文 Table 1 的结果：

Activity	Precision	Recall	F1 Score
Normal walking	0.95	0.94	0.94
Climbing the stairs	0.93	0.91	0.92
Went down the stairs	0.91	0.90	0.91
Sitting on a chair	0.90	0.88	0.89
Getting up from a chair	0.89	0.87	0.88

通道分析: 加速度计对分类的贡献大于陀螺仪。例如，从加速度计数据计算的 SMA (信号幅值面积) 特征与动态活动（如正常行走）的相关性更高，其值约为 $12.5 \pm 1.2 \ \mathsf { m } \cdot \mathsf { s } ^ { - 2 }$ ，而陀螺仪的 RMS 值约为 $1.8 \pm 0.3 \ \mathsf { rad } \cdot \mathsf { s } ^ { - 1 }$ 。
混淆矩阵分析 (Figure 1): 下图（原文 Figure 1）展示了 SVM 分类的混淆矩阵。原文描述中特别指出，该图展示的是一种“理想化分类（对角线值为 1）”，这意味着所有活动都被完美分类。然而，原文也说明“在实践中，‘坐下’和‘从椅子上站起’之间的混淆会显示为非零的非对角线值”，这暗示实际结果并非如图所示的完美分类。这可能意味着 Figure 1 是一个概念性图示，而非真实测试结果的精确表示，或者表示的是模型在特定理想条件下的理论表现。这提示未来研究中，展示实际混淆矩阵将更有助于理解模型在混淆类别上的具体表现。

该图像是论文中用于展示基于支持向量机（SVM）的人体活动识别（HAR）分类结果的混淆矩阵，显示各类活动的分类准确率，类别包括爬楼、下楼、起身、坐下和行走。

Figure 1. Confusion matrix for HAR classification with SVM.

窗口大小对性能的影响 (Table 2): 对分割窗口大小的额外测试表明，窗口大小对 HAR 性能和计算成本有显著影响。
- 当窗口大小 $N = 64$ 样本（1.28 秒）时，准确率降至 89%，但处理时间减少了 30%。
- 当窗口大小 $N = 256$ 样本（5.12 秒）时，准确率提高到 93%，但计算成本更高。这说明在准确率和处理时间之间存在一个权衡，选择 $N=128$ （92% 准确率，0.22 秒处理时间）是一个在两者之间取得平衡的决策。

以下是原文 Table 2 的结果：

Window size (samples)	Accuracy	Processing time (s)
64	0.89	0.15 ± 0.02
128	0.92	0.22 ± 0.03
256	0.93	0.35 ± 0.04

SVM 模型训练过程 (Figure 2 和 Figure 3): 下图（原文 Figure 2）显示了 SVM 模型在 20 个训练周期 (epochs) 中的准确率变化。
- 训练准确率（蓝线）迅速增加，在 5 个周期后达到 0.9，并稳定在 0.95。
- 验证准确率（橙线）稳定在 0.92。训练准确率高于验证准确率，这表明模型存在轻微的过拟合 (overfitting) 现象，即模型在训练数据上表现优异，但在未见过的数据上性能略有下降。
  
  该图像是图表，展示了论文中SVM模型训练过程中训练准确率和验证准确率随训练周期（Epoch）变化的趋势，反映模型性能的提升。

Figure 2. Evolution of SVM Model Accuracy During Training.

下图（原文 Figure 3）显示了 SVM 模型在相同训练周期内的损失变化。
*   训练损失（蓝线）和验证损失（橙线）均稳步下降，从初始值 1.5 降至最终值 0.2。
    损失的持续下降表明模型在学习过程中有效减少了分类误差，并最终收敛。

    ![Figure 3. Evolution of SVM Model Loss During Training.](/files/papers/690214ed84ecf5fffe471893/images/3.jpg)
    *该图像是图表，展示了论文中SVM模型训练过程的损失变化，横轴为训练轮次（Epoch），纵轴为损失值（Loss），包括训练损失和验证损失，显示随着训练进行，损失逐渐下降，表明模型性能提升。*

Figure 3. Evolution of SVM Model Loss During Training.

6.1.2. RL 优化性能

代谢成本降低: 在模拟的 正常行走 (normal walking) 轨迹中，通过 PPO 训练的 RL 策略将估计的代谢成本相对于传统 PID 控制器降低了 15%。
性能对比 (Table 3): 下表（原文 Table 3）比较了 RL 和 PID 控制器在平均速度、代谢成本和稳定性方面的性能。
- RL 策略在实现更高速度 ( $1.2 \pm 0.1 \ \mathsf { m } \cdot \mathsf { s } ^ { - 1 }$ vs. $1.1 \pm 0.1 \ \mathsf { m } \cdot \mathsf { s } ^ { - 1 }$ ) 的同时，显著降低了代谢成本 ( $5.1 \pm 0.3 \ \mathsf { J } \cdot \mathsf { k } \mathsf { g } ^ { - 1 }$ vs. $6.0 \pm 0.4 \ \mathsf { J } \cdot \mathsf { k } \mathsf { g } ^ { - 1 }$ )。
- RL 策略也展现出更好的稳定性 ( $4.5 \pm 0.2 \ \mathsf { cm }$ vs. $4.0 \pm 0.3 \ \mathsf { cm }$ )。
  
  以下是原文 Table 3 的结果：
  
  Prosody RL (PPO) PID
  
  Speed (m·s-1) 1.2 ± 0.1 1.1 ± 0.1
  
  Metabolic cost (J·kg-1) 5.1 ± 0.3 6.0 ± 0.4
  
  Stability (cm) 4.5 ± 0.2 4.0 ± 0.3
HAR 动态调整: HAR 预测的集成使得控制策略能够动态调整。
- 对于 上楼梯 (stair climbing)，RL 策略通过将稳定性提高了 10%（ $S _ { \mathsf { s t a b i l i t y } } { = } 4 . 9 { \pm } 0 . 2 \mathsf { c m }$ ），降低了跌倒风险。
- 对于 正常行走 (normal walking)，速度提高了 8%（ $v _ { \mathsf { f o r w a r d } } { = } 1 . 3 { \pm } 0 . 1 \mathsf { m } { \cdot } \mathsf { s } ^ { - 1 }$ ），优化了能源效率。
复杂地形适应性: 在可变地形（例如 5° 斜坡）上，RL 比 PID 更好地保持了稳定性，将 ZMP 偏差降低了 12%（从 $3.5 \ \mathsf { cm }$ 降至 $3.1 \ \mathsf { cm }$ ）。
OpenSim 验证: 在 OpenSim 中的测试证实了肌肉努力的减少：
- 平均股四头肌 (quadriceps muscle) 力量从 $250 \pm 20 \ \mathsf { N }$ （PID 控制器）降低到 $210 \pm 15 \ \mathsf { N }$ （RL 策略），这相当于约 16% 的下降。
- 在 下楼梯 (stair descending) 时，RL 策略将踝关节冲击力降低了 18%（从 $300 \ \mathsf { N }$ 降至 $246 \ \mathsf { N }$ ），从而提高了模拟中的舒适度。

6.1.3. HAR-RL 集成

适应时间显著缩短: HAR-RL 集成将外骨骼对活动变化的适应时间从没有 HAR 时的 1.2 秒缩短到 0.5 秒。

集成性能提升 (Table 4): 下表（原文 Table 4）展示了 HAR-RL 集成对外骨骼在 正常行走 和 上楼梯 两种活动中速度、代谢成本和稳定性的影响。

在 正常行走 中，与纯 RL 相比，HAR-RL 集成进一步提高了速度（从 $1.2 \pm 0.1 \ \mathsf { m } \cdot \mathsf { s } ^ { - 1 }$ 到 $1.3 \pm 0.1 \ \mathsf { m } \cdot \mathsf { s } ^ { - 1 }$ ），并略微降低了代谢成本（从 $5.1 \pm 0.3 \ \mathsf { J } \cdot \mathsf { k } \mathsf { g } ^ { - 1 }$ 到 $4.9 \pm 0.2 \ \mathsf { J } \cdot \mathsf { k } \mathsf { g } ^ { - 1 }$ ）。

在 上楼梯 中，HAR-RL 也带来了速度的提升和代谢成本的降低，同时保持了高稳定性。

以下是原文 Table 4 的结果：

Activity	Speed (m·s-1)	Metabolic cost (J·kg-1)	Stability (cm)
Normal walking (RL)	1.2 ± 0.1	5.1 ± 0.3	4.5 ± 0.2
Normal walking (HAR-RL)	1.3 ± 0.1	4.9 ± 0.2	4.6 ± 0.2
Climbed the stairs (RL)	0.8 ± 0.1	6.5 ± 0.4	4.7 ± 0.2
Climbed the stairs (HAR-RL)	0.9 ± 0.1	6.2 ± 0.3	4.9 ± 0.2

6.2. 数据呈现 (表格)

本章节已将原文中所有表格完整转录至对应的小节中。

6.3. 消融实验/参数分析

论文中没有明确提到“消融实验 (Ablation Study)”这一术语，但对窗口大小 (Window size) 对 HAR 性能的影响进行了分析（如 Table 2 所示）。这可以看作是一种参数敏感性分析，旨在评估 HAR 预处理中关键参数对模型性能和计算效率的权衡。结果表明，选择合适的窗口大小可以在分类准确率和处理时间之间达到一个平衡点，这对于实时 HAR 应用至关重要。

7. 总结与思考

7.1. 结论总结

本研究成功地展示了将人体活动识别 (HAR) 与强化学习 (RL) 相结合，能够为双足外骨骼提供一个高效的控制优化框架。

高精度 HAR 系统: 开发的 HAR 系统基于惯性传感器数据，实现了 92% 的高分类准确率，能够精准识别正常行走、上下楼梯、坐下和站起等多种活动。
显著的 RL 优化效果: 相较于传统的 PID 控制器，强化学习优化将估计的代谢成本降低了 15%，同时在外骨骼辅助下，正常行走速度提高了 8%，稳定性提高了 10%。在复杂地形下，RL 表现出更好的 ZMP 偏差控制。
HAR-RL 集成优势: HAR-RL 集成显著缩短了外骨骼对活动变化的适应时间，从 1.2 秒降至 0.5 秒，这对外骨骼的实时响应能力是一个重大改进。此外，在生物力学模拟中，RL 策略显示出股四头肌肌肉力量降低 16%，踝关节冲击力降低 18%，从而提升了用户舒适度和安全性。
减少人工干预: 这种集成方法减少了对外骨骼控制进行手动调整的依赖，使其能够更智能、更自适应地响应用户的不同活动意图。这些发现为康复医学（加速患者恢复）和物理增强（提高工业效率）等实际应用领域提供了重要的支持。

7.2. 局限性与未来工作

局限性:

HAR 训练数据依赖: HAR 系统的性能高度依赖于训练数据的质量和多样性。由于训练数据来源于有限数量的受试者，可能引入偏差，限制了模型对更广泛人群的泛化能力。
RL 模拟环境与现实差距: 强化学习优化主要在模拟环境（Webots 和 OpenSim）中进行。模拟环境虽然能有效降低风险和成本，但无法完全重现现实世界的复杂条件（例如，不规则地形、不可预测的外部扰动、传感器噪声和延迟），这可能导致模拟结果与实际部署效果存在差异。
实时处理计算资源需求: 实时处理 HAR 数据并执行复杂的 RL 控制策略需要大量的计算资源，这可能会限制其在功耗和计算能力受限的可穿戴设备上的实际应用。
HAR 模型混淆: 尽管总体准确率高，但“坐下”和“从椅子上站起”等活动之间仍存在混淆，这表明当前使用的简单统计特征可能不足以完全区分这些动态相似的活动。

未来工作:

扩展数据集: 增加训练 HAR 系统的数据集规模和多样性，包括更多受试者、不同年龄、体型和运动习惯的人群，以及更广泛的活动类型和环境条件，以提高模型的泛化能力和鲁棒性。
真实世界测试: 将 HAR-RL 集成框架在真实的外骨骼设备上进行测试，以验证其在实际应用中的性能、鲁棒性和安全性，并解决模拟与现实之间的差距。
引入深度学习: 探索使用深度学习（如卷积神经网络 CNN 或循环神经网络 RNN）来处理 HAR 任务。深度学习模型可以直接从原始传感器数据中学习更高级、更抽象的特征，有望进一步提高分类准确率，并更好地处理动态相似活动之间的混淆。
优化计算效率: 研究更高效的 HAR 和 RL 算法，或采用边缘计算和模型压缩技术，以降低实时处理的计算资源需求，使其更适用于可穿戴设备。

7.3. 个人启发与批判

个人启发: 这篇论文提供了一个非常清晰且实用的框架，展示了如何通过将两个关键的 AI 技术——人体活动识别 (HAR) 和强化学习 (RL)——进行集成，来解决复杂机器人系统（如双足外骨骼）的自适应控制问题。这种集成思路具有很强的通用性，可以启发其他领域的研究，例如：

智能家居: 通过 HAR 识别用户活动，然后用 RL 优化智能家居设备的运行（如灯光、空调、机器人吸尘器）。
智能驾驶: HAR 识别驾驶员状态（疲劳、分心），RL 优化辅助驾驶系统以提供更安全、个性化的干预。
协作机器人: 机器人通过 HAR 感知人类操作员的意图，RL 优化协作策略以提高人机协作效率和安全性。特别是在外骨骼领域，减少代谢成本和提高稳定性，对于康复患者和体力劳动者而言，是巨大的福音。HAR-RL 集成所实现的快速适应性，是迈向真正“智能”外骨骼的关键一步。

批判性思考:

Figure 1 的“理想化分类”: 论文中 Figure 1 的混淆矩阵被描述为“理想化分类（对角线值为 1）”，这与实际报道的 92% 准确率和“坐下”/“站起”之间的混淆存在明显矛盾。如果这是概念图，应该更明确地标注；如果是实际结果，那么 92% 的准确率是如何通过所有对角线为 1 的矩阵得出的，需要进一步解释。这种呈现方式可能会误导初学者。对于严谨的学术论文，应展示真实的混淆矩阵以反映模型的实际性能，包括其不足之处。
HAR 数据集规模的潜在影响: 论文提到 HAR 数据来自“人类受试者”，但没有提供具体的受试者数量。在“局限性”中也提到了“训练数据可能因有限的受试者数量而引入偏差”。对于 HAR 而言，数据集的多样性（年龄、性别、身高、体重、运动习惯等）对模型的泛化能力至关重要。如果受试者数量过少，即使在测试集上取得了高准确率，也可能难以推广到更广泛的用户群体。未来的工作应详细说明数据集的构成。
奖励函数权重 ( $\omega _ { 1 } , \omega _ { 2 } , \omega _ { 3 }$ ) 的经验调整: 论文提到奖励函数中的权重是“经验调整”的。虽然这是 RL 研究中常见的做法，但缺乏更系统性的权重敏感性分析或自适应权重调整机制，可能会限制 RL 策略的最优性或对不同用户/场景的泛化能力。未来的研究可以探索元学习或多目标优化方法来自动学习或调整这些权重。
计算成本的细节缺乏: 论文在“局限性”中提到了实时处理 HAR 数据需要“大型计算资源”。但没有提供具体的计算成本数据（如模型的参数量、推理时间、内存占用等）。对于可穿戴设备而言，功耗和计算资源是核心约束，未来工作需要量化这些成本，并探索如何在资源受限的环境中部署和运行集成系统。
实际设备部署的挑战: 尽管在模拟环境中取得了显著成果，但从模拟到真实外骨骼设备的部署往往充满挑战。例如，传感器噪声、执行器动力学不准确、人机交互的复杂性以及安全保障等问题都需要在真实环境中进行严格测试和解决。论文中提到未来方向包括“真实世界测试”，这是非常关键的一步。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Prosody	RL (PPO)	PID
Speed (m·s-1)	1.2 ± 0.1	1.1 ± 0.1
Metabolic cost (J·kg-1)	5.1 ± 0.3	6.0 ± 0.4
Stability (cm)	4.5 ± 0.2	4.0 ± 0.3