1. 论文基本信息

1.1. 标题

机器人计算系统与具身人工智能的演进：一种算法-硬件协同设计视角 (Robotic computing system and embodied AI evolution: an algorithm-hardware co-design perspective)

1.2. 作者

Longke Yan, Xin Zhao, Bohan Yang, Yongkun Wu, Guangnan Dai, Jiancong Li, Chi-Ying Tsui, Kwang-Ting Cheng, Yihan Zhang, and Fengbin Tu

隶属机构：

AI Chip Center for Emerging Smart Systems (ACCESS), Hong Kong, China (香港新兴智能系统人工智能芯片中心)
The Hong Kong University of Science and Technology, Hong Kong, China (香港科技大学) (通过Fengbin Tu的作者简介推断)

1.3. 发表期刊/会议

Journal of Semiconductors. 2025, 46(10,10120. (半导体学报)

1.4. 发表年份

2025年

1.5. 摘要

所提供的PDF首页文本中缺少摘要信息。

1.6. 原文链接

/files/papers/69293dc1ba903910b6a9733b/paper.pdf 该链接为相对路径。根据发布信息，论文发布于 Journal of Semiconductors，表明其已正式发表。

2. 整体概括

2.1. 研究背景与动机

核心问题： 机器人技术在过去几十年取得了显著进步，但现代机器人系统（特别是具身人工智能，Embodied AI）面临的挑战是如何在保证高智能和高准确性的同时，平衡系统指标如准确性 (accuracy)、延迟 (latency) 和功耗 (power consumption)。当前的通用计算硬件 (general-purpose computing hardware)（如 CPU (中央处理器) 和 GPU (图形处理器)）虽然功能广泛，但往往难以满足机器人应用严格的实时性 (real-time) 和能效 (energy-efficiency) 要求。例如，先进的运动规划算法 $RRT*$ (Rapidly-exploring Random Tree Star) 在 CPU 上可能需要数秒才能收敛，而 GPU 虽能加速至毫秒级，却消耗数百瓦，不适用于移动机器人。随着具身人工智能 (Embodied AI) 的兴起，大型模型（通常包含数十亿参数）对计算资源和数据吞吐量的巨大需求，进一步加剧了这一性能-效率差距 (performance-efficiency gap)，尤其是在边缘侧 (at the edge)。

重要性： 机器人系统是物理实体与智能代理的结合，其计算系统是连接感知数据与机器人动作的关键。随着算法复杂性和智能水平的提高，对硬件性能和效率的需求也急剧增加。无法满足这些需求将阻碍机器人技术在现实世界中的广泛部署，特别是在功耗和体积受限的移动平台。

切入点/创新思路： 论文认为，开发专门的机器人计算硬件 (specialized robotics-specific computing hardware) 是实现实时、节能操作的关键。解决这一挑战的主要方法 (primary methodology) 是算法-硬件协同设计 (algorithm-hardware co-design)。这种方法通过分析算法在硬件上的计算行为，并通过算法优化和硬件创新来协同提升系统性能。

2.2. 核心贡献/主要发现

全面综述 (Comprehensive Overview)： 提供了对传统机器人学 (traditional robotics) 算法（感知、任务规划、运动规划、动作映射、控制）及其专用硬件 (specialized hardware) 的全面回顾。
具身人工智能演进分析 (Embodied AI Evolution Analysis)： 详细探讨了具身人工智能 (Embodied AI) 的发展，并将其演进总结为一个三步路线图 (three-step roadmap)：从传统机器人学，到分层模型 (hierarchical model)，最终走向端到端模型 (end-to-end model)。
算法-硬件协同设计视角 (Algorithm-Hardware Co-Design Perspective)： 强调了算法-硬件协同设计 (algorithm-hardware co-design) 作为弥合机器人系统性能与效率差距的核心方法论，通过分析算法的并行性 (parallelism)、局部性 (locality)、稀疏性 (sparsity) 和相似性 (similarity) 等固有属性来指导算法优化和硬件创新。
具身人工智能硬件加速分析 (Embodied AI Hardware Acceleration Analysis)： 针对具身人工智能中的基本算法（Transformer、3D 重建 和 扩散模型）的计算瓶颈，综述了相关的硬件加速器工作。
未来展望与挑战 (Future Outlook and Challenges)： 分析了由算法和硬件进步带来的新挑战，并提出了一个三层技术堆栈 (three-layer technology stack) 的未来研究视角，以及在软件工具链 (software toolchain)、硬件架构 (hardware architecture) 和算法利用新兴硬件特性 (algorithms exploiting hardware features) 方面的机会。

3. 预备知识与相关工作

3.1. 基础概念

机器人计算系统 (Robotic computing system): 指集成智能机器人算法及其支持硬件的系统，旨在连接传感器数据与机器人动作，实现所需功能并决定系统性能（如准确性和延迟）。
具身人工智能 (Embodied AI): 这是一个新兴领域，结合了机器人学和人工智能，旨在通过数据驱动的 AI (人工智能) 模型，使机器人能够处理自然模态（如语言和复杂视觉场景），并执行日益智能化的任务，实现比传统机器人更高的灵巧性和泛化能力。
算法-硬件协同设计 (Algorithm-hardware co-design): 一种设计方法论，通过分析算法在硬件上的计算行为，并同时优化算法和创新硬件，以实现系统级别的性能和效率提升。
CPU (Central Processing Unit，中央处理器): 计算机中执行指令、处理数据和执行计算的核心组件。作为通用处理器，它具有很强的灵活性，但通常不擅长并行计算，在处理大规模数据时能效较低。
GPU (Graphics Processing Unit，图形处理器): 最初用于图形渲染，但因其大规模并行计算能力，现广泛用于加速深度学习等计算密集型任务。虽然计算速度快，但通常功耗较高。
FPGA (Field-Programmable Gate Array，现场可编程门阵列): 一种可编程逻辑器件，允许用户在硬件层面配置电路，实现高度定制化的并行计算，提供比 CPU 和 GPU 更高的能效和实时性，但开发难度较大。
ASIC (Application-Specific Integrated Circuit，专用集成电路): 针对特定应用设计的集成电路，能提供最高的性能和能效，但开发成本高、周期长，且一旦制造完成就无法修改。
SoC (System-on-Chip，系统级芯片): 将计算机或其他电子系统所需的所有组件集成到单个芯片上，通常包括 CPU、GPU、内存、ISP (图像信号处理器) 和专用加速器等。
延迟 (Latency): 从输入到输出的时间间隔，在机器人领域特指从感知到行动的响应时间，对实时性要求高的任务至关重要。
功耗 (Power consumption): 系统运行过程中消耗的电能，对于移动机器人、无人机等电池供电系统来说是严格的限制。
能效 (Energy efficiency): 单位功耗下完成的计算量，衡量系统在消耗给定能量时能执行多少任务。
并行性 (Parallelism): 算法或任务中可以同时执行的独立计算部分。
局部性 (Locality): 算法在短时间内访问的数据或指令在内存中的聚集程度，良好的局部性有助于提高缓存命中率，减少内存访问延迟。
稀疏性 (Sparsity): 数据中大量元素为零或不重要的特性，可以通过跳过这些元素的计算来提高效率。
相似性 (Similarity): 数据或计算模式中存在的重复或可复用部分，可以用于数据压缩或计算复用。
Transformer (Transformer模型): 一种基于自注意力 (self-attention) 机制的神经网络架构，在自然语言处理 (NLP) 和计算机视觉 (CV) 任务中表现出色，尤其擅长处理长序列数据。
扩散模型 (Diffusion Models): 一类生成模型，通过学习将噪声逐渐从数据中去除的过程来生成高质量的样本（如图像），在图像生成和多模态数据建模中取得显著成果。
LLMs (Large Language Models，大语言模型): 拥有数亿乃至数千亿参数的语言模型，能够理解、生成人类语言，并执行复杂的文本任务，如问答、摘要和规划。
VLMs (Vision-Language Models，视觉-语言模型): 能够同时处理视觉信息（如图像）和语言信息的多模态模型，实现跨模态的理解和推理。
DOF (Degrees of Freedom，自由度): 描述机器人或其关节运动能力的独立参数数量，例如一个机器臂的 6 DOF 表示它可以在三维空间中进行平移和旋转。

3.2. 前人工作

论文回顾了从传统机器人学到具身人工智能的关键发展，主要体现在以下几个方面：

传统机器人系统：
- 医疗保健： 达芬奇手术系统 (da Vinci Surgical System) 等手术机器人实现了微创手术的精准操作。
- 制造业： 协作机器人 (cobots) 在工厂中提高生产力、安全性和灵活性。
- 感知： 机器人计算机视觉技术（如 Faster R-CNN、YOLO 系列）使得机器人能够解释复杂的相机数据，超越传统依赖内部传感器的局限。
- 运动规划： RRT 及其变体 $RRT*$ 逐渐取代了 Dijkstra 和 $A*$ 等经典方法，特别是在高自由度机器人中。
- 动作任务： MPC (Model Predictive Control，模型预测控制) 在四足机器人步态等任务中表现优异，超越了传统的 PID (Proportional-Integral-Derivative，比例-积分-微分) 控制。
具身人工智能的兴起：
- 数据驱动 AI 模型： 融合了机器人学和 AI，利用数据驱动的 AI 模型处理自然模态，执行更智能的任务。
- Transformer 和 扩散模型： 自2022年以来，这些模型被集成到动作执行模型 (action execution models) 中，以实现更灵巧的操作（如双臂协调，参考文献 [6-8]）。
- LLM (大语言模型)： 自2023年以来，ChatGPT 等 LLM 的出现为机器人带来了自然语言理解和长序列处理能力，催生了多模态感知和长周期规划 (long-horizon planning) 的认知规划模型 (cognitive planning models)（参考文献 [9, 10]）。
- 分层模型： 最近的趋势是将认知规划模型（高层）和动作执行模型（低层）集成到分层模型中（参考文献 [11-14]），例如 Figure 的 Helix。
- 端到端模型： 同时，研究人员也在探索端到端模型 (end-to-end models)，通常涉及视觉-语言-动作 (Vision-Language-Action, VLA) 架构，通过在大型具身数据集上微调来处理多模态数据（参考文献 [15-18]）。
算法-硬件协同设计实践：
- Navion (Suleiman et al.)： 一个用于纳米无人机自主导航的 VIO (Visual-Inertial Odometry，视觉惯性里程计) 加速器，通过数据稀疏性减少内存需求，实现片上集成。
- Wang (2022)： 利用 Transformer 中的渐进稀疏性推测注意力输出模式，跳过不必要的计算。
- Li et al. (2017)： 利用立体匹配中的数据并行性设计流水线架构，并开发超带宽 SRAM (Static Random Access Memory，静态随机存取存储器) 以利用独特的内存访问特性。
- Tu et al. (2022)： 设计了 Transformer 加速器，利用注意力机制的稀疏性，通过稀疏注意力调度器和片上转置功能减少数据移动和功耗。

3.3. 技术演进

论文描绘了机器人技术从传统、模型驱动的方法向现代、数据驱动的具身人工智能的演进路径。

传统机器人学 (Traditional Robotics)： 起初依赖精确的机器人模型和环境模型，任务通常需要手动编程。算法如 $A*$ 、PID 控制、传统计算机视觉技术（如特征工程）等。硬件多为 MCU (Microcontroller Unit，微控制器单元) 或通用 CPU，专注于特定、结构化环境下的任务。
现代机器人学（向 AI 融合）： 引入了更先进的算法，如 $RRT*$ 、MPC、CNN (Convolutional Neural Network，卷积神经网络) 驱动的感知（如 RCNN、YOLO、UNet），开始处理更复杂的任务和非结构化环境。对计算能力的需求增加，GPU 开始被用于加速某些环节。
具身人工智能 (Embodied AI)： 这是一个关键的范式转变，核心在于利用大规模数据驱动的 AI 模型，特别是 Transformer、扩散模型、LLMs 和 VLMs。目标是实现机器人对自然语言和复杂视觉场景的理解，以及长周期规划 (long-horizon planning) 和灵巧动作 (dexterous actions)。
- 分层模型 (Hierarchical Model)： 作为过渡阶段，高层采用强大的 LLM/VLM 进行认知规划，低层采用更紧凑、快速的 Transformer/扩散模型 进行动作执行。例如 Figure 的 Helix、NVIDIA 的 GR00T N1。
- 端到端模型 (End-to-End Model)： 最终目标是将感知、规划和行动整合到一个统一的模型中，实现通用型机器人的最高智能和泛化能力。例如 RT-2、OpenVLA。
  
  在这一演进过程中，算法-硬件协同设计 (algorithm-hardware co-design) 从一开始就扮演了关键角色，通过不断优化算法以适应硬件特性（如并行性、稀疏性），并设计专用硬件来高效执行这些算法，从而克服通用硬件的局限性，确保系统在性能、延迟和能效之间达到平衡。

3.4. 差异化分析

本文作为一篇综述，其核心差异化在于：

覆盖范围广： 全面涵盖了从传统机器人学 (traditional robotics) 到具身人工智能 (embodied AI) 的算法与硬件演进，提供了连贯的技术发展脉络。许多综述可能只关注其中一个方面。
强调算法-硬件协同设计： 论文将算法-硬件协同设计 (algorithm-hardware co-design) 作为贯穿始终的分析视角，系统地探讨了如何通过利用算法的固有特性（如并行性、稀疏性、局部性、相似性）和硬件创新来解决机器人计算系统面临的性能-效率挑战。这使得论文不仅仅是简单地罗列算法和硬件，而是深入分析两者之间的相互促进关系。
具身人工智能路线图： 明确提出了具身人工智能 (Embodied AI) 的三步演进路线图 (three-step roadmap)（分层模型和端到端模型），并在此框架下讨论了相关算法和硬件，为理解该领域的未来发展提供了清晰的指导。
未来挑战与机遇： 论文不仅总结了现状，更深入探讨了摩尔定律 (Moore's Law) 放缓背景下新兴硬件技术（如 3D IC (三维集成电路)、Chiplet (芯粒)、CIM (存内计算)）带来的挑战与机遇，并提出了一个三层技术堆栈 (three-layer technology stack) 的未来研究方向，为研究人员提供了具体的探索路径。

4. 方法论

本文作为一篇综述，其“方法论”体现在其对机器人计算系统和具身人工智能演进的分析框架上，特别是如何从算法-硬件协同设计 (algorithm-hardware co-design) 的视角进行结构化剖析。核心在于将复杂的机器人功能分解为不同的算法模块，并针对这些模块讨论相应的硬件加速技术。

4.1. 算法-硬件协同设计原理

算法-硬件协同设计 (Algorithm-hardware co-design) 的核心思想是通过同时优化算法和创新硬件来获得显著的系统级效益。其基本原理是：

分析算法计算行为： 深入分析算法在硬件上的计算行为，识别其固有的计算属性，例如：
- 并行性 (Parallelism): 算法中可以同时执行的独立计算任务。
- 局部性 (Locality): 算法在短时间内对内存中相邻数据或同一数据的重复访问。
- 稀疏性 (Sparsity): 数据中存在大量不需计算的零值或不重要值。
- 相似性 (Similarity): 数据或计算模式中的重复结构或可复用模式。
算法优化： 在算法层面进行改进，以更好地利用这些固有属性，从而减少计算和存储复杂度，并为硬件支持创造更多机会。
- 示例： 利用数据对称稀疏模式减少内存需求，消除昂贵的片外内存访问（如 Suleiman et al. 的工作）。
硬件创新： 根据算法属性和优化需求，在硬件层面进行架构和电路设计创新。
- 示例： 利用数据并行性设计深度流水线架构，或利用独特的内存访问特性开发超带宽 SRAM (Static Random Access Memory，静态随机存取存储器)（如 Li et al. 的工作）。
  
  通过这种双向优化，算法-硬件协同设计能够确保机器人计算系统在性能、能效和实时性之间达到理想的平衡。

下图（原文 Figure 2）展示了机器人计算系统与具身人工智能进化中的算法与硬件协同设计：

该图像是一个示意图，展示了机器人计算系统与具身人工智能进化中的算法与硬件协同设计。图中分为机器人算法、算法优化和硬件创新三个部分，突出并行性、数据局部性、稀疏性和数据相似性在协同设计中的作用。

4.2. 传统机器人算法与硬件

传统机器人算法通常执行五个基本功能任务：感知 (perception)、任务规划 (task planning)、运动规划 (motion planning)、动作映射 (action mapping) 和控制 (control)，如下图（原文 Figure 3）所示。每个阶段都需要专门的算法和计算硬件来提供高准确性、实时性能和高能效。

该图像是一个示意图，展示了机器人计算系统和执行系统的整体架构，包括感知系统、任务规划、运动规划、动作映射和控制模块的协同工作流程，体现了从传感信息到执行动作的闭环控制。

4.2.1. 感知 (Perception)

感知涉及处理来自传感器（如摄像头和激光雷达 LiDAR (Light Detection And Ranging，光探测与测距)）的数据，以建立对环境和机器人自身状态的可靠理解。

4.2.1.1. 检测 (Detection)

算法原理： 识别图像或视频中目标对象的类别和位置。
- 两阶段方法 (Two-stage methods): 如 RCNN (Region Convolutional Neural Network) 系列，首先生成可能包含目标的区域提案 (region proposals)，然后对这些提案进行分类并执行边界框回归。准确但计算复杂。
- 单阶段方法 (Single-stage methods): 如 YOLO (You Only Look Once) 系列，直接从输入图像预测目标的类别和边界框，推理速度快但可能牺牲部分准确性。
硬件加速：
- Lefebvre et al. 提出了一个卷积成像片上系统 (convolutional imaging SoC)，通过在传感器域内直接执行 MAC (Multiply-Accumulate，乘加) 操作来加速特征提取和目标检测。
- Gong et al. 提出了一个针对多尺度语义特征提取 (Multi-Scale Semantic Feature Extraction, MSFE) 检测框架优化的加速器，通过并行帧差计算和统一数据压缩与计算来减少计算开销和数据冗余。

4.2.1.2. 分割 (Segmentation)

算法原理： 将给定图像或视频的像素分组到语义区域。
- 语义分割 (Semantic segmentation): 将区域标记为单一类别。
- 实例分割 (Instance segmentation): 区分同一类别的多个对象。
- UNet (U-shaped Network): 引入上采样 (upsampling) 操作来恢复分割图，广泛用于医学图像分割。
- DeepLab 系列: 使用空洞卷积 (dilated convolutions) 捕获多尺度上下文信息。
硬件加速：
- Vohra et al. 提出了一个低能耗成像设备，通过模拟背景减除 (analog background subtraction) 进行事件检测，并将神经网络处理限制在特定感兴趣区域 (Regions of Interest, ROI)，避免处理整个帧。
- Guo et al. 提出了一个基于浮点 CiM (Compute-in-Memory，存内计算) 的架构，通过高位全精度和低位近似计算乘法器，减少内部带宽和面积，同时保持高准确性。

4.2.1.3. 深度估计 (Depth estimation)

算法原理： 通过处理来自同一场景中两个摄像头的图像来提取环境深度信息，基于立体匹配 (stereo matching) 算法计算对应像素之间的视差 (disparity)，并表示为视差图 (disparity maps)。
- 局部方法 (Local methods): 基于局部相邻像素信息计算视差，以准确性换取速度。
- 全局方法 (Global methods): 从整个图像中提取视差值，更准确但耗时。
硬件加速：
- Sekhar et al. 在 FPGA 上实现了 SAD (Sum of Absolute Differences，绝对差和) 算法，并开发了高效的行缓冲方案以实现数据并行性和局部性。
- Li et al. 为半全局匹配 (Semi-Global Matching, SGM) 算法设计了高性能、高能效的处理器，采用高吞吐量流水线架构和依赖解析方案以实现数据并行，并开发定制的超高带宽 SRAM (Static Random Access Memory，静态随机存取存储器) 以实现高能效内存访问。

4.2.1.4. 定位 (Localization)

算法原理： 估计机器人在给定环境中的位置和姿态（6 DOF (Degrees of Freedom，自由度)）。
- SLAM (Simultaneous Localization and Mapping，同步定位与建图): 通常用于构建室内环境地图并同时定位机器人。通常是一个受约束的非线性优化问题，更鲁棒，包括前端、后端、回环检测和建图。
- VIO (Visual-Inertial Odometry，视觉惯性里程计): 通常用于室外环境，利用 Kalman filtering (卡尔曼滤波) 方法从起始点计算相对姿态，但不需要构建显式地图。
硬件加速：
- Liu et al. 为 SLAM 后端优化设计了能效 FPGA 加速器，充分利用数据稀疏性、局部性、相似性和流水线机会。
- Suleiman et al. 在单芯片中实现了完全集成的 VIO 加速器，以消除大量耗能的数据传输，并利用压缩和稀疏性方法减少存储需求，通过重新调度和并行性实现高吞吐量处理。
- Gan et al. 通过识别 SLAM、配准和 VIO 中的通用内核，提出了一个统一的定位算法框架，并协同设计了高效的前端加速器和带工作负载调度器的后端加速器。
- Liu et al. 提出了 Archytas 框架，可以从算法描述自动生成可合成的加速器，以满足功耗、延迟和资源规范。

4.2.2. 任务规划 (Task Planning)

算法原理： 根据感知到的环境信息，确定机器人未来动作序列以完成特定任务。
- 人类专家分解： 最初由人类专家和工程师分解和调度。
- FSMs (Finite State Machines，有限状态机): 当任务中的动作和环境状态可以建模为有限集时，FSM 被用于调度可能的运动状态和转换。
- POMDP (Partially Observable Markov Decision Process，部分可观察马尔可夫决策过程): 应对不确定性和动态环境的更复杂方法。
- HMM (Hidden Markov Model，隐马尔可夫模型): 用于预测（如自动驾驶中人类驾驶车辆的）未来驾驶意图。
硬件加速：
- 传统上在 MCU (Microcontroller Unit，微控制器单元) 上执行以提供实时性能和有限的硬件资源。
- 随着智能任务规划的复杂性增加，对计算能力的需求也增加，SoC (System-on-Chip，系统级芯片) 成为主要计算平台。例如 Tesla (特斯拉) 的 FSD (Full Self-Driving，全自动驾驶) 计算机，集成了 CPU、ISP (Image Signal Processor，图像信号处理器)、GPU 和定制的神经网络加速器。

4.2.3. 运动规划 (Motion Planning)

运动规划生成无碰撞轨迹，以执行任务规划确定的动作。

4.2.3.1. 全局规划 (Global Planning)

算法原理： 寻找从起始姿态到目标姿态的最短无碰撞路径。
- 基于图搜索的方法 (Graph-search-based methods): 将机器人状态抽象为节点，动作抽象为边。通过遍历状态空间从起始节点到目标节点串行搜索最优路径。
  - $A*$ 算法：Dijkstra 算法的启发式扩展，通过启发式知识引导搜索方向，减少迭代次数和操作时间。但在高维状态空间中耗时。
- 基于采样的方法 (Sampling-based methods): 通过概率采样更快地找到轨迹。
  - PRM (Probabilistic Roadmap Method，概率路线图方法): 利用采样加速基于图搜索的方法。
  - RRT (Rapidly-exploring Random Tree，快速探索随机树): 在单个过程中完成运动规划任务。 $RRT*$ 及其变体在高规模环境中效率突出。
硬件加速：
- Bakhshalipou et al. 观察到 $A*$ 算法中串行状态搜索的相似性模式，开发了名为 RACOD 的加速器，通过预判未来姿态和执行碰撞检测来加速。
- Lian et al. 优化了 PRM，并开发了名为 Dadu 的可伸缩 PRM 加速器，采用硬件友好的图表示以有效暴露空间结构。
- Chung et al. 优化了 RRT，采用各种并行方案来减少计算复杂性和内存需求，并设计了剪枝和重用策略以快速响应动态环境。

4.2.3.2. 局部规划 (Local Planning)

算法原理： 通常被表述为一个优化问题，计算满足安全性和物理约束的（近似）最优轨迹。
- 优化准则： 执行时间、能量和加加速度 (jerk)。
- 数值方法： 解决优化问题，如 ADMM (Alternating Direction Method of Multipliers，交替方向乘子法)。
硬件加速：
- GPU 被用于加速优化求解器，因为优化问题涉及大量矩阵运算。Chretien et al. 开发了 GPU 实现，利用数据独立和数据相关并行性。
- Hao et al. 提出了 BLITZCRANK 加速器，通过因子图 (factor graph) 抽象减少优化问题规模，并利用并行性和稀疏性。
- Hao et al. 提出了 ORIANNA 框架，自动生成定制加速器以解决机器人优化问题。

4.2.4. 动作映射 (Action Mapping)

动作映射通过对机器人机构建模，将数学路径/轨迹转换为物理机器人动作，反之亦然。

4.2.4.1. 运动学 (Kinematics)

算法原理： 将末端执行器姿态表示为关节变量的函数。
- 正向运动学 (Forward Kinematics, FK): 根据关节变量计算末端执行器姿态。
- 逆向运动学 (Inverse Kinematics, IK): 根据目标末端执行器姿态计算关节变量，通常更复杂。
- 分析方法 (Analytic methods): 使用直接的闭式解，适用于低自由度机器人。
- 数值方法 (Numerical methods): 将 IK 表述为优化问题，包括 Jacobian inverse methods (雅可比逆方法)、Newton methods (牛顿方法) 和 Heuristic inverse methods (启发式逆方法)。
硬件加速：
- Tkachenko et al. 开发了 FPGA 实现的几何 IK 方法，但仅适用于特定机器人机构。
- Lian et al. 设计了基于推测的 Jacobian 转置算法以减少迭代次数，并实现了加速器以利用每次迭代中的算法并行性，在高自由度应用中实现实时性能和高能效。

4.2.4.2. 动力学 (Dynamics)

算法原理： 提供作用在机器人机构上的驱动力和接触力与由此产生的加速度和运动轨迹之间的关系。
- 逆动力学 (Inverse dynamics) 和正动力学 (forward dynamics) 及其梯度是许多运动规划和控制技术的关键内核，在 MPC 中占总计算时间的 30% 到 90%。
硬件加速：
- Neuman et al. 提出了利用机器人拓扑结构和矩阵稀疏模式的加速器设计方法，并实现了动力学梯度的参数化加速器。
- Neuman et al. 进一步利用机器人拓扑结构设计可伸缩和灵活的加速器，关注拓扑遍历和大型拓扑矩阵。
- Yang et al. 提供了多功能框架 Dadu-RBD，通过识别固有关系处理各种动力学任务，并开发了两个专门的流水线以优化数据局部性利用和适应机器人特定的稀疏性。

4.2.5. 控制 (Control)

算法原理： 确保机器人及其组件通过计算直接指令（如转向角、油门开度）来跟随参考动作，通常在反馈框架中进行。
- 无预测反馈控制 (Feedback control without prediction):
  - PID (Proportional-Integral-Derivative，比例-积分-微分) 控制：由于其简单性和效率，广泛用于商业和工业用途。
- 有预测反馈控制 (Feedback control with prediction):
  - MPC (Model Predictive Control，模型预测控制): 可以使用动力学等模型预测机器人的未来行为，并优化一系列控制指令以在动态环境中实现更好的整体性能。
- 多任务控制： 对于具有冗余自由度的机器人，通常存在多个控制任务（如稳定性和安全性维护）。
  - 全身控制 (Whole-body control, WBC): 在任务不能同时执行时，合理分配多个任务的优先级。
    - 闭式方法 (Closed-form methods): 基于任务优先级通过代数运算（如伪逆矩阵、零空间投影）推导出最终动作，计算速度快，适用于实时应用。
    - 优化方法 (Optimization methods): 将问题定义为优化问题（如二次规划 Quadratic Programming, QP、凸优化），任务优先级隐式地体现在目标函数和约束之间。计算资源需求大，但在需要复杂任务优先级和接触力优化的场景中表现出色。
硬件加速：
- 对于通常在高控制速率（ $>1 kHz$ ）场景下运行的控制算法，CPU 和 GPU 难以在有限功耗预算下实现实时性能，因此硬件加速是必要的选择。
- PID 控制有大量硬件加速工作。
- MPC 的高复杂性阻碍了其在高速、高精度场景中的应用，因此提出了各种 MPC 硬件加速器。Li et al. 在 FPGA 上加速了 MPC 的 QP 求解器。Lin et al. 提出了剪枝策略和物理模型转换方案，并实现了高性能 ASiC (Application-Specific Integrated Circuit，专用集成电路)。

4.3. 具身人工智能算法与硬件

具身人工智能 (Embodied AI) 是对模型驱动的传统机器人学的一次重大演进，其特点是能够使用数据驱动方法执行更智能的任务。演进路线图如下图（原文 Figure 4）所示。

该图像是一个示意图，展示了从传统机器人学到端到端体化AI的认知规划与动作执行模型的演变及其算法-硬件协同设计框架。

4.3.1. 分层模型 (Hierarchical model)

分层模型通常包含一个认知规划模型 (cognitive planning model)（高层）和一个动作执行模型 (action execution model)（低层）。

4.3.1.1. 认知规划模型 (Cognitive planning model)

算法原理： 使机器人能够理解人类指令，并根据指令和环境信息进行长周期规划 (long-horizon planning)。通常利用 LLMs (Large Language Models，大语言模型) 和 VLMs (Vision-Language Models，视觉-语言模型) 的高级能力。
- LLM 作为基础模型： 利用其进行长周期任务分解和调度，例如 Microsoft 开发的 ChatGPT for Robotics (参考文献 [9])，将自然语言指令转化为高层函数调用链。
- 集成自主反馈机制： 增强规划质量和成功率，例如 Inner Monologue (参考文献 [80]) 结合 LLM 规划与实时环境反馈。
- 多模态大模型 (VLM)： 解决 LLM 依赖文本输入导致视觉信息丢失的问题。例如 Google 开发的 PaLM-E (参考文献 [10])，结合 VLM 预训练和机器人数据微调，能够执行广泛的具身推理任务，包括机器人操作、视觉问答和长周期规划。
  
  下图（原文 Figure 5）展示了 PaLM-E 模型架构概览。
  
  该图像是一张示意图，展示了利用视觉嵌入（emb）、视觉Transformer（ViT）和大规模语言模型（PaLM）进行任务问答的流程，体现了算法与硬件协同设计中的信息流。

4.3.1.2. 动作执行模型 (Action execution model)

算法原理： 负责执行由认知规划模型调度的低层动作。目标是基于任务特定的具身数据开发专门模型，以实现多动作的成功完成，并确保比认知规划模型更快的推理速度。通常有两种路径：姿态预测和动作生成。

(1) 姿态预测 (Pose prediction)

算法原理： 旨在找到特定任务的最佳最终姿态，特别是对于操作任务。
- 3D 重建 (3D reconstruction): 通常集成到姿态预测框架中，通过 2D 图像或其他传感器数据生成三维物体或场景表示，提供丰富的目标物体信息（位置、形状）。
  - 点云重建 (Point cloud-based reconstruction): 利用 PointNet 等模型处理稀疏且不规则的点云数据，例如 ASGrasp (参考文献 [86])。
  - NeRF (Neural Radiation Field-based，神经辐射场) 重建: 使用 MLPs (Multi-Layer Perceptrons，多层感知机) 提供更全面的 3D 信息表示，例如 GraspNeRF (参考文献 [84])。
  - 3D GS (3D Gaussian Splatting-based，3D高斯泼溅) 重建: 通过生成 3D Gaussian field 来提高重建质量，例如 GaussianGrassper (参考文献 [89])。
- 姿态预测模型： 处理 3D 几何数据以确定最佳抓取姿态。
  - GSNet (参考文献 [92]): 通过点编码器-解码器架构生成特征向量，然后通过多层 MLP 确定抓取姿态。
  - AnyGrasp (参考文献 [6]): 进一步使用时间关联模块细化最佳抓取姿态。
  - YOSO (参考文献 [88]): 利用 Transformer 的全局信息提取能力，结合 3D 实例分割网络生成抓取候选。

(2) 动作生成 (Action generation)

算法原理： 直接从图像和任务描述输出单个动作或动作序列。通常在专家操作员通过遥操作 (teleoperation) 收集的真实机器人轨迹数据上从头开始训练。
- 自回归模型 (Autoregression-based models): 利用 Transformer 编码-解码过程处理长序列，将语言和视觉观测映射到机器人动作视为序列建模问题。
  - RT-1 (Robotics Transformer 1) (参考文献 [93]): Google 开发的基于 Transformer 的模型，处理历史图像，并使用 FiLM (Feature-wise Linear Modulation) 层根据语言指令调整视觉词元 (visual tokens)。引入动作词元化 (action tokenization) 方法。
  - ALOHA (参考文献 [7]): 结合 CNN 和 Transformer 编码器-解码器架构，从专家演示中学习，利用多摄像头捕捉环境变化和机器人运动，生成机器人动作序列。
    
    下图（原文 Figure 6）展示了 Action Chunking with Transformers (ACT) 的模型架构。
    
    该图像是图表，展示了采用变压器的动作分块模型架构，左侧为数据输入部分，包括不同摄像头的图像和特征提取，右侧为变压器解码器，处理动作序列和位置嵌入信息。
- 扩散模型 (Diffusion-based models): 利用扩散模型在建模高维数据（如图像）方面的卓越性能，将机器人动作序列生成表示为机器人动作空间上的条件去噪扩散过程。
  - Diffusion Policy (参考文献 [8]) (下图原文 Figure 7): 首次将去噪扩散概率模型 (DDPMs) 应用于机器人动作空间。
  - UniP (参考文献 [95]) 和 AvDC (actions from video dense correspondences) (参考文献 [96]): 使用条件扩散模型，以初始帧和文本描述作为条件来学习未来帧的分布。
  - RDT-1B (参考文献 [97]): 利用扩散模型和可伸缩 Transformer 架构，结合物理可解释的统一动作空间。
    
    下图（原文 Figure 7）展示了扩散策略的通用形式及其基于 CNN 和 Transformer 的具体实现结构，涉及观察输入、动作序列和条件嵌入等模块。
    
    $该图像是示意图，展示了扩散策略的通用形式及其基于CNN和Transformer的具体实现结构，涉及观察输入、动作序列和条件嵌入等模块，含有公式$a \\cdot x + b$用于说明卷积操作。$ 该图像是示意图，展示了扩散策略的通用形式及其基于CNN和Transformer的具体实现结构，涉及观察输入、动作序列和条件嵌入等模块，含有公式 $a \cdot x + b$ 用于说明卷积操作。

4.3.1.3. 分层框架 (Hierarchical framework)

算法原理： 结合认知规划模型和动作执行模型，以实现多模态感知、长周期规划和灵巧动作。
- SkillDiffuser (参考文献 [11]): 高层使用 GPT-2 的技能抽象模块学习离散、人类可理解的技能表示，然后调节扩散模型生成定制的潜在轨迹。
- $\pi _ { 0 }$ (参考文献 [12]): Physical Intelligence 开发的第一个工业分层模型，结合预训练 VLM 作为认知规划模型和扩散变体流匹配模型作为动作执行模型。
- GO-1 (参考文献 [98]): AgiBot 开发的框架，包含预训练 VLM、潜在规划器和动作专家。
- GR00T N1 (参考文献 [14]): NVIDIA 开发的 VLA 双系统架构，System 2 基于 VLM 进行感知和语言理解，System 1 基于 Diffusion Transformer Module 生成高频动作。
- Helix (参考文献 [13]): Figure 开发，包含基于 7B-VLM 的 System 2 和基于 80M-Transformer 的 System 1。
  
  下图（原文 Figure 8）展示了 GR00T N1 模型架构概览。
  
  $Fig. 8. (Color online) GR00T N1 model architecture overview (from GR00T N1\[14\]).$ 该图像是示意图，展示了GR00T N1模型的架构，结合图像观察、语言指令和机器人状态来执行动作。图中显示了图像和文本的编码过程，以及通过扩散变换器生成的动作令牌，最终实现机器人动作的控制。

4.3.2. 端到端模型 (End-to-end model)

算法原理： 旨在将感知、规划和动作无缝集成到一个模型中，使机器人能够处理多模态上下文输入（如视觉数据和自然语言），并实时执行不同领域的通用任务。这可能是实现通用机器人和通用人工智能的终极步骤。
- VLA (Vision-Language-Action，视觉-语言-动作) 模型： 处理视觉和语言的多模态输入以生成机器人动作。
  - RT-2 (Robotics Transformer 2) (参考文献 [15]): Google 开发的第一个重要 VLA 实现，将网络规模的视觉-语言预训练直接集成到机器人动作生成中，增强了模型的泛化和语义推理能力。利用预训练 VLM 作为主干网络。
  - RT-X (参考文献 [16]): 通过构建大型机器人数据集 Open X-Embodiment 改进性能，并在此数据集上共同训练 RT-1-X 和 RT-2-X，增强了跨机器人平台和场景的泛化能力。
  - OpenVLA (参考文献 [17]): Stanford University 开发的最先进的开源 VLA 模型，基于 Prismatic-7B VLM，并引入了高效的微调方法（如低秩适应 Low-Rank Adaptation 和模型量化）。
    
    下图（原文 Figure 9）展示了 OpenVLA 模型架构概览。
    
    $Fig. 9. (Color online) OpenVLA model architecture overview (from OpenVLA\[17\]).$ 该图像是示意图，展示了OpenVLA模型架构的概述。图中左上角为输入图像和语言指令，描述机器人任务（如“将茄子放入碗中”）。数据流经MLP投影器和多个模块（DinoV2和SigLIP），最终到达包含Llama 2 7B和Action De-Tokenizer的核心。右侧展示了机器人执行的7D动作表示，包括位置、旋转和抓取参数（ $\Delta x, \Delta \theta, \Delta Grip$ ）。

4.3.3. 具身人工智能硬件 (Embodied AI hardware)

尽管具身 AI 模型种类繁多，但它们通常共享一些核心基本算法，这为设计针对这些基础算法的加速器提供了机会。

4.3.3.1. Transformer 加速器 (Transformer accelerator)

挑战： Transformer 的自注意力机制 (self-attention mechanism) 在计算和内存复杂度上与词元 (tokens) 数量呈二次关系，尤其对于处理长任务描述的 LLM 和高分辨率图像的 VLM 而言，这是一个显著瓶颈。
硬件加速： 专注于数字加速器和 CIM (Compute-in-Memory，存内计算) 加速器。
- 数字加速器：
  - Wang et al. (参考文献 [23]): 发现 Transformer 自注意力机制中的稀疏模式和数据冗余，开发了带有零推测单元 (zero-speculation unit) 和乱序计算调度器 (out-of-order computing scheduler) 的近似处理单元 (approximate processing element)，加速 Transformer 工作负载并提高能效。
  - Tambe et al. (参考文献 [100]): 利用基于熵的提前退出算法 (entropy-based early exit algorithm) 设计专用数据路径，结合混合精度计算和功耗管理，以减少能耗和延迟。
  - Kim et al. (参考文献 [101]): 提出了 C-Transformer 架构，将 DNN-Transformer 和 spiking-Transformer 集成到大小核网络 (big-little network) 框架中，通过消除外部内存访问瓶颈显著提高计算能效。
- CIM 加速器：
  - Tu et al. (参考文献 [25]): 利用自注意力机制中的流水线机会开发了可重构流网络，并引入位线转置 CIM 结构以实现无需额外存储的矩阵转置，以及稀疏注意力调度器。
  - Tu et al. (参考文献 [102]): 针对多模态 Transformer 中的混合稀疏模式，开发了长复用消除调度器 (long reuse elimination scheduler)、运行时词元剪枝器 (runtime token pruner) 和模态自适应 CIM 网络。
  - Guo et al. (参考文献 [103]): 提出了混合模拟-数字方法，在 22 nm SRAM (Static Random Access Memory，静态随机存取存储器) 架构中集成模拟和数字组件，以统一加速 Transformer 和 CNN (Convolutional Neural Network，卷积神经网络)。

4.3.3.2. 3D 重建加速器 (3D reconstruction accelerator)

挑战： 3D 重建中的密集空间计算和不规则内存访问导致传统硬件平台（如 GPU）效率低下。
硬件加速： 根据重建方法分为点云重建加速器、NeRF (Neural Radiation Field，神经辐射场) 重建加速器和 3D GS (3D Gaussian Splatting，3D高斯泼溅) 重建加速器。
- 点云重建加速器：
  - Im et al. (参考文献 [104]): 利用低功耗 ToF (Time of Flight，飞行时间) 传感器重建密集深度信息，通过窗口技术将大型不规则稀疏矩阵转换为带状矩阵，并优化点云特征处理。
  - Sun et al. (参考文献 [105]): 提出了可重构稀疏卷积核，支持不同类型的稀疏卷积和基于优先级代码的邻居搜索电路。
  - Jung et al. (参考文献 [106]): 通过嵌入伪随机数生成器 (PRNG) 电路进一步增强邻居搜索效率。
- NeRF 重建加速器：
  - Han et al. (参考文献 [107]): 提出了 MetaVRain 架构，通过空间注意力、时间熟悉度 (temporal familiarity) 和自顶向下注意力 (top-down attention) 阶段优化计算效率。
  - Ryu et al. (参考文献 [108]): 引入了 NeuGPU 架构，通过片上哈希表存储和注意力混合插值等技术，显著减少建模时间。
  - Park et al. (参考文献 [109]): 提出了 Space-Mate，加速基于 NeRF 的 SLAM (Simultaneous Localization and Mapping，同步定位与建图) 重建系统。
- 3D GS 重建加速器：
  - Lee et al. (参考文献 [110]): 提出了 GSCore 硬件加速单元，通过高斯形状感知交叉测试和两阶段分层排序过程，显著提高处理速度。
  - Wu et al. (参考文献 [111]): 开发了稀疏瓦片采样 (sparse-tile-sampling) 方法，并设计了稀疏感知处理器 GauSPU，显著提高能效。

4.3.3.3. 扩散模型加速器 (Diffusion model accelerator)

挑战： 扩散模型的迭代性质导致计算复杂度和内存访问量随迭代次数线性增加。
硬件加速： 专注于优化相邻迭代之间的数据流，利用差分计算 (differential computation)。
- 数字加速器：
  - Kong et al. (参考文献 [112]): 提出了 Cambricon-D 加速器，利用符号掩码数据流 (sign-mask dataflow) 和离群值感知处理单元 (outlier-aware processing element, PE) 数组，优化内存访问和离群值计算。
- CIM 加速器：
  - Guo et al. (参考文献 [113]): 提出了基于 CIM 的扩散模型加速器，将输入变化分为密集整数和稀疏浮点计算，使用 radix-8 Booth CIM macro 进行整数运算，并使用可重构 4-operand exponent CIM (4Op-ECIM) macro 进行浮点运算，实现高系统能效。

5. 实验设置

本文作为一篇综述论文，并未进行自身原创的实验来验证新的方法或模型。相反，它系统性地回顾和分析了大量已发表的机器人学和具身人工智能领域的研究成果。因此，本节将聚焦于论文所引用和讨论的各项研究中普遍采用的实验设置、评估指标和对比基线，以展示算法-硬件协同设计所带来的性能提升。

5.1. 数据集

论文中提及的各项研究使用了多种类型的数据集，以支持不同机器人任务和 AI 模型训练：

特定任务数据集：
- 医疗保健场景： 如手术机器人操作数据。
- 制造业场景： 如协作机器人 cobots 在工厂环境中的操作数据。
- 计算机视觉数据集： 用于目标检测 (RCNN、YOLO 系列)、语义分割 (UNet、DeepLab 系列) 和深度估计的图像/视频数据集。
- 运动规划数据集： 用于验证 $RRT*$ 、PRM 等算法在不同环境（如大型或高维空间）中的路径规划能力。
- 控制任务数据集： 用于训练和测试 PID、MPC 等控制算法在特定机器人平台（如四足机器人、人形机器人）上的运动控制。
具身人工智能特定数据集：
- 遥操作数据 (Teleoperation data)： 由专家操作员通过遥操作机器人收集的真实机器人轨迹数据，用于训练具身 AI 模型。例如，Figure 的 Helix 机器人模型训练使用了约 500 小时 (~500h) 的遥操作数据。
- 多模态数据集： 包含视觉信息（图像、视频）、语言指令和机器人动作的数据，用于训练 VLA (Vision-Language-Action，视觉-语言-动作) 模型。
- 大规模具身数据集 (Large Embodiment Datasets)： 例如 RT-X (参考文献 [16]) 引入的 Open X-Embodiment，这是一个协作数据集，汇集了来自 22 个不同机器人平台、21 个机构的 527 项技能和 160,266 个任务的数据。
- 特定机器人数据集： 用于训练和微调特定机器人配置的模型，如 RDT-1B (参考文献 [97]) 在大规模多机器人数据集上预训练并在自创建的多任务双臂数据集上微调。
  
  选择这些数据集旨在：
验证泛化能力： 通过多样化的场景和任务数据，评估模型在未见过的对象、环境和指令下的泛化能力。
支持多模态学习： 提供视觉、语言和动作等多模态信息，使模型能够处理复杂的人机交互和语义理解。
驱动数据驱动模型： 为 Transformer、扩散模型 和 LLM/VLM 等数据密集型模型提供充足的训练数据。

5.2. 评估指标

论文中讨论的各项研究普遍关注以下性能指标，以衡量算法和硬件加速器的有效性：

准确性 (Accuracy):
- 概念定义 (Conceptual Definition): 指算法或模型在给定任务（如目标检测、图像分割、姿态估计或任务完成）中输出结果与真实标注 (Ground Truth) 一致的程度。高准确性是机器人系统执行复杂任务的基础。
- 数学公式 (Mathematical Formula): $\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$
- 符号解释 (Symbol Explanation):
  - Number of correct predictions：正确预测的数量。
  - Total number of predictions：总预测数量。
延迟 (Latency):
- 概念定义 (Conceptual Definition): 指系统从接收输入（如传感器数据）到产生相应输出（如机器人动作指令）所需的时间。在机器人应用中，低延迟对于实时响应动态环境和确保安全至关重要。
- 数学公式 (Mathematical Formula): $\text{Latency} = T_{\text{output}} - T_{\text{input}}$
- 符号解释 (Symbol Explanation):
  - $T_{\text{output}}$ ：输出产生的时间点。
  - $T_{\text{input}}$ ：输入接收的时间点。
功耗 (Power Consumption):
- 概念定义 (Conceptual Definition): 指系统在运行过程中单位时间消耗的电能量。对于移动机器人和边缘设备，功耗是严格的限制因素，直接影响电池续航和散热设计。通常以瓦特 (W) 为单位。
- 数学公式 (Mathematical Formula): 功耗通常通过测量电压和电流来计算，或者由硬件制造商直接给出。 $P = V \times I$
- 符号解释 (Symbol Explanation):
  - $P$ ：功耗（瓦特）。
  - $V$ ：电压（伏特）。
  - $I$ ：电流（安培）。
能效 (Energy Efficiency):
- 概念定义 (Conceptual Definition): 衡量系统在消耗单位能量时能够完成多少计算或任务。能效是评估硬件加速器性能的关键指标，通常以每瓦特的每秒浮点运算次数 (FLOPS/W) 或每秒操作数 (TOPS/W (Tera Operations Per Second Per Watt，每瓦万亿次操作)) 来衡量。
- 数学公式 (Mathematical Formula): $\text{Energy Efficiency} = \frac{\text{Total Operations}}{\text{Energy Consumption}}$
- 符号解释 (Symbol Explanation):
  - Total Operations：总计算操作数（例如 FLOPS 或 TOPS）。
  - Energy Consumption：总能耗（例如焦耳 $J$ 或瓦时 Wh）。
推理速度 (Inference Speed) / 吞吐量 (Throughput):
- 概念定义 (Conceptual Definition): 指模型或系统在单位时间内处理数据或完成任务的能力。对于感知任务，常以每秒帧数 (fps) 衡量；对于计算任务，则以每秒操作数衡量。
- 数学公式 (Mathematical Formula): $\text{Throughput} = \frac{\text{Number of units processed}}{\text{Time interval}}$
- 符号解释 (Symbol Explanation):
  - Number of units processed：在给定时间间隔内处理的单元数量（例如图像帧、数据样本）。
  - Time interval：时间间隔。
成功率 (Success Rate):
- 概念定义 (Conceptual Definition): 特指机器人系统在执行特定操作或完成特定任务时的成功次数占总尝试次数的百分比。
- 数学公式 (Mathematical Formula): $\text{Success Rate} = \frac{\text{Number of successful tasks}}{\text{Total number of tasks attempted}} \times 100\%$
- 符号解释 (Symbol Explanation):
  - Number of successful tasks：成功完成的任务数量。
  - Total number of tasks attempted：尝试任务的总数量。

5.3. 对比基线

在论文讨论的各项研究中，新的算法和硬件加速器通常会与以下基线进行比较：

通用计算平台 (General-purpose computing platforms):
- CPU (Central Processing Unit，中央处理器): 作为最通用的计算平台，常被用作衡量算法基础性能和功耗的基线。例如，论文中提到 $RRT*$ 在 CPU 上通常需要数秒才能收敛。
- GPU (Graphics Processing Unit，图形处理器): 在深度学习和并行计算中广泛使用，通常比 CPU 提供更高的计算性能。常用于展示新加速器在性能和能效上的提升，尤其是在处理大规模神经网络时。例如， $RRT*$ 在 GPU 上可加速至毫秒级，但功耗可达数百瓦。
现有专业硬件/加速器 (Existing specialized hardware/accelerators):
- 在特定领域（如 SLAM、Transformer、3D 重建）中，新的加速器设计会与之前最先进的 FPGA、ASIC 或 SoC 解决方案进行对比，以展示性能、能效或实时性的改进。例如，GauSPU 与 RTX 3090 GPU 的能效对比。
传统算法/模型 (Traditional algorithms/models):
- 在算法层面，新的 AI 驱动或优化后的算法会与传统的、模型驱动的方法进行比较。例如：
  - $RRT*$ 与 Dijkstra 或 $A*$ 算法的比较。
  - MPC 与 PID 控制的比较。
  - 基于 Transformer 或扩散模型的动作生成与传统运动规划或控制方法的比较。
不带优化/未集成加速的基线 (Baselines without optimization/acceleration):
- 有时，为了证明特定优化（如稀疏性利用、并行处理）或硬件组件（如 CIM 模块）的有效性，研究会对比有无这些优化或组件的系统性能。例如，Transformer 加速器会对比其在通用架构上运行的性能。
不同模型架构的基线 (Baselines of different model architectures):
- 在具身 AI 领域，LLM、VLM、分层模型和端到端 VLA 模型之间会进行性能对比，以评估不同架构在泛化能力、长周期规划和动作执行方面的优劣。例如，RT-2 与 RT-1 的比较，以及 OpenVLA 与其他 VLA 模型的比较。

6. 实验结果与分析

本节将根据论文中对各项研究成果的叙述，总结算法-硬件协同设计在不同机器人任务中实现的性能提升。由于本文是一篇综述，并没有自己的实验结果，因此所有的“结果”和“分析”都是对引用的、已发表工作的总结。

6.1. 核心结果分析

论文强调，算法-硬件协同设计是解决机器人计算系统性能-效率差距的关键。通过对算法固有属性（如并行性、局部性、稀疏性和相似性）的利用，以及硬件架构和电路的创新，实现了显著的系统级改进。

性能-效率差距的弥合：
- 运动规划： $RRT*$ 算法在 CPU 上通常需要数秒才能收敛，对于动态场景不实用。而 GPU 虽能将速度提升至毫秒级，但功耗高达数百瓦，不适用于移动机器人。专门的加速器，如 Bakhshalipou et al. 为 $A*$ 开发的 RACOD，Lian et al. 为 PRM 开发的 Dadu，以及 Chung et al. 为 RRT 设计的并行加速器，都旨在通过利用算法特性在能效和实时性上取得突破。
- VIO (Visual-Inertial Odometry)： Suleiman et al. 实现了 Navion，一个 2 mW 的完全集成实时 VIO 加速器，用于纳米无人机，通过消除大规模能耗数据传输并利用压缩和稀疏性方法实现高性能和低功耗。
具身人工智能中的加速效果：
- Transformer 加速： Transformer 模型，作为许多具身 AI 模型的主干网络，其自注意力机制的二次计算复杂度是瓶颈。
  - Wang et al. (参考文献 [23]) 利用渐进稀疏性推测和乱序计算的近似计算处理器，实现了 28nm 工艺下 27.5 TOPS/W 的能效，并通过最小化不必要计算和优化数据流，显著提高了能量效率。
  - Tu et al. (参考文献 [25]) 开发的 CIM (Compute-in-Memory，存内计算) 基 Transformer 加速器，在 28nm 工艺下实现了 $15.59 μJ/token$ 的能耗，通过流水线和并行可重构模式、位线转置 CIM 结构和稀疏注意力调度器，显著降低了能耗和提高了计算效率。
  - Guo et al. (参考文献 [103]) 提出的混合模拟-数字 CIM 宏，在 22nm 工艺下达到了 64kb 存储容量，为 Transformer 和 CNN 提供了 lightning-like 的能效。
- 3D 重建加速： 3D 重建是许多动作执行模型的关键组件，但其密集空间计算和不规则内存访问效率低下。
  - Ryu et al. (参考文献 [108]) 引入的 NeuGPU 架构，在 NeRF (Neural Radiation Field，神经辐射场) 建模中实现了仅 345 毫秒的建模时间，显著优于边缘 GPU。
  - Lee et al. (参考文献 [110]) 提出的 GSCore 硬件加速单元，针对 3D GS (3D Gaussian Splatting，3D高斯泼溅) 实现了 91.2 fps 的处理速度，远超 Jetson Xavier GPU 的 6.4 fps。
  - Wu et al. (参考文献 [111]) 开发的 GauSPU (3D Gaussian Splatting Processor for Real-time SLAM Systems)，在能效方面比 RTX 3090 GPU 提高了 63.9 倍。
- 扩散模型加速： 扩散模型的迭代性质带来了显著的计算和内存访问挑战。
  - Kong et al. (参考文献 [112]) 提出的 Cambricon-D 加速器，通过优化内存访问和离群值计算，减少了 66% 以上的内存访问。
  - Guo et al. (参考文献 [113]) 提出的 CIM 基扩散模型加速器，实现了 74.34 TFLOPS/W 的系统能效。
分层模型的实际部署：
- Figure 的 Helix 机器人是一个算法-硬件协同设计的典范。其通过在训练阶段引入高频动作控制器 (System 1) 和低频规划模型 (System 2) 之间的故意时间偏移，模拟目标硬件部署的异步执行特性，从而确保低层控制器能鲁棒地整合最新的感知反馈和高层 VLM 的潜在命令表示。这证明了硬件感知训练的重要性。
  
  总的来说，这些研究结果共同表明，通过将算法优化与硬件创新紧密结合，可以有效克服传统通用硬件的局限性，为机器人计算系统和具身 AI 实现所需的实时、能效和高精度性能。

6.2. 数据呈现 (表格)

本综述论文本身并未包含原创的实验结果表格。论文的“实验结果与分析”部分通过文本形式，总结并引用了其所回顾的各个研究论文中报告的性能数据和对比结果。因此，此处不转录表格。

6.3. 消融实验/参数分析

本论文作为一篇综述，并未进行自身的消融实验或参数分析。论文中对被引用工作的讨论，包含了对算法组件（如稀疏性利用、流水线设计、数据压缩等）和硬件特性（如 CIM、专用数据流）如何影响系统性能和效率的分析，这些分析本质上是对其他论文中消融实验或设计选择结果的总结。例如，对 Transformer 加速器中不同稀疏性利用策略或 3D 重建加速器中不同数据流转换技术的讨论，都间接反映了这些组件或参数对最终性能的影响。

7. 总结与思考

7.1. 结论总结

本论文全面回顾了机器人计算系统 (robotic computing system) 从传统机器人学 (traditional robotics) 到具身人工智能 (embodied AI) 的演进历程，并特别强调了算法-硬件协同设计 (algorithm-hardware co-design) 在实现平衡性能 (balanced performance) 方面的关键作用。论文首先概述了传统机器人学在感知、任务规划、运动规划、动作映射和控制方面的算法和相应硬件加速技术。随后，详细阐述了具身人工智能的三步演进路线图 (three-step roadmap)：从传统机器人学向分层模型 (hierarchical model)（包含认知规划模型和动作执行模型）再到最终的端到端模型 (end-to-end model) 发展。

论文的核心结论在于，尽管现代机器人和具身 AI 算法提供了丰富的功能和高准确性，但通用计算硬件 (general-purpose computing hardware) 难以满足其严格的实时性 (real-time)、能效 (energy-efficiency) 和低功耗 (low-power consumption) 要求。算法-硬件协同设计 (algorithm-hardware co-design) 通过分析算法的并行性 (parallelism)、局部性 (locality)、稀疏性 (sparsity) 和相似性 (similarity) 等固有计算行为，并通过算法优化 (algorithm optimization) 和硬件创新 (hardware innovation) 来协同解决这些挑战。文中通过大量具体的案例，展示了针对 Transformer、3D 重建和扩散模型等具身 AI 核心算法的专用硬件加速器如何显著提升性能和能效。

7.2. 局限性与未来工作

论文指出了当前机器人计算系统面临的两个主要挑战，并提出了未来的研究方向：

计算平台适应具身 AI 算法的快速演进： 具身 AI 算法的快速发展要求软件工具链 (software toolchain) 和硬件架构 (hardware architecture) 具备更强的适应性。
- 软件工具链：
  - 编译器 (Compilers): 应发展为模块化架构，将不同的优化技术和代码转换分离，以便于快速适应新的模型结构和操作符。
  - 操作系统 (Operating systems): 需提供传感器和执行器的软件接口，并自主管理数据同步，简化算法在不同配置间的迁移。
- 硬件架构：
  - 可重构计算 (Reconfigurable computing): 能够实时调整硬件设置（如数据流和计算精度），以满足动态性能需求（如控制算法的低延迟和规划模型的低能耗）。
  - 异构集成 (Heterogeneous integration): 能够无缝整合针对不同算法优化的高性能硬件，实现各种应用的敏捷部署。
将新兴硬件创新的潜力转化为端到端推理性能提升： 随着摩尔定律 (Moore's Law) 的放缓，3D IC (三维集成电路)、Chiplet (芯粒) 和 CIM (Compute-in-Memory，存内计算) 等新兴硬件技术带来了巨大的潜力，但需要创新硬件工具链 (hardware toolchain) 和算法 (algorithms) 来充分挖掘。
- 硬件工具链：
  - 仿真工具 (Simulation tools): 需为这些新技术提供精确的物理特性模型，并在合理时间内模拟其性能，以便程序员准确快速评估部署效率。
  - EDA (Electronic Design Automation，电子设计自动化) 工具： 应探索基于新兴技术的扩大设计空间，帮助研究人员有效设计下一代具身 AI 平台。
- 算法利用新兴硬件特性：
  - 新兴硬件技术引入了独特的计算特性，可以直接在算法开发中加以利用。例如，3D IC 提供了通过大规模垂直通孔实现的超高带宽，但跨存储体 (cross-bank) 通信相对较慢。未来的具身 AI 训练算法可以探索将梯度计算和参数更新划分为存储体粒度，并最小化跨存储体通信，从而在 3D IC 上实现高性能训练。
    
    论文强调，拥抱算法和硬件技术的演进，跨堆栈协同设计 (cross-stack co-design) 方法对于下一代机器人计算系统的发展将至关重要。

下图（原文 Figure 10）展示了机器人计算系统和具身人工智能算法与硬件的协同设计流程，强调自顶向下的算法适应与自底向上的硬件特征利用之间的互动关系。

该图像是一个示意图，展示了机器人计算系统和具身人工智能算法与硬件的协同设计流程，强调自顶向下的算法适应与自底向上的硬件特征利用之间的互动关系。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇综述论文提供了对机器人计算系统和具身 AI 领域一个非常全面和深入的视角，特别是其贯穿始终的算法-硬件协同设计 (algorithm-hardware co-design) 思想，给我带来了深刻的启发：

系统级优化的重要性： 论文清晰地表明，在当前技术瓶颈下，单纯地优化算法或硬件都难以实现突破性的性能提升。只有从系统层面出发，通过算法和硬件的深度协同，才能真正解决机器人面临的实时性、能效和准确性难题。这对于任何复杂系统的设计都具有借鉴意义，即需要打破学科壁垒，进行跨领域合作。
具身 AI 演进路线图的清晰化： 提出的三步演进路线图 (three-step roadmap)（传统机器人学 -> 分层模型 -> 端到端模型）为理解具身 AI 的发展提供了一个宏观且逻辑清晰的框架。这有助于研究者和工程师明确当前所处阶段，并预见未来的研究方向和挑战。
新兴硬件潜力的具体化： 论文不仅提到了 3D IC、Chiplet、CIM 等新兴硬件技术，更进一步分析了它们带来的具体计算特性（如 3D IC 的超高带宽但慢速的跨存储体通信），并以此为基础构想了算法层面的利用方式。这使得对新兴硬件的讨论不再是泛泛而谈，而是具有了明确的算法设计指导意义。
对工具链发展的关注： 论文在未来展望中强调了软件和硬件工具链（编译器、操作系统、仿真工具、EDA 工具）的重要性。这提醒我们，先进的技术不仅需要核心算法和硬件的突破，更需要强大的开发工具支撑，以降低开发门槛、加速迭代和部署。

7.3.2. 批判

尽管这篇论文在综述广度和深度上表现出色，但作为一篇综述，也存在一些固有的局限性，并提出一些可以改进的方面：

缺乏量化比较的统一基准： 论文综述了大量不同研究，但由于这些研究各自的实验设置、评估指标和硬件平台可能不尽相同，导致难以进行统一的、跨论文的量化性能比较。例如，虽然提到了某些加速器比 GPU 提高了 $X$ 倍能效，但不同 GPU 型号、不同任务负载下的具体数值差异并未深入探讨。如果能尝试提出一个标准化的评估框架或基准，将有助于更客观地比较不同协同设计方案的优劣。
对特定协同设计案例的深入剖析不足： 论文在介绍算法和硬件时，简要提到了协同设计的原则和一些案例。但对于其中一些特别成功的协同设计案例，如 Figure 的 Helix，如果能更详细地拆解其算法优化细节和对应的硬件支持（即使是推测性的），将能更好地阐释协同设计是如何具体落地的，而不是仅仅停留在概念层面。
对非性能指标的关注较少： 除了准确性、延迟和功耗等性能指标外，机器人在实际部署中还面临如鲁棒性 (robustness)、安全性 (safety)、可解释性 (interpretability)、可扩展性 (scalability) 和隐私性 (privacy) 等重要挑战。论文主要聚焦于性能和能效，对这些非性能指标与算法-硬件协同设计之间关系探讨较少。未来的协同设计可能需要更全面地考虑这些因素。
伦理和社会影响的探讨缺失： 随着具身 AI 向通用智能发展，其伦理 (ethics) 和社会影响 (social impact) 将变得越来越重要。作为一篇展望未来的综述，如果能简要提及算法-硬件协同设计如何帮助构建更安全、更负责任的具身 AI 系统，或者这些系统可能带来的潜在伦理挑战，将使论文更具宏观意义。
图表信息的丰富度： 论文中的一些示意图（如 Figure 1、Figure 2、Figure 3、Figure 4）在概念传达上非常清晰，但如果能将一些关键的量化数据、性能对比或详细的架构设计融入到图表中，将能更直观地呈现信息。例如，Figure 1 的演进时间线可以尝试加入一些关键算法在特定硬件上实现的里程碑数据。

总而言之，这篇综述为机器人计算系统和具身 AI 的交叉领域奠定了坚实的基础，并为未来的研究指明了方向。上述批判旨在促进对该领域更深层次、更广维度思考。

Robotic computing system and embodied AI evolution: an algorithm-hardware co-design perspective

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 44 分钟读完 · 25,587 字