第 6 页 - 论文列表 - AiPaper

HybridFlow提出了一种结合单控制器与多控制器的混合框架，以解决现有基于人类反馈的强化学习(RLHF)系统中效率低下和灵活性不足的问题。通过层次化API解耦计算与数据依赖并设计3DHybridEngine，该框架在训练与生成阶段实现模型权重的零冗余重分区。实验结果显示，HybridFlow的吞吐量提升了1.53至20.57倍，显著优于现有系统。

Olaf: Bringing an Animated Character to Life in the Physical World

发表：2025/12/19

动画角色机械设计强化学习控制机制物理世界中的动画表现声音与热量优化策略机器人流畅运动学习

本文将动画角色Olaf带入物理世界，依赖强化学习及动画参考进行控制。创新地通过柔软泡沫裙下隐藏不对称的腿部，设计了紧凑的机械结构。引入了抑制冲击噪音和温度控制的新策略，验证了模型的有效性，展现了高逼真度的机器人表现。

Revisiting Feature Prediction for Learning Visual Representations from Video

发表：2024/2/16

视频特征预测自监督视觉表示学习V-JEPA模型基于视频的模型训练视觉Transformer

本文提出了VJEPA模型，通过独立的特征预测目标从2百万个视频中进行无监督学习，避免了依赖预训练图像编码器和其他监督形式的局限。研究表明，该模型在运动与外观任务上表现出色，充分验证了通过视频预测特征学习到的视觉表征的通用性和有效性。

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

发表：2025/12/12

视觉语言模型联合嵌入预测架构开放词汇分类文本到视频检索稀疏解码

本文提出了视觉语言模型VLJEPA，基于联合嵌入预测架构（JEPA），与经典自回归模型不同，VLJEPA在抽象表示空间内预测目标文本的连续嵌入。实验表明，该模型在参数量减少50%的情况下，性能优于传统视觉语言模型，同时支持选择性解码，减少解码操作2.85倍，适用于开放词汇分类、文本到视频检索等多种任务。

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

发表：2025/6/12

视频理解与规划自监督视频模型V-JEPA 2架构机器行为预测大语言模型与视频对话

本文提出了一种自监督视频模型VJEPA 2，将海量视频数据与少量机器人交互数据结合，构建出能够理解、预测和规划物理世界的模型。其在运动理解和人类动作预测方面达到了最先进的表现，并通过大语言模型在视频问答任务中刷新了纪录，标志着自监督学习在机器人规划上的新应用。

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

发表：2023/1/20

图像自监督学习图像联合嵌入预测架构视觉 TransformerImageNet 数据集语义图像表示

本文提出了一种新的自监督学习模型——图像基础联合嵌入预测架构（IJEPA），通过从单一上下文块预测同一图像中多个目标块的表征，实现高效的表征学习。IJEPA无需手工数据增强，借助一个特定的遮蔽策略显著提升了在ImageNet上的表现，展现出极佳的计算效率和广泛的适用性。

Improving Parallel Program Performance with LLM Optimizers via Agent-System Interfaces

发表：2025/6/18

生成优化框架并行程序性能提升代理-系统接口领域特定语言高性能映射器开发

本研究提出一种生成式优化框架，通过智能体系统接口自动化高性能映射器的开发，显著提升并行程序性能。该框架利用领域特定语言和AutoGuide机制，能够在仅10次迭代内找到优于传统方法的映射器，性能提升达3.8倍，调优时间缩短至数分钟。

SAM 3D Body: Robust Full-Body Human Mesh Recovery

单图像全身3D人类网格恢复Momentum Human Rig用户引导推理多阶段标注管道高质量标注生成

本文提出了SAM 3D Body (3DB)，一种用于单图像全身3D人体网格恢复的新模型，具有卓越的性能和强大的泛化能力。3DB采用Momentum Human Rig (MHR)进行新参数化网格表示，并支持用户引导推理。通过多阶段标注流程获得高质量数据，3DB在定性和定量分析中超越现有技术，开源共享。

VMAS: A Vectorized Multi-Agent Simulator for Collective Robot Learning

发表：2022/7/8

多智能体强化学习开源调度工具快速仿真框架向量化物理引擎Proximal Policy Optimization算法

本文介绍了向量化多智能体模拟器VMAS，一个开源框架，旨在提高多智能体强化学习的效率与可扩展性。结合用PyTorch创建的2D物理引擎，VMAS支持在GPU上并行运行数万次模拟，相比现有的OpenAI MPE快100倍，能支持复杂的集体学习任务。

InfoDCL: Informative Noise Enhanced Diffusion Based Contrastive Learning

发表：2025/12/18

扩散模型对比学习推荐系统中的对比学习用户偏好建模图卷积网络推理信息噪声增强

本文提出了一种名为InfoDCL的新框架，通过单步扩散过程结合辅助语义信息，生成真实用户偏好以增强对比学习。该方法转化生成与偏好学习之间的干扰为合作，并在五个真实数据集上显著优于现有方法。

Training-Free Efficient Video Generation via Dynamic Token Carving

发表：2025/5/23

视频扩散模型高效推理动态令牌雕刻梯度分辨率生成块状注意力机制视频生成加速

本文提出了一种无需训练的高效视频生成方法Jenga，通过动态注意力雕刻和渐进分辨率生成，显著解决了视频扩散变换器模型的计算瓶颈问题。研究表明，该方法在保持生成质量的同时，实现了8.83倍的推理加速，极大提升了实际应用效率。

WeiPipe: Weight Pipeline Parallelism for Communication-Effective Long-Context Large Model Training

发表：2025/2/28

长上下文建模大语言模型训练权重管道并行分布式训练优化通信效率提升

长上下文大型模型的训练面临通信开销瓶颈。本文提出了WeiPipe，采用权重流水线并行方法，通过将模型权重划分为流水线阶段并重叠通信与计算，显著降低了通信成本并最大化了训练效率。实验证明，WeiPipe在可扩展性和吞吐量上优于现有方法。

PIPEMESH: Achieving Memory-Efficient Computation-Communication Overlap for Training Large Language Models

发表：2025/1/1

大语言模型训练效率优化弹性管道调度混合分片策略通信与计算重叠记忆优化技术

论文提出了一种名为PIPEMESH的新方法，以解决商用云上训练大语言模型中计算与通信重叠的效率问题。通过弹性流水线调度、混合分片和流水线感知的选择性重计算，显著提高了吞吐量，减少了显存使用，实现了20.1%至33.8%的性能提升。

FreqDebias: Towards Generalizable Deepfake Detection via Consistency-Driven Frequency Debiasing

发表：2025/6/10

频域偏见消除深伪检测频率特征增强一致性正则化跨域泛化能力

这篇论文提出了FreqDebias框架，以解决深度伪造检测中的频谱偏置问题。通过引入伪造混合方法和双重一致性正则化，FreqDebias增强了训练样本的频率多样性，并在局部和全局层面促进一致的特征学习。实验表明，该框架显著提高了跨域泛化能力，优于现有技术。

Universal Method for Enhancing Dynamics in Neural Networks via Memristor and Application in IoT-Based Robot Navigation

发表：2025/1/1

基于膜电阻神经网络的机器人导航多模态神经网络动态增强中心循环神经网络膜电阻中央循环神经网络机器人运动性能评估

本文提出了一种针对忆阻神经网络的通用方法，以增强其动力学。通过扩展忆阻电磁辐射和神经元的集成，该方法生成多种动态的神经网络，提升基于物联网的移动机器人在复杂环境中的导航和安全性能，实现区域覆盖与避障能力的优越实验验证。

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

发表：2023/9/1

多任务机器人操作可泛化的神经特征场视觉行为克隆Perceiver Transformer稳定扩散模型

本文提出了GNFactor，一个利用可泛化神经特征场的行为克隆智能体，旨在提升机器人在复杂环境中的多任务操作能力。GNFactor通过共享3D体素表示，优化重建模块和决策模块，结合视觉语言模型，显著提高了对3D结构和物体语义的理解，在多个真实和模拟任务中展示了优越的泛化能力。

Multi-User Redirected Walking in Separate Physical Spaces for Online VR Scenarios

发表：2023/3/2

多用户重定向行走在线虚拟现实场景用户公平性策略虚拟环境协调沉浸式体验优化

本文提出了一种创新的多用户重定向行走方法，以解决在线多人虚拟现实场景中由于用户位于不同物理环境造成的移动公平性问题。该方法显著减少总重置次数，并通过优化用户探索体验提升沉浸感，确保不同用户在移动机会上的公平性。

A Study on Multi-User Interaction-based Redirected Walking

发表：2023/10/13

多用户交互重定向行走虚拟现实用户体验

本研究探讨了将重定向行走（RDW）技术整合到多用户虚拟现实环境中的方法，分析了远程用户之间的协作交互如何掩盖离散的位移操作。结果显示，81%的参与者未察觉位移，研究为开发者在多用户VR体验中有效利用RDW提供了实用指南。

Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation

发表：2022/9/13

多任务变压器机器人操作Perceiver变压器6自由度操控语言条件行为克隆包含RGB-D体素观察

本文提出了一种名为PerAct的多任务Transformer智能体，旨在提升机器人操控中数据稀缺情况下的表现。通过将RGBD观测转化为体素网格并采用Perceiver Transformer，PerAct能够以较少的示例高效学习18个模拟任务和7个现实任务，显著优于传统方法。

CONCURRENCY CONTROL IN REAL TIME DATABASE SYSTEMS: ISSUES AND CHALLENGES

实时数据库系统并发控制实时数据库的事务优先级实时数据库系统的挑战并发控制技术研究

实时数据库系统（RTDBS）与传统数据库系统面临不同的挑战，必须在严格的时间约束内优先执行事务。现有的概率性并发控制技术不适用于RTDBS，因此本文探讨了RTDBS中的并发控制问题，提出了新的适应性控制技术以满足实时应用的需求。

101 - 120 / 972