首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

Training-Free Efficient Video Generation via Dynamic Token Carving

发表：2025/5/23

视频扩散模型高效推理动态令牌雕刻梯度分辨率生成块状注意力机制视频生成加速

本文提出了一种无需训练的高效视频生成方法Jenga，通过动态注意力雕刻和渐进分辨率生成，显著解决了视频扩散变换器模型的计算瓶颈问题。研究表明，该方法在保持生成质量的同时，实现了8.83倍的推理加速，极大提升了实际应用效率。

WeiPipe: Weight Pipeline Parallelism for Communication-Effective Long-Context Large Model Training

发表：2025/2/28

长上下文建模大语言模型训练权重管道并行分布式训练优化通信效率提升

长上下文大型模型的训练面临通信开销瓶颈。本文提出了WeiPipe，采用权重流水线并行方法，通过将模型权重划分为流水线阶段并重叠通信与计算，显著降低了通信成本并最大化了训练效率。实验证明，WeiPipe在可扩展性和吞吐量上优于现有方法。

PIPEMESH: Achieving Memory-Efficient Computation-Communication Overlap for Training Large Language Models

发表：2025/1/1

大语言模型训练效率优化弹性管道调度混合分片策略通信与计算重叠记忆优化技术

论文提出了一种名为PIPEMESH的新方法，以解决商用云上训练大语言模型中计算与通信重叠的效率问题。通过弹性流水线调度、混合分片和流水线感知的选择性重计算，显著提高了吞吐量，减少了显存使用，实现了20.1%至33.8%的性能提升。

FreqDebias: Towards Generalizable Deepfake Detection via Consistency-Driven Frequency Debiasing

发表：2025/6/10

频域偏见消除深伪检测频率特征增强一致性正则化跨域泛化能力

这篇论文提出了FreqDebias框架，以解决深度伪造检测中的频谱偏置问题。通过引入伪造混合方法和双重一致性正则化，FreqDebias增强了训练样本的频率多样性，并在局部和全局层面促进一致的特征学习。实验表明，该框架显著提高了跨域泛化能力，优于现有技术。

Universal Method for Enhancing Dynamics in Neural Networks via Memristor and Application in IoT-Based Robot Navigation

发表：2025/1/1

基于膜电阻神经网络的机器人导航多模态神经网络动态增强中心循环神经网络膜电阻中央循环神经网络机器人运动性能评估

本文提出了一种针对忆阻神经网络的通用方法，以增强其动力学。通过扩展忆阻电磁辐射和神经元的集成，该方法生成多种动态的神经网络，提升基于物联网的移动机器人在复杂环境中的导航和安全性能，实现区域覆盖与避障能力的优越实验验证。

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

发表：2023/9/1

多任务机器人操作可泛化的神经特征场视觉行为克隆Perceiver Transformer稳定扩散模型

本文提出了GNFactor，一个利用可泛化神经特征场的行为克隆智能体，旨在提升机器人在复杂环境中的多任务操作能力。GNFactor通过共享3D体素表示，优化重建模块和决策模块，结合视觉语言模型，显著提高了对3D结构和物体语义的理解，在多个真实和模拟任务中展示了优越的泛化能力。

Multi-User Redirected Walking in Separate Physical Spaces for Online VR Scenarios

发表：2023/3/2

多用户重定向行走在线虚拟现实场景用户公平性策略虚拟环境协调沉浸式体验优化

本文提出了一种创新的多用户重定向行走方法，以解决在线多人虚拟现实场景中由于用户位于不同物理环境造成的移动公平性问题。该方法显著减少总重置次数，并通过优化用户探索体验提升沉浸感，确保不同用户在移动机会上的公平性。

A Study on Multi-User Interaction-based Redirected Walking

发表：2023/10/13

多用户交互重定向行走虚拟现实用户体验

本研究探讨了将重定向行走（RDW）技术整合到多用户虚拟现实环境中的方法，分析了远程用户之间的协作交互如何掩盖离散的位移操作。结果显示，81%的参与者未察觉位移，研究为开发者在多用户VR体验中有效利用RDW提供了实用指南。

Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation

发表：2022/9/13

多任务变压器机器人操作Perceiver变压器6自由度操控语言条件行为克隆包含RGB-D体素观察

本文提出了一种名为PerAct的多任务Transformer智能体，旨在提升机器人操控中数据稀缺情况下的表现。通过将RGBD观测转化为体素网格并采用Perceiver Transformer，PerAct能够以较少的示例高效学习18个模拟任务和7个现实任务，显著优于传统方法。

CONCURRENCY CONTROL IN REAL TIME DATABASE SYSTEMS: ISSUES AND CHALLENGES

实时数据库系统并发控制实时数据库的事务优先级实时数据库系统的挑战并发控制技术研究

实时数据库系统（RTDBS）与传统数据库系统面临不同的挑战，必须在严格的时间约束内优先执行事务。现有的概率性并发控制技术不适用于RTDBS，因此本文探讨了RTDBS中的并发控制问题，提出了新的适应性控制技术以满足实时应用的需求。

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

发表：2024/8/30

实时语音交互模型文本指导语音生成VoiceAssistant-400K 数据集流式推理方法端到端对话系统

本文介绍了首个全端到端开源实时语音交互模型MiniOmni，通过文本指导的语音生成与批量并行推理策略，实现了生成文本与语音的同步输出。同时，提出“任何模型均可交谈”的训练方法，并发布VoiceAssistant400K数据集，以提升语音助手的质量。

Information to Users

发表：1989/9/1

无训练加速方法大语言模型安全机制机器人动作学习数学推理基准测试文本到图像生成

本文讨论了实时数据库系统中的并发控制算法，旨在确保多个用户能够安全、有效地访问数据。研究指出，当前文献中存在的技术缺陷及提高算法效率的潜在方法。这些发现对提升实时数据处理的可靠性具有重要意义。

Spatial Intention Maps for Multi-Agent Mobile Manipulation

发表：2021/5/30

多智能体移动操作空间意图地图视觉基础的深度强化学习去中心化协作多机器人协作行为

本文提出了一种名为空间意图图的新型意图表示方法，旨在改善多智能体移动操作中的协调性。该方法将每个智能体的意图转化为与视觉观察对齐的俯视2D地图，有助于促进分散式机器人的协作行为。实验表明，空间意图图在多种环境中的应用显著提升了移动操作任务的性能和合作效率。

Recent Advances in Discrete Speech Tokens: A Review

发表：2025/2/10

离散语音令牌语音表示技术评述声学与语义令牌大语言模型与语音集成离散语音令牌化

本文系统回顾了离散语音词元在大语言模型中的应用，首次建立了声学词元与语义词元的分类体系，并针对各自的设计理念进行实验对比。研究指出离散化是构建文本自由语音大模型的关键，显现出该领域的挑战与前景。

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

发表：2025/5/7

VITA-Audio 多模态语言模型快速音频文本生成轻量级跨模态标记预测模块实时对话能力语音识别与合成任务

VITAAudio是一个新提出的端到端大型语音语言模型，旨在解决现有模型在流式生成音频词元时的高延迟问题。其核心创新是轻量级的多级跨模态词元预测模块，能够在单次前向传播中生成多个音频词元，实现3至5倍的推理加速，显著提升音频生成效率和流畅性。

LongCat-Audio-Codec: An Audio Tokenizer and Detokenizer Solution Designed for Speech Large Language Models

发表：2025/10/17

长语音大语言模型音频标记和去标记技术多阶段训练策略低比特率高质量语音合成音频特征提取

LongCatAudioCodec是一种针对工业级端到端语音大语言模型的音频分词与反分词解决方案。该方案采用解耦架构和多阶段训练策略，在16.67Hz的极低帧率下，以0.430.87 kbps的比特率实现了高语音可懂性和高质量合成，平衡了编码效率与解码质量。

Constrained Style Learning from Imperfect Demonstrations under Task Optimality

发表：2025/7/13

受限风格学习不完整演示学习强化学习的任务最优性机器人风格模仿自适应拉格朗日乘子

本研究提出了一种名为ConsMimic的方法，通过将学习从不完美示范中的风格模仿建模为受约束的马尔可夫决策过程，确保机器人在捕捉风格细微之处的同时保持任务性能的优越性。自适应拉格朗日乘数的引入使得选择性模仿成为可能，实验表明在ANYmalD上机械能降低了14.5%，实现了敏捷的步态模式。

AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control

发表：2021/4/6

对抗模仿学习物理基础角色控制动作优先机制强化学习动态选择无结构动作数据集

本文提出了一种全自动化的对抗性运动先验 (AMP) 方法，旨在为物理模拟角色生成优雅、逼真的动作。通过对抗性模仿学习，AMP简化了高层任务目标的设定，同时从非结构化运动剪辑中学习低层行为风格，避免了复杂的动作选择机制，实现在多样化数据集上高质量动作生成。

Adversarial Motion Priors Make Good Substitutes for Complex Reward Functions

发表：2022/3/29

对抗性运动先验复杂奖励函数替代风格奖励学习模拟强化学习自然策略转移

该研究提出使用从运动捕捉数据中学习的“风格奖励”替代传统的复杂奖励函数，以训练智能体实现更加自然和节能的行为。这种方法基于对抗运动先验，从而促进策略的真实世界迁移，证实了在无需复杂奖励的情况下也能实现有效控制。

Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs

发表：2024/8/26

无标定图像对的3D重建Gaussian Splatting 算法新视角合成上述深度学习模型 MASt3R 扩展ScanNet++ 数据集

本文提出Splatt3R，一种无需相机参数的前馈式3D重建与新视角合成方法。通过对未经校准的自然图像对进行处理，Splatt3R有效预测3D高斯泼溅参数，采用两阶段训练策略优化3D几何与新视角，同步处理结构与外观，实现实时渲染，并在ScanNet数据集上表现优秀。

……

121 - 140 / 982

跳转至

© 2025 AiPaper · 友情链接 · 站点地图