首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis

发表：2025/3/16

视觉语言动作模型机器人视频合成真实到模拟到真实方法机器人数据集扩展机器人操控任务

本文提出了ReBot，一种“真实模拟真实”的机器人视频合成方法，旨在解决机器人学习中的数据扩展问题。通过重放真实机器人的运动轨迹到模拟环境中，并结合图像修复技术生成真实背景，ReBot显著提高了视觉语言动作模型在仿真与现实中性能，成功率提升17%至21.8%。

SKILL-IL: Disentangling Skill and Knowledge in Multitask Imitation Learning

发表：2022/5/6

多任务模仿学习技能与知识解耦可迁移技能学习策略网络记忆解耦机器人导航任务

本文提出了一种新颖的SKILLIL框架，针对多任务模仿学习中技能与知识的解缠。作者假设智能体的潜在记忆可分为“技能”（如操作方式）和“知识”（如环境信息），从而提升训练效率与泛化能力。在模拟环境中，该方法成功率提高30%，并在真实导航任务中验证有效性。

Exploring Perception-Based Techniques for Redirected Walking in VR: A Comprehensive Survey

发表：2025/5/22

基于感知的重定向行走技术虚拟现实中的用户体验虚拟环境探索RDW算法分类虚拟现实技术综述

本文综述了虚拟现实中的基于感知的重定向行走（RDW）技术，回顾232篇论文并纳入165篇进行深入分析。提出了一个新的分类法，将RDW算法分为增益、增益应用、目标方向计算和一般增强，强调了目标方向计算的重要性，旨在指导未来算法的设计与研究。

Redirected Walking for Exploring Immersive Virtual Spaces With HMD: A Comprehensive Review and Recent Advances

发表：2022/5/31

重定向行走技术沉浸式虚拟空间探索虚拟与物理运动映射红irection 控制方法用户运动调整策略

本文全面综述了重定向行走（RDW）技术，探讨了如何在有限的物理空间中实现沉浸式虚拟体验。研究内容包括重定向操作的分类、各类控制器的方法，以及新兴技术（如深度学习）的应用。文章总结了当前的挑战及未来研究方向。

Predictive multiuser redirected walking using artificial potential fields

发表：2024/8/8

多用户重定向行走人工势场预测性重定向行走系统克罗伊德轨迹生成用户体验与虚拟环境

本文提出了两种基于回旋曲线的新型预测性重定向行走系统，解决了虚拟现实中多用户在有限物理空间内的导航问题。通过结合非谐人工势场，研究证明这些系统在用户体验方面显著优于传统反应式方法，有助于在开放环境中提升行走的灵活性和效率。

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

发表：2025/6/10

视觉语言-动作模型3D操作学习输入-输出对齐2D热图预测样本效率提升

本文提出了BridgeVLA，一种用于3D机器操作的新型视觉语言动作模型，解决了现有模型在样本效率和3D数据利用不充分的问题。通过将3D点云投影到多视角的2D图像和使用2D热图进行动作预测，该方法确保了输入输出对齐，并在多个基准测试中实现了最先进的性能，成功率显著提升。

Prompting Science Report 4: Playing Pretend: Expert Personas Don't Improve Factual Accuracy

发表：2025/1/1

专家人格对模型表现的影响多项选择问题性能评估领域特定与低知识人群对比GPQA Diamond与MMLU-Pro基准测试AI模型性能与人格提示关系

本研究探讨了为大语言模型分配“专家人设”是否能改善其在困难客观题上的表现。结果显示，专家人设对准确性没有显著提升，而不匹配人设甚至降低性能，且低知识人设会显著损害模型表现。结论表明，人设提示主要影响输出语气而非事实准确性。

Large Language Models meet Collaborative Filtering: An Efficient All-round LLM-based Recommender System

发表：2024/4/17

基于大语言模型的推荐系统协同过滤推荐系统冷启动推荐优化跨域推荐系统用户/项目嵌入生成

协同过滤推荐系统在提升用户体验方面取得了显著成功，但在冷启动场景中面临稀疏数据的挑战。本文提出了一种高效的全能型基于LLM的推荐系统ALLMRec，能够有效利用协同知识，提升在冷启动和暖启动场景中的表现，具有模型无关性和效率高的优点。

Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting

发表：2023/10/17

4D高斯Splatting表示动态场景重建实时渲染时空建模多视角场景合成

本文提出了一种基于4D高斯泼溅的动态场景重建与渲染方法，解决了从2D图像生成高质量动态3D场景的挑战。通过将时空视为整体，作者引入了4D高斯基元，模型能够高效捕捉几何形状与动态外观变化，实验结果显示其在实时渲染效率和视觉质量上均超越现有方法。

ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

发表：2025/12/3

基于相机的轨迹视频生成3D几何引导单目视频多轨迹监督ParaDrive 数据集两阶段训练策略

本文提出了ReCamDriving，一个基于视觉的，相机控制的新轨迹视频生成框架。与修复和LiDAR方法相比，此方法利用密集的3D Gaussian Splatting渲染作为几何指导，实现了精确控制。采用两阶段训练，首阶段粗略控制相机位姿，次阶段细化几何指导。此外，提出的跨轨迹数据清洗策略消除了训练与测试间的差距，构建了包含11万对轨迹视频的ParaDrive数据集，展示了优越的可控性与结构一致性。

Instant Gaussian Stream: Fast and Generalizable Streaming of Dynamic Scene Reconstruction via Gaussian Splatting

发表：2025/3/21

动态场景重建高斯运动网络即时流媒体框架坐标引导重建策略多视图特征投影

本文提出了一种名为即时高斯流（IGS）的流式框架，旨在解决动态场景自由视角视频重建中的高重建时间和误差累积问题。IGS引入了一种广义的锚点驱动高斯运动网络，通过将多视角2D运动特征投影到3D空间中实现快速生成高斯运动，并采用关键帧引导策略提高重建精度，评估结果显示重建时间大幅缩短至2秒以上，同时增强视图合成质量。

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

发表：2023/10/13

4D高斯Splatting表示动态场景渲染高效神经体素编码实时渲染轻量级多层感知机

本文提出了一种新的4D高斯溅射方法（4DGS），用于高效渲染动态场景。该方法结合了3D高斯模型与4D神经体素，通过一种新颖的神经体素编码算法和轻量级多层感知机（MLP），实现了在RTX 3090 GPU上以800x800分辨率下以82 FPS的实时渲染，且展示了优于其他最先进方法的渲染质量。

1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering

发表：2025/3/21

4D Gaussian Splatting动态场景重建存储优化方法快速渲染技术高帧率渲染

本文提出了一种新框架4DGS1K，通过时空变异评分和时间过滤器，解决了4D高斯泼溅技术的存储大和渲染慢问题。该方法能够以超过1000 FPS的速度渲染，存储需求减少41倍，同时保持了视觉质量。

3D Gaussian Splatting for Real-Time Radiance Field Rendering

发表：2023/8/8

3D高斯Splatting表示实时辐射场渲染视觉质量优化场景体积渲染稀疏点场景表示

本文提出了一种用于实时辐射场渲染的3D高斯泼溅方法，通过三个关键要素实现高质量、新视角合成，其中包括使用3D高斯函数优化场景表示、各向异性协方差控制的密度优化，以及快速可见性感知渲染算法，确保1080p分辨率下能够实现每秒≥30帧的实时渲染。

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

发表：2024/3/6

高分辨率图像合成扩散模型改进技术文本到图像生成双向信息流动架构噪声采样技术优化

本文提出了一种新型多模态扩散 Transformer（MMDiT）架构，结合修正流技术，以改善高分辨率图像合成质量。通过优化噪声采样策略并实现双向信息流，改进的模型在文本理解和用户偏好评分上优于现有最佳实践，验证了扩展定律的适用性。

iAgent: LLM Agent as a Shield between User and Recommender Systems

发表：2025/2/20

用户代理机制推荐系统安全性大语言模型代理算法偏见缓解个性化推荐优化

本文提出了一个新颖的用户智能体平台范式，通过引入大语言模型(LLM)智能体作为保护屏障，解决了传统推荐系统中的用户脆弱性问题。作者构建了数据集，并研发了和，后者结合动态记忆机制，使得在个性化推荐上表现优越，提升效果达16.6%。

Lightning Grasp: High Performance Procedural Grasp Synthesis with Contact Fields

发表：2025/11/11

高性能程序性抓取合成接触场数据结构无监督抓取生成快速抓取合成算法灵巧手实时抓取

本文提出了Lightning Grasp，一种新型的高性能程序化抓取合成算法，显著提高了抓取生成速度，并实现了对不规则及工具类物体的无监督抓取生成。关键在于通过接触场结构解耦复杂几何计算与搜索过程，简化了问题复杂度，推动了机器人操作领域的创新。

Embracing Bulky Objects with Humanoid Robots: Whole-Body Manipulation with Reinforcement Learning

发表：2025/9/17

整身操控的强化学习人形机器人多接触交互神经有符号距离场表示大规模人类动作数据蒸馏长时域任务控制

本论文提出了一种针对人形机器人的强化学习框架，旨在通过全身操控实现对笨重物体的有效拥抱。这种方法结合了预训练的人类动作先验与神经符号距离场，利用教师学生架构提炼人类动作数据，生成自然且稳健的全身动作，增强了多接触交互的稳定性和载荷能力。在仿真与真实世界实验的评估中，展示了该方法对不同物体适应性的显著提高。

Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-Training

发表：2024/11/1

BERT与TFIDF联合训练聚类短文本聚类特征对齐增强深度表示学习聚类算法评估

本文提出了一种协同训练聚类框架（COTC），结合BERT和TFIDF特征的优势，以增强短文本聚类效果。通过两个模块的相互学习，实现了对深度表示和聚类结果的有效对齐。实验表明，该方法在八个基准数据集上的性能显著优于现有最先进的算法。

RankMixer: Scaling Up Ranking Models in Industrial Recommenders

发表：2025/7/21

硬件感知推荐系统多头标记混合模块稀疏MoE变体特征交互架构千亿参数模型

本文提出了RankMixer，一种针对工业推荐系统的硬件感知排序模型，旨在克服训练和服务成本的限制。RankMixer使用多头词元混合模块替代传统自注意力机制，提高了模型的并行性和效率。同时，通过引入稀疏专家混合变体，支持十亿参数规模，使得模型在扩展性和用户活跃度上都取得显著提升。

……

81 - 100 / 982

跳转至

© 2025 AiPaper · 友情链接 · 站点地图