论文

登录后可查看剩余解析次数。
标签筛选
ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models
发表:2025/10/12
视觉语言模型微调监督与强化学习结合后训练范式增量奖励控制策略大规模视觉语言模型
本论文提出了一种新颖的后训练范式ViSurf,整合了大型视觉语言模型的监督微调(SFT)和可验证奖励强化学习(RLVR)的优点。通过将真实标注数据注入RLVR的推演过程,ViSurf实现了外部监督与内部强化的协同,同时引入三种新奖励控制策略以优化训练效果。实验结果显示,ViSurf的性能优于单独的SFT和RLVR方法。
05
RT-1: Robotics Transformer for Real-World Control at Scale
发表:2022/12/14
机器人通用模型大规模机器人数据集机器人 Transformer 模型任务无关的训练方法模型泛化能力
本文提出了名为RT1的机器人Transformer模型,旨在通过开放式、任务无关的训练方法,实现通用机器人控制。研究团队通过大规模真实数据收集,验证了模型在不同数据规模、模型大小和多样性下的泛化能力,展现出优秀的可扩展性和广泛适用性。
02
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
发表:2023/3/8
扩散模型在机器人策略学习中的应用视觉运动策略学习基于扩散的行为生成随机朗之万动力学优化多模态动作分布处理
本文提出了扩散策略,通过将机器人视觉运动策略建模为条件去噪扩散过程,生成机器行为。在12项任务评估中,该方法平均提升了46.9%的性能,超越现有最先进技术。扩散策略利用分数函数梯度和随机朗之万动力学优化,展现出多模态动作处理能力和训练稳定性,推动机器人模仿学习的发展。
03
OpenVLA: An Open-Source Vision-Language-Action Model
发表:2024/6/13
开放源代码视觉-语言-动作模型机器人多任务操控大规模机器人演示数据集模型微调与适应视觉-语言动作模型
OpenVLA是一个开源的视觉语言行为(VLA)模型,具有70亿参数,基于Llama 2语言模型并融合了先进的视觉编码器。它在97万个实际机器人演示数据上训练,能有效微调以适应多任务,显示出在29项任务中的绝对成功率比RT2X提高了16.5%。
03
A Training-Free Style-Personalization via SVD-Based Feature Decomposition
发表:2025/7/7
基于SVD的特征分解无训练样式个性化自回归图像生成样式引导生成结构注意力修正
本文提出了一种免训练的风格个性化图像生成框架,通过尺度自回归模型在推理阶段生成风格化图像,保持语义一致性并减轻内容泄露。通过对生成过程的分析,引入主特征混合和结构注意力校正两个轻量级控制模块,在无需额外训练的情况下实现了较高的风格和提示保真度,同时提升了推理速度和部署灵活性。
09
Infinite-Story: A Training-Free Consistent Text-to-Image Generation
发表:2025/11/17
文本到图像生成无训练文本到图像生成一致性生成框架多提示叙事场景自回归模型
本文提出了InfiniteStory,一个免训练的一致文本到图像生成框架,针对多提示叙事场景,解决身份和风格不一致问题。借助身份提示替换和统一注意力引导机制,该方法在不需微调的情况下,达到领先的生成性能,推理速度比现有模型快6倍,展现了广泛的应用潜力。
03
Towards Scalable Semantic Representation for Recommendation
发表:2024/10/12
基于大语言模型的推荐系统语义ID建模高维嵌入降维基于混合编码的推荐方法推荐系统性能增强
本研究提出了一种名为“MixtureofCodes(MoC)”的方法,以解决将大语言模型嵌入应用于推荐系统时遇到的维度压缩问题。通过在索引阶段构建多个独立的码本,并结合融合模块,MoC显著提升了语义表示的区分度和维度鲁棒性,优化了推荐系统的扩展性能。
04
Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation
发表:2025/6/24
基于扩散的无训练视频生成自适应测试时蒸馏框架动作自定义蒸馏视频生成模型参考视频指导生成
本文提出了MotionEcho,一种用于蒸馏视频生成器的无需训练的自适应测试时蒸馏框架,解决了参考视频引导下的运动定制挑战。该方法利用高质量教师模型指导快速学生模型的推理,通过动态分配计算资源来优化运动保真度和生成质量,同时保持高效性。
04
ABO: Dataset and Benchmarks for Real-World 3D Object Understanding
发表:2022/6/1
亚马逊伯克利物体数据集真实世界3D物体理解基准单视图3D重建物质估计跨域多视图物体检索
本文介绍了Amazon Berkeley Objects (ABO)数据集,旨在弥补真实与虚拟3D世界的差距。该数据集包含产品目录图像、丰富的元数据以及具有复杂几何和物理基础材质的3D模型,对应真实家居物品。文章基于ABO提出了挑战性基准,评估当前先进3D理解技术在单视图重建、材质估计和跨域多视图检索等方面的表现。
02
ToddlerBot: Open-Source ML-Compatible Humanoid Platform for Loco-Manipulation
发表:2025/2/3
开放源码类人机器人平台机器人学习与数据采集零-shot策略转移全身运动操控可重复性与可维护性
本文介绍了ToddlerBot,一个低成本、开源且兼容机器学习的人形机器人平台,旨在推动可扩展策略学习和机器人研究。它通过零样本模拟迁移实现高质量数据采集,并配有用户友好的遥操作系统,适合进行全身运动操作。该平台的3D打印设计保证了其可复现性与易维护性。
01
Extended Friction Models for the Physics Simulation of Servo Actuators
发表:2024/10/11
伺服驱动器物理仿真摩擦模型扩展强化学习控制算法动态模型参数识别物理引擎集成
本论文提出了扩展摩擦模型,以提高伺服执行器物理仿真的准确性。通过全面分析摩擦模型,利用摆锤测试台记录的轨迹识别模型参数,并将其集成到物理引擎中,对四种伺服执行器进行了验证。实验表明,新模型在精度上显著优于传统库仑粘滞模型,强调了先进摩擦效应在机器人仿真中的重要性。
01
The Influence of Artificial Intelligence Tools on Learning Outcomes in Computer Programming: A Systematic Review and Meta-Analysis
发表:2025/5/9
计算机编程中的人工智能工具AI辅助学习效果评估编程课程学习成效系统评价与元分析学生对AI工具的态度
这项系统综述和荟萃分析探讨了人工智能工具,如ChatGPT和GitHub Copilot,对计算机编程课程学习成果的影响。研究分析了35项2020至2024年的对照研究,结果显示使用AI工具的学生在任务完成时间和表现评分上显著优于未使用者,但在学习成功和理解难易方面没有显著优势。学生普遍对AI工具持积极态度,研究强调定制化的教学策略以优化AI辅助学习的有效性。
024
A systematic review and sequential explanatory synthesis: Artificial intelligence in healthcare education, a case of nursing
医疗教育中的人工智能护理学生知识与技能发展混合方法系统评估人工智能干预对护理教育的影响护理教育中的知识获取与态度
本研究系统评估人工智能(AI)对护理学生知识获取、技能发展和态度的影响,采用序贯解释性混合方法进行分析。结果显示,AI干预能显著提升学生的知识和技能,并改善学习投入与自我效能感,表明AI在护理教育中具有重要潜力,同时强调了政策标准化与教师培训的必要性。
02
Will the Use of AI Undermine Students Independent Thinking?
发表:2025/5/28
教育中的人工智能影响独立思维能力的培养认知发展与AI工具个性化学习环境教学策略与技术结合
本文探讨了人工智能在教育中整合对学生认知发展的影响,特别是独立思考和批判性思维技能的潜在削弱。虽然AI提供个性化学习和高效性的新机遇,但过度依赖可能会降低认知努力,影响学生的自主分析能力。研究分析了现有文献和案例,提出了通过教学策略协调技术辅助与独立思考之间的平衡建议。
02
New Era of Artificial Intelligence in Education: Towards a Sustainable Multifaceted Revolution
发表:2023/8/16
人工智能在教育中的应用智能辅导系统个性化学习教育伦理与AI教育中的AI挑战
本文通过对现有文献的系统回顾,探讨人工智能在教育领域的应用、优势和挑战。研究强调必须理解AI的潜在影响,以确保其可持续发展,倡导在享受技术带来的变革的同时,实施防范滥用的措施。
02
The Influence of Artificial Intelligence Tools on Student Performance in e-Learning Environments: Case Study
发表:2024/11/4
个性化学习工具在线教育技术人工智能在教育中的应用学生参与度与动机预服务教师培训
本研究探讨了人工智能驱动的个性化学习工具对阿治曼大学职前教师在电子学习环境中的学术表现和认知的影响。结果显示,使用这些AI工具的实验组在学术表现、知识保留、批判性思维、动机和参与度均显著优于传统教学的对照组,强调了AI在教师教育中的变革潜力。
03
Synthetic media and computational capitalism: towards a critical theory of artificial intelligence
发表:2025/3/19
计算资本主义中的算法条件自动化价值创造框架后意识形态理论计算系统与文化形式的互动分析算法社会的新计算转向
本文提出一种针对人工智能的批判理论,探讨计算系统生成文化内容的背景下,人类与机器之间的传统界限的破裂。引入“算法条件”与“后意识”概念,分析自模仿生产及其对真实性的重塑。作者强调批判性反思在应对合成媒体带来的社会挑战中的重要性。
01
Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
发表:2025/10/9
大语言模型强化学习训练混合奖励优化数学推理基准测试基于奖励模型的学习稀疏奖励问题
本文提出的混合强化学习框架HERO结合了可验证奖励和奖励模型的优势,以解决稀疏奖励信号在大规模语言模型推理任务中的局限性。HERO采用分层归一化和方差感知加权方法,显著提升了模型在数学推理基准测试中的表现,证明了混合奖励设计能够保留稳定性与细致性。
03
BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping
发表:2025/10/21
大语言模型强化学习训练平衡策略优化自适应剪辑机制离线策略优化高效样本重放
本文介绍了一种新方法BAPO,通过自适应裁剪的平衡策略优化,旨在稳定大语言模型的离策略强化学习。研究揭示了优化不平衡和固定裁剪机制导致的效率下降问题,并提出动态调整裁剪界限的策略,有效改善样本使用效率和训练稳定性。
04
LLMs as Sparse Retrievers:A Framework for First-Stage Product Search
发表:2025/10/21
大语言模型在产品搜索中的应用稀疏检索框架产品搜索中的词汇不匹配问题PROSPER框架语义分析与检索质量提升
产品搜索是电子商务的核心,要求高召回和高效部署。本文提出PROSPER框架,利用大语言模型作为稀疏检索器,解决词汇不匹配问题。通过字面残差网络和词汇聚焦窗口,改善关键词权重,解决传统稀疏检索中的幻觉与初始化难题,从而提升检索质量。
03