论文
登录后可查看剩余解析次数。
标签筛选
MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation
发表:2025/8/27
视觉语言动作模型机器人操作长期记忆与预期行动记忆条件扩散模型短期记忆与认知融合
本文提出了MemoryVLA,一个基于感知认知记忆的视觉语言行动框架,以应对机器人操控中的长时序非马尔可夫性。该方法结合工作记忆和海马体支持的情景记忆,通过感知和认知词元形成记忆库,显著提高了多种仿真及真实任务中的表现,提升成功率达26%。
03
SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
发表:2025/11/13
空间表征解耦模型机器人操作语义引导几何模块多任务评估空间Transformer
本论文提出了一种新颖的“SpatialActor”模型,旨在提高机器人操作任务的鲁棒性。该方法通过解耦语义与几何信息,采用语义引导的几何模块和空间变换器,来提升对复杂环境的空间理解能力。经多项模拟与实景测试,该模型在不同噪声条件下显著提高性能,展示出卓越的应用潜力。
03
SCB-Dataset: A Dataset for Detecting Student and Teacher Classroom Behavior
发表:2023/4/5
课堂行为检测数据集学生与教师行为分析深度学习在教育中的应用YOLO系列算法基准测试视觉语言模型
该论文构建了首个大规模的SCBDataset,涵盖19种学生和教师课堂行为类别,解决了教育领域数据集稀缺问题。数据集分为对象检测和图像分类两部分,提供了13,330张图像和122,977个标签,有望为教育AI应用奠定基础。
05
MiMo-Audio: Audio Language Models are Few-Shot Learners
音频语言模型少样本学习能力语音智能基准音频理解基准任务生成与转换
MiMoAudio音频语言模型展示了强大的小样本学习能力,借助超过一亿小时的预训练数据,模型可以在多样化音频任务中泛化,表现优秀。该模型在语音智能和音频理解基准测试中达到了最先进的水平,并在后训练阶段引入了多样化的指令微调数据集,进一步提升了性能。
01
心相应,爱相随:夫妻相似性与婚姻满意度
夫妻相似性研究婚姻满意度心理学研究方法社会学研究原生家庭影响
本研究探讨了夫妻间的相似性及其对婚姻满意度的影响。通过对638对中国夫妻的分析,采用以夫妻为中心的方法,研究发现真实夫妻在原生家庭维度上更为相似,相似性对婚姻满意度的影响因性别及婚姻阶段而异,主体效应仍是最大的影响因素。
02
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
发表:2024/2/28
1位大语言模型BitNet架构成本效益优化模型压缩与高性能自定义硬件设计
本研究提出了1位大语言模型变体BitNet b1.58,其参数限于三元值{1, 0, 1}。该模型的困惑度和终端任务性能与同等规模的全精度Transformer LLM相当,同时在延迟、内存、吞吐量和能耗上更具成本效益。这一成果为新一代高性能LLM的训练和针对1位模型的专用硬件设计提供了新视角和方法。
02
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
发表:2024/7/1
扩散模型序列生成基于因果预测的增强采样多阶段生成优化决策与规划任务中的性能提升变长生成与扩散指南
本文提出了名为扩散强制(Diffusion Forcing, DF)的新训练范式,结合了下一词元预测模型和全序列扩散模型的优点,实现了对具有独立噪声水平的词元进行去噪。该方法支持可变长度生成,并通过新采样和引导方案在决策与规划任务中显著提升性能,同时理论上优化了从真实联合分布提取的所有子序列的似然的变分下界。
02
Toward Full-Immersive Multiuser Virtual Reality With Redirected Walking
发表:2023/1/1
多用户虚拟现实重定向行走算法头戴式显示设备虚拟环境性能评估全沉浸式虚拟现实
本文探讨了提升虚拟现实(VR)全沉浸式多用户体验的挑战,提出重定向行走(RDW)算法以实现用户在有限空间内自然行走。通过构建模块化框架,该研究对多用户环境下的RDW算法进行了性能评估,结果表明增强方案显著改善了体验的可察觉性。
02
Redirected Walking for Multi-User eXtended Reality Experiences with Confined Physical Spaces
发表:2025/9/30
多用户虚拟现实行走重定向受限环境中的虚拟环境探索虚拟现实迷宫游戏设计网络虚拟现实环境中的运动评估cybersickness 研究与评估
本文提出了一种新型重定向行走算法,结合了人工势场和导向轨道技术,针对受限的6x6平方米空间支持多用户扩展现实体验。实验表明,该算法在80%的参与者中显著降低了晕动症发生率,同时提高了行走效率和用户舒适度。
03
Incident Diagnosing and Reporting System Based on Retrieval Augmented Large Language Model
发表:2025/4/11
基于检索增强的大语言模型的事件诊断与报告系统物联网异常传感器记录分析事件报告自动生成复杂事件理解与诊断物联网维护与故障排除支持
本研究提出了基于检索增强大型语言模型的事件诊断与报告系统(RAIDR),旨在解决物联网维护中异常传感器记录分析的挑战。RAIDR通过检索相关系统文档,结合大型语言模型,自动分析异常、识别根本原因并生成事件报告,从而简化系统维护和故障排除流程。
02
Leveraging LLMs for Collaborative Ontology Engineering in Parkinson Disease Monitoring and Alerting
发表:2025/12/16
大语言模型在本体工程中的应用帕金森病监测与警报本体人机协作本体构建一键提示与连锁思维提示技术X-HCOME与SimX-HCOME+方法论
本文探讨了利用大型语言模型(LLMs)构建帕金森病监测与警报本体的四种方法,包括一次性提示和思维链提示。结果表明,尽管LLMs能自主生成本体,但效果不佳;采用XHCOME与SimXHCOME的混合方法则通过人机协作显著提升本体的完整性与准确性,强调了人LLM协作在复杂领域的应用潜力。
02
HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data
发表:2025/10/13
无监督层次操控概念学习多模态数据关联分析跨模态感知网络机器人操作策略优化层次时间抽象建模
本文提出HiMaCon框架,通过自监督学习从无标注的多模态机器人演示中发现分层操控概念。方法结合跨模态相关网络和多时域未来预测器,有效捕捉不同场景中的感知运动关系,显著提升模仿学习策略在新环境中的泛化能力。
02
VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
发表:2025/11/25
4D场景重建动态对象分割VGGT基础模型全局动态线索挖掘训练无关优化方法
本文提出了VGGT4D,一个无需训练的新框架,用于动态4D场景重建。通过挖掘VGGT内部全局注意力层编码的动态线索,采用Gram相似度和投影梯度策略生成掩码,成功解耦静态背景和动态物体,提升了姿态估计和几何重建精度,实验表明在多个数据集上表现优异。
03
The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning
发表:2025/6/2
大语言模型强化学习训练负强化学习机制数学推理数据集正负样本强化学习推理能力提升策略
本文探讨了具有可验证奖励的强化学习(RLVR)的机制,将学习信号分解为正样本强化(PSR)和负样本强化(NSR)。研究发现,仅通过负样本训练模型,显著提升了多样性和推理能力,超越了传统的PPO和GRPO算法。基于此,提出了WeightedREINFORCE算法,有效提升数学推理任务的表现。
011
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
发表:2025/12/9
大语言模型强化学习训练大语言模型推理能力增强序列策略优化长上下文建模强化学习数学推理
本文研究强化学习(RL)是否真正扩展了语言模型的推理能力,提出一个透明的合成推理框架,分析预训练、中期训练和RL的因果贡献。主要发现包括:RL仅在模型能力边缘时有效提升能力,且仅需1%的预训练种子数据即可实现跨场景迁移,而中期训练显著优于纯RL,并有效降低奖励作弊。
04
RELIC: Interactive Video World Model with Long-Horizon Memory
发表:2025/12/4
交互式世界模型长时序记忆自回归视频生成实时内容检索视频扩散蒸馏
论文提出了RELIC,一个统一的交互式视频世界模型,能同时解决实时长时程生成、一致的空间记忆和精确的用户控制三大挑战。它通过压缩的历史潜在词元编码相对动作和相机位姿,支持高效的三维一致内容检索,以实现长期连贯性。
03
新课标理念下基于UbD理论的小学数学单元整体教学设计研究——以“综合与实践”为例
UbD理论在小学数学教学中的应用小学数学综合与实践单元设计逆向设计教学策略多元理解性探究小学数学教学质量提升
本文分析了基于UbD理论的小学数学“综合与实践”单元整体教学设计,强调其整体性与逆向设计的特点,提出教师应以学情为基础,科学设计学习活动并重视评价,以提高教学质量。研究结果显示UbD理论与新课标理念具有高度契合性。
02
UbD理论下小学数学综合与实践教学设计探究——以“节约用水”课程为例
UbD逆向教学设计小学生数学综合教学实践教学设计多学科融合学习节约用水课程
本文探讨了如何在小学数学综合与实践模块中应用UbD理论,提高教学质量。通过合理设计评估,整合多学科学习和真实情境,利用信息技术,促进学生从接受性学习转向理解性学习,提升知识迁移与应用能力。
02
UniTok: A Unified Tokenizer for Visual Generation and Understanding
发表:2025/2/28
统一 tokenizer视觉生成与理解多代码簿量化机制VQVAE与CLIP结合视觉语言模型
本文提出了UniTok,一个统一的视觉生成和理解分词器,利用新颖的多码本量化机制解决了VQVAE和CLIP训练目标结合中的损失冲突问题。UniTok在ImageNet上实现了0.38的rFID和78.6%的零样本准确率,且能够无缝集成至多模态大语言模型,显著提升生成和理解性能。
02
RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models
发表:2025/8/4
视觉语言动作模型的上下文适应性无参数微调的新任务学习机器人示范数据集上下文学习注入多任务机器人操作
本文提出RICL框架,通过特定微调方案为预训练视觉语言动作(VLA)模型注入上下文自适应能力,允许用户仅用1020个演示任务提升模型性能,而不需进行参数微调,显著降低了用户的使用门槛。
02
……