首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

AudioBench: A Universal Benchmark for Audio Large Language Models

发表：2025/4/1

音频大语言模型基准测试音频理解任务评估语音理解与场景识别语音理解与声音理解数据集音频大语言模型评估工具

本文提出了音频大型语言模型的通用基准——AudioBench，涵盖8个任务和26个数据集（包括7个新数据集），评估焦点为语音理解、音频场景理解和声学特征理解。针对现有评估的不足，AudioBench提供了数据集和指标，帮助填补音频信号下模型在指令执行能力的评估空白，同时评测了五种模型表现，发现没有单一模型在所有任务上均优。

Prototype memory and attention mechanisms for few shot image generation

发表：2021/10/6

少样本图像生成原型记忆机制记忆概念注意力神经网络视觉处理在线聚类学习

本文探讨了猕猴初级视皮层的“祖母细胞”在图像生成中的作用，提出其作为原型记忆先验的概念。这些原型通过动量在线聚类学习，并通过名为记忆概念注意力（MoCA）的机制来利用，从而在少样本图像生成任务中显著提高合成质量、可解释性和模型鲁棒性。

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

发表：2024/9/11

基于大语言模型的语音交互LLaMA-Omni 语音模型架构低延迟语音生成InstructS2S-200K 数据集实时语音响应

LLaMAOmni是一种新型语音交互模型，通过结合预训练的语音编码器、适配器和流式解码器，实现低延迟高质量语音与大型语言模型的交互。基于InstructS2S200K数据集，该模型无需语音转录，能在226ms内生成文本与语音响应，显著提升用户体验。

Deanonymizing Ethereum Validators: The P2P Network Has a Privacy Issue

发表：2024/9/6

以太坊验证者去匿名化区块链 P2P 网络隐私问题验证者地理分布分析去匿名化方法与实验以太坊网络安全隐患

本研究揭示以太坊 P2P 网络对验证者隐私的重大漏洞，证明其无法保护验证者匿名性。提出的方法使任意节点能够识别与其连接的对等点上的验证者。通过对四个节点三天内的数据分析，成功定位超过15%的以太坊验证者，并提供了关于其分布、地理位置和托管组织的洞见。讨论了这一隐私缺失所带来的安全风险，并提出保护验证者隐私的建议。

Active Visual Perception: Opportunities and Challenges

发表：2025/12/3

主动视觉感知复杂环境视觉感知机器人主动感知动态决策与多模态输入实时视觉数据处理

主动视觉感知是一种动态与环境交互的能力，通过感知与行动调整行为，以获取信息。本文全面回顾了该领域的机遇与挑战，强调其在机器人、自驾、监控等应用中的重要性，并指出实时数据处理和多模态整合等面临的挑战。

Personalized Generation In Large Model Era: A Survey

发表：2025/3/4

个性化内容生成研究大型模型时代的个性化生成个性化生成系统评估指标多模态个性化生成技术个性化生成数据集

这篇综述首次全面调查了个性化生成(PGen)在大型模型时代的发展，概念化了PGen的关键组成、核心目标和工作流程。提出的多层次分类法深入评审了技术进展、数据集和评估指标，并展望了PGen的应用及未来挑战，促进跨学科合作。

Large Language Models for Power System Applications: A Comprehensive Literature Survey

发表：2025/12/15

大语言模型在电力系统中的应用电力系统故障诊断负荷预测电力系统优化与控制电力系统仿真与规划

本综述系统分析了2020至2025年间大语言模型（LLMs）在电力系统中的应用，包括故障诊断、负荷预测等多个关键领域。尽管LLMs在提升电力系统运营方面展现出潜力，但也面临数据不足和安全性等多重挑战。文章指出未来研究应聚焦于特定架构的开发和传统方法的结合。

Utilizing LLMs for Industrial Process Automation: A Case Study on Modifying RAPID Programs

发表：2025/11/14

大语言模型在工业过程自动化中的应用RAPID程序修改少量示例提示方法领域特定编程语言敏感数据保护

本文探讨了如何利用现有的大语言模型(LLMs)支持工业过程自动化，尤其是专有的RAPID编程语言。研究发现，通过少样本提示(fewshot prompting)，企业在无需大量模型训练的情况下，能有效解决简单问题，且可确保敏感数据的安全。

Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought

发表：2025/5/21

多模态链式思维大视觉语言模型视觉思维表达形式图像-文本交互生成多模态任务性能提升

本文探讨了多模态思维链（MCoT）在大型视觉语言模型（LVLMs）中的机制，发现视觉思想在各MCoT格式中增强了性能和可解释性。定义了四种视觉思想表达形式，分析显示不同形式的清晰度与简洁性导致MCoT性能的显著差异。这为MCoT未来研究提供了新思路。

MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models

发表：2024/12/2

自定义动作转移多模态大语言模型视频扩散模型动作建模文本到视频生成

本研究提出了一种名为 MoTrans 的定制化动作迁移方法，通过基于多模态大语言模型的重描述器和外观注入模块，将特定人物动作从参考视频迁移到新视频中，从而提升复杂动作生成的效果，且实验结果显示其优于现有方法。

Motion Prompting: Controlling Video Generation with Motion Trajectories

发表：2024/12/4

视频生成中的运动轨迹控制视频生成模型条件训练运动提示扩展方法动态动作与时间组合建模视频模型的交互式应用

本文提出一种通过运动轨迹控制视频生成的方法，即运动提示，解决了现有视频生成模型过度依赖文本提示、难以捕捉动态细节的问题。研究展示如何将高层用户请求转化为运动提示，展现了其在运动控制和图像编辑中的广泛应用，结果显示出惊人的逼真效果与灵活性。

ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions

发表：2025/12/11

多镜头视频生成镜头转换设计镜头控制模块层次化编辑模式ShotWeaver40K 数据集

本文提出了，一个整合了参数级相机控制和层次化编辑模式感知提示的高效框架，以改善多镜头视频生成中的镜头转场设计。该框架通过6自由度姿态与内在设置实现精准相机信息注入，并利用镜头感知掩码机制实现对编辑模式的细粒度控制，提升了叙事表达的连贯性。

Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3) for Visual Robotic Manipulation

发表：2023/9/6

视觉机器人操作自适应扩散生成建模SE(3)等变性人类演示学习机器人操作数据效率

本文提出了DiffusionEDFs，一种新型的SE(3)等变扩散生成建模方法，旨在提高视觉机器人操作的学习效率。该方法通过仅需5到10个示范，实现高效端到端训练，并展示了卓越的泛化能力与鲁棒性，经过真实硬件实验验证其有效性。

MemoryFormer : Minimize Transformer Computation by Removing Fully-Connected Layers

发表：2024/11/6

Transformer架构高效注意力机制内存查找表计算复杂度减少多头注意力操作

为了降低大型语言模型的计算复杂度，本文提出了一种新颖的Transformer架构MemoryFormer，通过移除大部分全连接层的计算，仅保留多头注意力操作所需的必要计算。利用内存查找表和哈希算法动态检索离散向量，从而显著减少了计算成本，并在多个基准测试中验证了模型的有效性。

UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

发表：2025/12/9

多模态视频生成世界感知视频生成动态噪声融合统一数据集构建跨模态学习框架

本文提出UnityVideo，一个统一的多模态多任务学习框架，旨在加强世界感知视频生成。该框架通过动态加噪和模态切换器，结合多种训练范式，学习包括分割掩码、骨骼和深度图等多种模态。我们提供了130万样本的大规模统一数据集，显著提升了视频生成的质量与物理一致性。

GMT: General Motion Tracking for Humanoid Whole-Body Control

发表：2025/6/18

人形机器人全身控制普遍运动跟踪框架自适应采样策略动作专家混合架构多样化运动跟踪

本文提出了通用运动跟踪框架GMT，旨在让类人机器人在现实世界中追踪多样化的全身运动。其关键在于自适应采样策略和运动专家混合架构，前者在训练中平衡了简单与困难动作，后者提升了运动流形的专业化。通过广泛的实验，GMT展示了在多种运动中的先进性能。

Cognitive Conceptions of Learning

发表：1986/12/1

认知心理学与学习教学与学习的认知理念人类学习的累积特性先前知识的角色行为与认知学习理念的比较

本文探讨了认知心理学如何影响学习的理解，特别是学习的主动性、先验知识的作用及其累积性。通过对比行为主义与认知主义的学习观，提出了一种系统的认知学习理论，为未来的教育研究与实践提供了重要的指导。

Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation

发表：2025/3/29

序列推荐系统推理时间计算框架隐式多步推理用户表示增强轻量级推理学习方法

本文提出了ReaRec，一个创新的推理时计算框架，旨在提高序列推荐系统的用户表示能力。通过隐式多步推理和特殊位置嵌入，ReaRec克服了传统方法在理解用户偏好和长尾物品方面的局限。实验证明，其性能提升显著，具有广泛的应用潜力。

SAM 3D: 3Dfy Anything in Images

发表：2025/11/21

3D物体重建视觉引导的3D重建单图像3D重建人机协作数据标注多阶段训练框架

本文介绍了SAM 3D，一个生成模型，可从单张图像预测物体的几何形状、纹理和布局。通过人机协作的注释流水线，SAM 3D有效应对遮挡和场景杂乱，实现了前所未有的3D重建数据规模，并在真实世界的物体偏好测试中表现出色，胜率达到5:1。

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

发表：2025/8/13

多模态智能体长时记忆模型多转推理记忆有效性评估视频问答基准

本文提出了M3Agent，一个具有长时记忆的新型多模态智能体框架，能够实时处理视觉和听觉输入，构建和更新情节及语义记忆。作者开发了M3Bench作为评估标准，展示M3Agent在多轮推理和记忆检索方面的优势，实验结果显示其在长视频问答基准上超越其他模型。

……

201 - 220 / 972

跳转至

© 2025 AiPaper · 友情链接 · 站点地图