首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation

发表：2025/5/10

文本到图像生成分层跨模型对齐多模态生成MS-COCO数据集扩散模型

本文提出了层次化跨模态对齐(HCMA)框架，旨在解决文本到图像生成中的语义保真度与空间控制的矛盾。HCMA结合全局和局部对齐模块，实现复杂场景的高质量生成。实验显示，该方法在MSCOCO 2014验证集上超越现有技术，提升了FID和CLIP分数，证明了其有效性。

ATOMAS: Hierarchical Adaptive Alignment on Molecule-Text for Unified Molecule Understanding and Generation

分子与文本跨模态表示学习层次自适应对齐模型SMILES字符串表示学习分子生成与理解跨模态 fragment 对应学习

本文提出了Atomas，一个分层的分子表征学习框架，联合学习SMILES字符串和文本的表征。通过分层自适应对齐模型，Atomas能够自动捕捉细粒度片段的对应关系并在三个语义级别进行对齐。实验表明，该方法在各项任务中表现优异，凸显了其有效性和适用性。

Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception

发表：2025/9/19

自适应视觉模型主动视觉感知表示学习与强化学习结合大规模视觉识别基准高效推理

本文介绍了框架，旨在克服现有机器视觉模型的局限性，推动从被动处理向主动自适应视觉的转变。将视觉感知视作粗到精的序列决策过程，能高效识别任务相关区域，大幅降低推理成本（最高28倍），且灵活适应不同任务的需求，表现出与人类类似的感知行为，展现出在计算机视觉领域的巨大潜力。

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

发表：2023/5/7

零样本链式推理增强大语言模型推理能力提升计划与解决提示策略多步骤推理任务PS+提示扩展

本文提出了一种新型的计划解决式提示（PS提示），以改进大型语言模型（LLMs）在零样本思维链推理中的表现。该方法通过将任务分解为更小的子任务来消除步骤缺失错误，并通过详细指令扩展提高推理质量。实验显示，PS提示在多个数据集上明显优于传统方法。

Knowledge-aware Diffusion-Enhanced Multimedia Recommendation

发表：2025/7/22

知识感知扩散模型推荐系统图神经网络注意力机制对比学习的多媒体推荐用户项交互图建模多媒体数据集实验

本文提出了一种知识感知扩散增强架构KDiffE，利用对比学习范式改善多媒体推荐系统。通过构建融合注意力感知矩阵的图神经网络，KDiffE提高了用户项目交互的有效性，并采用引导扩散模型生成低噪声、强相关的知识图谱，显著增强了项目的语义信息。在多个数据集上的实验验证了该方法的有效性。

Accurate and scalable exchange-correlation with deep learning

发表：2025/6/17

深度学习的交换-关联功能化学精度的原子化能预测密度泛函理论中的数据驱动方法高精度参考数据集生成Skala模型

本文提出了一种名为Skala的深度学习交换相关泛函，旨在通过直接从数据中学习来提高分子和材料性质的预测精度。Skala在小分子的原子化能预测中达到了化学精度，同时保持了半局部DFT的计算效率，其性能得益于对大量生成的高精度参考数据的训练。

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

发表：2025/12/3

多镜头视频生成框架可控视频生成RoPE技术在视频生成中的应用多镜头叙事能力增强自动化数据标注管道

本文提出了框架，解决了当前视频生成技术在多镜头叙事视频制作中的局限性。通过引入两种新型变体，框架实现了灵活的镜头安排和连贯叙事。同时，建立了自动化数据标注流程，提升了可控性和生成质量。

OmniDexGrasp: Generalizable Dexterous Grasping via Foundation Model and Force Feedback

发表：2025/10/27

基于基础模型的灵巧抓取抓取任务与控制策略人类示范到机器人动作转换基于力反馈的适应性抓取策略通用灵巧机器人操作框架

本文提出了名为OmniDexGrasp的框架，通过结合基础模型和力反馈，实现通用灵巧抓取，提升机器人的泛化能力与抓取稳定性。主要包括三个模块：生成人类抓取图像以增强泛化、人类演示到机器人动作的转换策略，以及力感知自适应抓取策略，通过实验验证了其在多样化抓取任务中的有效性。

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

发表：2025/3/19

自监督强化学习深层网络结构目标条件任务无监督强化学习算法模拟环境实验

本文探讨了如何扩展自我监督强化学习的可规模性，提出将网络深度增加到1024层能显著提升性能。在无需奖励和示范的在线目标条件设置下，通过自监督信号和GPU并行仿真，多个任务的表现提升了2至50倍，并展现出复杂技能的质变。

I-FailSense: Towards General Robotic Failure Detection with Vision-Language Models

发表：2025/9/19

视觉语言模型失效检测语义不一致错误检测机器人操作中的故障检测I-FailSense框架开放世界机器人应用

本研究提出了IFailSense框架，旨在通过视觉语言模型（VLM）实现机器人操作中的失败检测，特别关注语义失配错误。方法包括构建用于检测语义失配失败的数据集，并在VLM上进行后训练，通过在多个内部层引入二分类头进行强大的分类。实验结果显示，该框架在检测精度和鲁棒性上表现优于现有方法，并能迁移到新环境。

RoboFail: Analyzing Failures in Robot Learning Policies

发表：2024/12/4

机器人操作失败分析深度强化学习框架机器人调控策略故障模式概率识别机器人模型泛化能力

本文提出RoboFail框架，通过深度强化学习驱动的PPO智能体主动操纵环境参数，识别和量化机器人学习策略失效模式。研究表明，微小的环境变化可显著提高策略失效的概率，从而为未来的针对性训练和安全防护提供数据支持。

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

发表：2025/12/2

基于大语言模型的强化学习优化矩阵乘法性能优化HGEMM CUDA内核自动优化CUDA执行速度提升

本文提出了一种名为的系统，结合大语言模型和强化学习自动优化半精度通用矩阵乘法（HGEMM）CUDA内核。在优化1,000种配置下，显著超越了包括和在内的主要矩阵乘法基线，提升幅度在不同执行模式下均超过11%。

LLM-REDIAL: A Large-Scale Dataset for Conversational Recommender Systems Created from User Behaviors with LLMs

发表：2024/8/1

对话式推荐系统大规模对话推荐数据集用户行为数据与对话模板结合多领域对话推荐大语言模型生成对话

LLMREDIAL是针对对话式推荐系统（CRS）开发的大规模数据集，克服了现有数据集的不可扩展性和语义不一致性问题。利用大型语言模型（LLMs）生成高质量对话，并结合历史用户行为与精心设计的对话模板，该数据集包含47600个多轮对话，具有高度一致的对话语义。通过人工评估验证了其质量，也评估了基于LLM的模型的可用性。

Unifying Qualitative and Quantitative Safety Verification of DNN-Controlled Systems

发表：2024/4/2

深度神经网络安全验证定量与定性验证统一框架神经障碍证书合成强化学习系统安全性随机行为模型

本文提出了一种新颖的框架，统一了深度神经网络控制系统的定性与定量安全验证，解决了在开放和对抗性环境中行为随机性带来的挑战。通过合成有效的神经障碍证书，框架实现了几乎肯定安全保证，并在验证失败时提供精确的概率安全界限。工具UniQQ展现了该框架在经典DNN控制系统上的有效性。

Towards Next-Generation Recommender Systems: A Benchmark for Personalized Recommendation Assistant with LLMs

发表：2025/3/12

基于大语言模型的推荐系统个性化推荐助手基准推荐系统性能评估复杂用户查询处理LLM能力评估

本文提出新的基准数据集RecBench，以评估大型语言模型(LLMs)在复杂个性化推荐需求下的能力。研究发现，LLMs作为推荐助手表现出初步能力，更擅长处理明确条件的查询，但在需要推理或应对误导信息时面临困难。

Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression

发表：2025/5/26

大语言模型压缩基准智能能力评估压缩模型的工作流生成长上下文检索量化与剪枝技术

该论文提出了智能体压缩基准（ACBench），全面评估压缩对大型语言模型（LLM）智能体能力的影响，涵盖12项任务、4种能力及量化和剪枝技术。实验表明，4比特量化对工作流和工具使用影响有限，但真实应用准确率下降约10%15%。

Towards Adaptive Humanoid Control via Multi-Behavior Distillation and Reinforced Fine-Tuning

发表：2025/11/9

自适应人形机器人控制多行为蒸馏强化微调人形机器人运动技能多技能控制器

本文提出一种自适应人形控制（AHC）框架，通过两阶段方法学习跨技能与地形的自适应运动控制器。首先，进行多行为蒸馏以获得基本的多行为控制器，然后通过强化微调提升其对多样化地形的适应性。结果表明，该方法在多种情况及地形下展现出强大的适应性。

Vision Bridge Transformer at Scale

发表：2001/11/28

视觉 transformer图像与视频编辑任务大规模数据处理桥接模型输入到输出轨迹建模

本研究提出了视觉桥接Transformer（ViBT），这是布朗桥模型的大规模实现，专为条件生成任务设计。与传统扩散模型不同，ViBT通过直接建模输入与输出之间的轨迹，实现高效的数据转换，展现出在图像和视频转换任务中的卓越能力，支持参数规模高达20亿和13亿，以及方差稳定速度匹配目标，确保鲁棒训练。

MTP: Exploring Multimodal Urban Traffic Profiling with Modality Augmentation and Spectrum Fusion

发表：2025/11/13

多模态城市交通建模频域特征学习视觉增强交通信号文本增强技术层次对比学习

本文提出了一种新颖的多模态城市交通画像框架MTP，通过数值、视觉和文本三种视角进行多模态特征学习，克服了传统单模态方法的局限，系统地理解和预测交通信号的数据，在六个真实世界数据集上展现出优越性能。

Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recommendation

发表：2025/12/2

多模态序列推荐系统Q-BERT模型语义表示与量化学习跨模态特征融合序列推荐优化

本文提出了一种名为QBERT4Rec的多模态序列推荐框架，旨在结合语义表示和量化建模，以克服传统推荐方法的不足。通过跨模态语义注入、语义量化和多掩码预训练，该模型显著提升了推荐系统的泛化能力和可解释性，在公共Amazon基准测试中表现优异。

……

361 - 380 / 982

跳转至

© 2025 AiPaper · 友情链接 · 站点地图