AiPaper

论文

登录后可查看剩余解析次数。
标签筛选
StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation
发表:2025/11/11
视频扩散模型实时交互视频生成流媒体内容创作低延迟视频生成多GPU实时流媒体服务
本文提出了StreamDiffusionV2,一个用于动态和交互式视频生成的流式系统,旨在解决现有直播模型在时间一致性和低延迟方面的瓶颈。该系统集成了SLO感知的批处理调度器、块调度器以及其他优化,支持无训练的实时流媒体服务,显著提升用户交互体验。
08
Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control
发表:2024/1/30
动态双足机器人控制深度强化学习应用机器人适应性与鲁棒性多样化行动技能双历史结构控制架构
本文通过深度强化学习开发了适用于双足机器人的动态运动控制器,超越了单一运动技能的限制,采用创新的双历史架构,利用长期和短期的输入/输出历史,提升了适应性与鲁棒性。该控制器在多种动态技能中表现优异,并在真实机器人上成功验证,推动了双足机器人的运动能力。
02
ExBody2: Advanced Expressive Humanoid Whole-Body Control
发表:2024/12/18
人形机器人全身控制表达性动态动作生成基于人体动作捕捉的控制策略机器人运动学自适应优化全身运动跟踪算法
本文提出了一种先进的人形机器人全身控制方法ExBody2,旨在实现动态与表现力兼备的全身运动,同时保持稳定性与鲁棒性。该方法通过训练并转移人类运动捕捉与模拟数据,结合了对全身速度与身体关键点的解耦,最终生成可执行行走、蹲下和跳舞的控制策略,并探讨了多功能性与特定运动表现之间的权衡。
02
SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model
社交媒体图像深伪检测大规模多模态模型深伪定位与解释深伪检测数据集图像真实性鉴别
本文提出了SIDA框架,利用大型多模态模型,实现社交媒体图像深度伪造的检测、定位和解释。同时,创建了社交媒体图像检测数据集SIDSet,包含30万张多样化的合成和真实图像,具有高真实性和全面注释,显著提高了深度伪造检测的效果。
03
FoldamerDB: a database of peptidic foldamers
发表:2019/10/17
折叠聚合物数据库抗菌与抗癌折叠聚合物生物活性折叠聚合物可公开访问的化合物信息库折叠聚合物结构与序列信息
FoldamerDB是一个开放源代码的肽折叠聚合物数据库,完全标注且经人工策划,包含1319种折叠聚合物的序列、结构与生物活性信息,来源于160多篇论文。其用户友好的界面支持多种搜索和筛选功能,填补了肽折叠聚合物领域公开资源的空白。
04
Explainable Machine Learning and Deep Learning Models for Predicting TAS2R-Bitter Molecule Interactions
发表:2025/10/9
解释性机器学习模型苦味分子与TAS2R相互作用预测深度学习用于肽配体识别G蛋白偶联受体功能研究分子特征与药物设计
本研究开发了可解释的机器学习和深度学习模型,用于预测苦味分子与TAS2R受体的相互作用。模型基于实验验证数据,具有高性能和易用性,能够辅助配体选择并增强对苦味受体功能的理解,对于药物设计和疾病研究具有重要意义。
02
Identifying Sequential Residue Patterns in Bitter and Umami Peptides
发表:2022/11/9
苦味和鲜味肽的序列模式识别肽序列空间粗粒化味觉特征的定量结构-活性关系氨基酸模式提取苦味和鲜味肽的特征系统改进
本研究探讨肽的氨基酸序列如何影响味觉,通过提取氨基酸序列模式,提出了一种粗粒度化肽序列空间的方法,系统识别苦味和鲜味肽的最佳模式:分别为一个疏水性后跟四个极性残基及两个负电荷后跟三个极性残基,结果显示实现了比随机模式和基线模式更好的改进。
05
A Challenging Benchmark of Anime Style Recognition
发表:2022/6/1
动漫风格识别基准大规模动漫风格识别数据集跨角色动漫风格评估抽象绘画风格学习Transformer模型在动漫识别中的应用
本文提出了动漫风格识别(ASR)的挑战性基准,旨在判断两幅不同角色的动漫图像是否来自同一作品。研究者收集了包含20,937张图像的大规模数据集(LSASRD),并设计了跨角色评估协议,以验证模型是否学习到抽象风格。结果显示,当前的Transformer模型在这一任务中表现有限,显示ASR研究的潜力与必要性。
04
Modality-Independent Graph Neural Networks with Global Transformers for Multimodal Recommendation
发表:2024/12/19
多模态推荐系统图神经网络模态独立感受野全局Transformer用户-物品图建模
本研究提出了一种具有模态独立感受野的图神经网络(GNN),通过为不同模态采用独立的GNN以增强多模态推荐性能。引入的基于采样的全局变压器有效整合了全局信息,改善了现有方法的局限性。实验结果表明,本方法在各种数据集上优于现有技术。
01
LITA: LMM-Guided Image-Text Alignment for Art Assessment
发表:2024/12/30
多模态艺术图像美学评估大语言模型引导的图像文本对齐LLaVA模型应用艺术风格与美学语义分析图像特征与文本评论对齐
随着社交媒体上艺术作品数量激增,艺术图像美学评估(AIAA)模型的需求日益增加。本文提出了一种名为LITA的模型,基于大型多模态模型(LMM)引导的图像文本对齐方法。LITA利用预训练的LLaVA模型生成评论,提取丰富的图像特征并进行美学预测,从而有效捕捉艺术风格和美学语义,实验结果表明其优于现有方法。
02
Generation of Clothing Patterns Based on Impressions Using Stable Diffusion
基于视觉印象的文本到图像生成多模态输入扩展的稳定扩散模型个性化产品生成图像生成的印象保留人工智能驱动的个性化
本论文提出了一种基于印象的个性化服装图案生成模型,扩展了Stable Diffusion架构,通过多模态输入系统同时处理文本描述、图案图像和量化视觉印象。实验结果显示,生成的图像在多个印象指标上与原图存在正相关,成功保留了设计中的主观视觉特征。
02
Explainable AI for Image Aesthetic Evaluation Using Vision-Language Models
发表:2025/2/3
视觉语言模型可解释人工智能图像美学评估
本研究利用视觉语言模型(VLM)改进图像美学评估,提出了一种可解释的评估方法。通过整合反义词提示和值分析,我们探讨了不同特征的重要性并使用回归器预测质量分数。结果显示了与人类判断的高相关性,推动了美学评估的客观性和可解释性。
03
A Multi-modal Large Language Model with Graph-of-Thought for Effective Recommendation
发表:2025/1/1
多模态大语言模型基于图的思维提示技术个性化推荐系统多模态推荐任务用户-项目交互图
本文提出了一种名为GollaRec的推荐系统模型,结合多模态大语言模型及思维图技术,旨在高效处理用户物品交互的图结构。GollaRec通过整合视觉和文本信息,利用文本图对齐与图指令微调,提升了多模态推荐任务的性能,超越了12个现有模型。
04
FiLM: Visual Reasoning with a General Conditioning Layer
发表:2017/9/23
特征线性调制层视觉推理任务CLEVR基准多步骤推理神经网络条件方法
本研究提出了一种通用条件化方法FiLM,运用特征级线性调制来增强神经网络计算。FiLM层显著提升视觉推理能力,尤其在CLEVR基准测试中将误差率减半,展现出对架构变更的鲁棒性及良好的少样本和零样本泛化能力。
03
ITMPRec: Intention-based Targeted Multi-round Proactive Recommendation
发表:2025/4/22
主动推荐系统基于意图的推荐方法双轮推荐策略大语言模型用户反馈模拟个性化推荐优化
本文提出了一种新颖的基于意图的目标导向多轮主动推荐方法ITMPRec,针对个性化推荐系统常被动接受中间序列的问题,通过预匹配策略选择目标物品,结合多轮推荐和用户意图量化模块,优化推荐效果。此外,引入大型语言模型模拟用户反馈,在四个公开数据集上显示优越性能。
02
LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics
发表:2025/3/12
大语言模型时间序列预测时间序列数据的模式与语义学习多尺度卷积神经网络时序依赖建模短期与长期预测
本文提出了一种名为LLMPS的新框架,旨在增强大语言模型在时间序列预测中的能力。LLMPS通过多尺度卷积神经网络学习时间序列数据中的基本模式与有意义的语义,并采用时间到文本模块提取价值,从而提高短期与长期预测的准确性,展现了领先的性能。
04
WebMall -- A Multi-Shop Benchmark for Evaluating Web Agents
发表:2025/8/18
基于大语言模型的在线购物性能评估多商店比较购物基准测试跨商店任务集合在线购物行为模拟真实产品报价数据集
本文提出了WebMall,一个用于评估基于大语言模型的网络智能体的多商店在线购物基准。WebMall包含四个模拟商店和91个跨商店比价购物任务,旨在满足复杂的购物需求。其任务设计涵盖基本和高级操作,优于现有基准,通过真实产品提供异质性,促进网络智能体的研究与发展。
02
CollabLLM: From Passive Responders to Active Collaborators
发表:2025/2/2
多轮人机协作基于多轮奖励的强化微调用户意图识别与建议协作模拟框架长效交互优化
本文提出了CollabLLM,一个增强人机协作的训练框架。通过引入多轮感知奖励来优化长期响应,CollabLLM在复杂用户意图识别和高质量建议方面超越传统模型。实验结果显示其任务性能提高18.5%,用户满意度提升17.6%,有效提升对话效率。
01
Qwen3-Omni Technical Report
发表:2025/9/22
多模态大语言模型Qwen3-Omni架构音频任务性能优化通用音频字幕生成多语言语音理解与生成
Qwen3Omni是一种单一多模态模型,首次实现文本、图像、音频和视频的最先进性能,维持与同规模单模态模型相媲美的能力,特别在音频任务上表现突出。该模型采用混合专家架构,支持多语言音频理解与生成,并通过轻量化的卷积神经网络降低延迟。
05
FAST: Efficient Action Tokenization for Vision-Language-Action Models
发表:2025/1/17
视觉语言动作模型频率空间动作序列标记化高频率机器人动作数据自回归序列模型机器人动作标记化
本文提出了一种新型的动作词元化方案——频率空间动作序列词元化(FAST),旨在改进自回归视觉语言动作模型在高频机器人动作上的表现。FAST能够有效处理常用词元化方法失败的高灵巧任务,同时发布了基于此的FAST词元化器,能够适应多种动作空间和控制频率,并显著降低训练时间和提高性能。
03