论文
登录后可查看剩余解析次数。
标签筛选
InfVSR: Breaking Length Limits of Generic Video Super-Resolution
发表:2025/10/1
视频超分辨率自回归扩散模型长序列视频处理视频扩散模型时序一致性评估
InfVSR创新性将视频超分辨率任务重构为自回归单步扩散模型,通过改造预训练扩散变换器实现流式高效推理,结合滚动缓存与视觉引导保障时序一致性,并通过分块像素监督与跨块分布匹配蒸馏多步扩散过程,有效突破长视频处理的效率和伪影限制。
04
GauCho: Gaussian Distributions with Cholesky Decomposition for Oriented Object Detection
发表:2025/6/10
定向目标检测高斯回归损失函数Cholesky分解面向遥感的OBB检测DOTA数据集评测
本文提出GauCho回归头,通过Cholesky分解直接预测高斯分布,理论上缓解有向边界框的角度不连续问题。结合有向椭圆表示,解决圆形物体编码模糊,实验证明在DOTA数据集上性能优于或匹敌先进方法,适合遥感有向目标检测。
05
A Survey on Generative Recommendation: Data, Model, and Tasks
发表:2025/10/31
生成式推荐系统大语言模型微调Diffusion模型多模态大语言模型基于大语言模型的推荐系统
本文综述生成式推荐的新范式,基于数据增强与统一、模型对齐训练及任务设计三个维度系统分析。重点探讨大型语言模型和扩散模型的创新应用,揭示生成推荐在知识整合、自然语言理解与个性化生成上的优势。
06
Linear-Time Graph Neural Networks for Scalable Recommendations
发表:2024/2/22
图神经网络推荐系统线性时间复杂度GNN模型大规模推荐系统用户-物品交互建模
本文提出线性时间图神经网络(LTGNN),解决GNN推荐系统的可扩展性问题,实现与经典矩阵分解相当的线性时间复杂度,同时保持高阶交互表达能力和预测精度。实验和消融研究验证了该方法的有效性和大规模应用潜力,代码已开源。
01
TrackVLA: Embodied Visual Tracking in the Wild
发表:2025/5/29
视觉语言动作模型Embodied视觉追踪轨迹规划扩散模型大语言模型骨干Embodied Visual Tracking Benchmark (EVT-Bench)
TrackVLA提出了一种融合视觉、语言与动作的具身视觉跟踪模型,通过共享大语言模型实现目标识别与轨迹规划协同,结合扩散模型提升路径生成能力。构建了包含170万样本的EVTBench,实验表明其在复杂野外环境下具备领先性能和强泛化能力。
03
Conditional out-of-sample generation for unpaired data using trVAE
发表:2019/10/4
条件变分自编码器最大均值差异正则化trVAE架构单细胞基因表达数据生成高维数据条件生成
本文提出trVAE,通过在解码器层引入最大均值差异(MMD)正则化,实现不同条件间分布匹配,解决条件变分自编码器在样本外生成中的泛化不足问题。trVAE在高维图像和单细胞基因表达数据上表现出更优的鲁棒性和预测准确性。
03
Cross-Modal Adaptive Dual Association for Text-to-Image Person Retrieval
发表:2023/12/4
文本到图像人物检索跨模态双向关联建模图文细粒度对应关系属性级跨模态关联视觉语言交互解码器
本文针对文本到图像人物检索中图文双向关联不对称问题,提出跨模态自适应双向关联(CADA)模型,设计基于解码器的自适应双向关联模块,实现文本词元与图像块及图像区域与文本属性的细粒度互联,显著提升检索性能。
01
Booster: Tackling Harmful Fine-tuning for Large Language Models via
Attenuating Harmful Perturbation
发表:2024/9/3
有害微调风险缓解大语言模型微调大语言模型安全机制权重扰动缓解方法模型对齐阶段优化
本文提出Booster方法,通过在对齐训练阶段引入损失正则化,有效减弱模型权重的有害扰动,缓解因有害微调造成的安全风险。实验证明该方法降低有害行为生成概率,同时保持下游任务性能,提升了大语言模型的安全微调能力。
04
dKV-Cache: The Cache for Diffusion Language Models
发表:2025/5/22
Diffusion模型扩散语言模型KV-Cache机制推理加速非自回归架构优化
提出延迟键值缓存(dKVCache)机制,针对扩散语言模型推理慢的问题,通过有条件的逐步缓存键值状态,实现210倍加速。两种变体兼顾性能和速度,验证了DLMs推理中上下文利用不足,显著缩小了与自回归模型的效率差距。
011
RDMA Point-to-Point Communication for LLM Systems
发表:2025/11/1
大语言模型系统通信优化RDMA点对点通信Mixture-of-Experts路由分布式推理通信机制异步强化学习微调通信
本文提出TransferEngine,实现了跨多种NIC的统一RDMA点对点通信接口,支持ImmCounter原语高效通知。其方案在NVIDIA ConnectX7与AWS EFA上达400Gbps峰值吞吐,推动了分解推理、异步强化微调及MoE调度的性能提升,避免供应商锁定。
03
Kimi Linear: An Expressive, Efficient Attention Architecture
发表:2025/10/31
线性注意力架构Kimi Delta Attention模块对角加低秩矩阵(DPLR)多头潜在注意力大规模长上下文建模
Kimi Linear提出了融合Kimi Delta Attention和多头潜在注意力的混合线性注意力架构,通过对角加低秩矩阵和定制分块算法,大幅提升长短上下文及强化学习中的性能与效率。其30亿激活参数模型在多任务中超越全注意力,并实现高达6倍吞吐和75%缓存削减。
02
BaZi-Based Character Simulation Benchmark: Evaluating AI on Temporal and
Persona Reasoning
发表:2025/10/27
BaZi人物模拟基准人物时间推理基于符号推理的大语言模型虚拟角色生成文化语境下的AI推理
本文提出首个基于八字的角色模拟数据集与八字大语言模型系统,融合符号推理与语言模型,实现时间动态且细粒度的人格生成。相比主流模型准确率提升30%62%,验证了文化符号与大语言模型结合在虚拟角色模拟中的有效性。
011
Applications of machine learning techniques for enhancing nondestructive food quality and safety det
食品无损检测技术机器学习在食品安全中的应用声学分析机器视觉电子鼻技术
本文综述了机器学习在无损食品质量与安全检测中的应用,重点比较传统机器学习与深度学习技术,结合声学分析、机器视觉、电子鼻等无损技术,实现食品品种识别、分类及安全监测。结果表明,深度学习具备更强特征学习能力,是未来食品工业实时检测的关键方向。
03
Antimicrobial Peptide Prediction Using Ensemble Learning Algorithm
发表:2022/2/25
抗菌肽预测集成学习算法肽序列特征提取多药耐药性防治生物信息学方法
本文提出了一种基于理化、进化及二级结构特征的集成学习算法,整合SVM、随机森林和梯度提升模型,提升了抗菌肽预测的准确性。该方法比传统算法性能提高约10%,为多重耐药菌的计算预测提供了有效工具。
07
Unified Semantic and ID Representation Learning for Deep Recommenders
发表:2025/2/23
统一语义与ID表示学习推荐系统表征优化冷启动问题缓解嵌入搜索距离度量大规模在线推荐
本研究提出统一语义与ID表示学习框架,融合两者优势,提升推荐系统性能。ID表示捕获独特属性,语义表示提取通用特征,有效缓解冷启动和重复问题。结合余弦相似度与欧氏距离,优化嵌入搜索,提高大规模在线推荐的准确性和效率。
015
Adversarial Label Flips Attack on Support Vector Machines
发表:2012/1/1
支持向量机对抗攻击标签翻转攻击对抗性样本生成优化框架设计机器学习鲁棒性
本文首次将对抗性标签翻转攻击问题形式化为优化框架,设计了基于Tikhonov正则化的高效算法攻击支持向量机。实验显示该方法显著削弱SVM多核分类准确率,强调深刻理解对抗策略对提升机器学习鲁棒性的关键作用。
05
AI-DrivenAntimicrobialPeptideDiscovery:MiningandGeneration
抗菌肽发现抗菌肽生成模型活性与毒性预测基于AI的药物设计抗菌药物耐药性应对策略
本文综述了人工智能如何通过挖掘和生成策略突破抗菌肽发现难题,利用判别模型预测活性与毒性,生成模型设计新肽以提升疗效安全性,显著加速抗菌素耐药性新疗法研发,展望AI在生物医学整合中的关键作用。
05
Learning Intents behind Interactions with Knowledge Graph for
Recommendation
发表:2021/2/14
基于知识图谱的推荐系统图神经网络推荐模型用户意图建模长时依赖关系建模意图驱动关系聚合机制
本文提出基于知识图谱的意图网络(KGIN),通过细粒度的意图识别和递归关系路径聚合,增强了长程依赖语义建模,提升推荐系统的表现和可解释性,在多数据集上显著优于现有图神经网络方法。
04
Emergent Active Perception and Dexterity of Simulated Humanoids from
Visual Reinforcement Learning
发表:2025/5/18
视觉语言动作模型机器人动作学习基于大语言模型的动作规划强化学习训练仿真人体控制
本文提出感知灵巧控制(PDC)框架,实现仅凭自我中心视觉训练模拟人形机器人,完成物体搜索、抓取、放置及操作等多任务,无需特权信息。通过强化学习,智能体展现出主动搜索等人类行为,推动视觉驱动的灵巧控制与复杂任务融合。
08
Grounded in Reality: Learning and Deploying Proactive LLM from Offline
Logs
发表:2025/10/29
大语言模型强化学习训练序列策略优化大语言模型微调
本文提出LearntoAsk框架,通过利用离线专家日志中的观察未来,重塑离线策略学习,实现无模拟器主动式大型语言模型训练。该方法精准推断逐轮奖励,有效分解长时程任务,并辅以自动化评分校准,在医疗领域展现优异性能,成功部署在线服务。
04
……