论文

登录后可查看剩余解析次数。
标签筛选
Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation
发表:2025/11/25
区块扩散视频生成世界模型模拟半自回归解码交互式视频流高质量视频合成
Inferix是一种基于块扩散的推理引擎,专为高质量、可变长度的沉浸式世界模拟而设计。其核心在于半自回归解码范式,结合了扩散和自回归的优点,克服了传统视频生成的局限。通过交互式视频流和性能分析,Inferix提升了实时交互能力,并支持精细基准测试,助力世界模型的进一步研究。
04
BatmanNet: Bi-branch Masked Graph Transformer Autoencoder for Molecular Representation
发表:2022/11/25
生物医药分子表示学习图神经网络自监督学习BatmanNet 图形变换自编码器药物发现任务性能提升大规模分子数据集
本文提出了一种新颖的双分支掩蔽图 Transformer 自编码器——BatmanNet,用于有效的分子表示学习。该模型通过简单的自监督策略,同时捕捉分子的局部和全局信息,成功重构掩蔽图中的缺失节点和边,在多个药物发现任务中取得了最先进的结果,展示了其在生物医药领域的巨大潜力。
03
Recent Developments in GNNs for Drug Discovery
发表:2025/6/2
药物发现中的图神经网络分子生成与性质预测药物-药物相互作用预测分子表示与输入类型药物发现基准数据集
本文综述了图神经网络(GNN)在计算药物发现中的最新进展,涵盖分子生成、分子属性预测和药物药物相互作用预测。强调GNN理解复杂分子模式的能力,讨论现有模型的输入类型与应用,以及相关的基准数据集,展望当前与未来应用。
02
Highly Accurate Disease Diagnosis and Highly Reproducible Biomarker Identification with PathFormer
发表:2024/2/12
PathFormer模型生物标志物识别图神经网络在组学分析中的应用精准疾病诊断阿尔茨海默病数据集
本研究提出了PathFormer模型,旨在提高生物标志物识别的准确性及其在多个数据集上的可重现性。与现有图神经网络相比,PathFormer能够在阿尔茨海默病和癌症转录组数据集中实现约30%的疾病诊断准确率提升,显示出其在组学数据分析中的潜力。
02
Transformer-XL: Attentive Language Models beyond a Fixed-Length Context
发表:2019/7/1
Transformer-XL架构长距离依赖建模语言建模上下文片段问题解决位置编码方案
本文提出一种新型的神经网络架构——TransformerXL,旨在克服固定长度上下文对语言建模的限制。该架构通过段级循环机制和新颖的位置信息编码方案,有效学习超越固定长度的长期依赖,解决上下文碎片化问题,性能显著优于传统模型,并在多个数据集上达到最新水平,速度提升达到1800倍以上。
05
ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute
发表:2025/8/30
大语言模型推理能力增强强化学习数学推理
本文提出了‘ParaThinker’,一种新型的大语言模型(LLM)扩展范式,利用原生思维并行技术来克服测试时计算的‘隧道视野’瓶颈。通过并行生成多样化推理路径并综合结果,显著提升了推理能力,且在多个基准测试中显示出相较于传统顺序方法的显著准确性提升。
04
Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation
发表:2025/6/12
自回归大语言模型并行生成多宇宙生成模型MapReduce范式多任务适应性分解多宇宙注意力机制
本文提出了框架,允许自回归语言模型通过隐含并行性进行生成。该框架利用MapReduce范式,分三个阶段完成生成:自适应任务分解、并行处理和无损结果合成。通过协同设计数据、算法和系统,在微调后显示出与顶级模型相媲美的性能,并提高了推理效率,开源了相关生态系统。
02
Accelerating Retrieval-Augmented Language Model Serving with Speculation
发表:2024/1/25
检索增强语言模型服务RaLMSpec加速框架规范性检索机制批量验证策略下游问答数据集
本文提出了RaLMSpec框架,通过推测性检索和批量验证加速检索增强型语言模型(RaLM)服务,保持模型输出一致。结合预取和异步验证,RaLMSpec在多个下游问答数据集上,显著提升了迭代式RaLM的效率,实现了1.04到7.59倍的加速比。
03
Agent-based Video Trimming
发表:2024/12/13
基于代理的视频修剪视频结构化视频过滤模块视频故事编排视频评估代理
本文提出了一种基于智能体的视频修剪方法(AVT),旨在解决用户生成视频过长的问题。通过三个阶段——视频结构化、剪辑过滤和故事组合,AVT能够有效检测无用素材,选择有价值片段并形成连贯故事。同时,本文开发了视频评估智能体,并使用新基准数据集进行评估,结果显示AVT在用户反馈和高光检测任务中表现优异。
01
Techniques and Challenges of Image Segmentation: A Review
发表:2023/3/2
图像分割基础模型语义分割深度学习图像分割图像处理与计算机视觉图像分割技术挑战
图像分割是图像处理与计算机视觉领域的关键步骤,涉及将图像分为有意义的非重叠区域。尽管已有显著进展,但在特征提取和模型设计上依然存在挑战。本文系统综述了图像分割的发展历程,将其划分为经典分割、协同分割与基于深度学习的语义分割,分析了每个阶段的主要算法和技术,并讨论了面临的主要挑战与未来发展趋势。
04
Accelerating Retrieval-Augmented Generation
发表:2025/2/6
检索增强生成系统大语言模型精确检索智能知识存储架构精确最近邻搜索加速大规模向量数据库检索
本文探讨了检索增强生成(RAG)在缓解大型语言模型(LLMs)幻觉和准确性问题上的应用。作者提出通过设计智能知识存储(IKS),实现了一种新型近内存加速架构,IKS在512GB向量数据库上的精确检索速度比传统CPU快13.427.9倍,显著提升了推理效率。
04
Maximizing RAG efficiency: A comparative analysis of RAG methods
发表:2024/10/30
检索增强生成优化RAG方法比较分析上下文压缩过滤器跨领域数据集评估向量存储与嵌入模型
本文通过对多种检索增强生成(RAG)方法的比较分析,采用23625次的网格搜索优化,研究了RAG流程的效率提升。发现上下文质量与相似度排名方法之间的平衡至关重要,同时上下文压缩过滤器对硬件利用和词元消耗优化亦非常关键。
03
An effective CNN and Transformer complementary network for medical image segmentation
发表:2022/11/30
医疗图像分割CNN与Transformer互补网络跨域特征融合块特征互补模块Swin Transformer解码器
本文提出了一种医学图像分割的CNN与Transformer互补网络(CTCNet),结合CNN的局部特征与Transformer的长距离依赖。通过Swin Transformer和残差CNN设计的编码器生成互补特征,并采用交叉融合模块和特征互补模块增强表示能力。实验表明,CTCNet在多器官和心脏分割方面显著优于现有模型。
03
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
发表:2025/11/12
通用智能体设计3D开放世界任务执行视觉语言模型应用人类交互范式零样本跨游戏泛化
本文提出Lumine,这是首个在复杂的3D开放世界中训练和部署通用智能体的开放式配方。Lumine通过统一感知、推理与动作生成,能以5 Hz的频率处理原始像素,实现30 Hz键鼠动作,具备高效执行任务和零样本跨游戏泛化能力。
06
Video-As-Prompt: Unified Semantic Control for Video Generation
发表:2025/10/24
视频生成的统一语义控制视频扩散 Transformer基于视频的提示生成框架100K视频语义对照数据集Mixture-of-Transformers专家体系结构
本文提出一种新范式VideoAsPrompt (VAP),通过使用参考视频作为语义提示,重构视频生成中的统一语义控制问题。VAP结合MixtureofTransformers架构和视频扩散变换器,构建了最大的视频生成数据集VAPData。该模型在开源方法中实现了38.7%的用户偏好率,展现出强大的零样本泛化能力。
07
GNNExplainer: Generating Explanations for Graph Neural Networks
发表:2019/3/10
图神经网络可解释性图结构优化GNNExplainer节点特征重要性识别机器学习中的图任务
GNNExplainer是首个通用的图神经网络可解释性方法,通过优化任务实现对模型预测的解释。该方法识别关键子图和节点特征,平均优于基线17.1%。GNNExplainer为普遍的图机器学习任务提供一致且简洁的解释,增强用户的信任和模型透明性。
02
End-to-End Multi-Task Learning with Attention
发表:2018/3/29
多任务学习中的注意力机制Multi-Task Attention Network (MTAN)端到端多任务学习架构任务特定特征学习图像分类任务
本文提出了一种新颖的多任务学习架构——多任务注意力网络(MTAN),实现任务特定的特征级注意力学习。该架构结合了共享网络和每个任务的软注意力模块,允许从全局特征中提取特定任务特征,同时实现特征共享。实验表明,该方法在多任务学习方面达到了先进水平,并对损失函数中的加权方案更不敏感。
03
Robotic computing system and embodied AI evolution: an algorithm-hardware co-design perspective
发表:2025/10/1
机器人计算系统具身人工智能演化算法-硬件协同设计
本研究探讨了机器人计算系统与具身人工智能的演进,提出了一种算法硬件协同设计的新视角,以应对在实时性和能效方面的挑战。强调了现有计算硬件(如CPU和GPU)在满足高级运动规划算法需求时的局限性,提供了一种新的方案改善性能和效率。
05
Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
发表:2024/6/25
扩散模型量化后训练量化视觉 transformer动态激活量化ImageNet 数据集
本文提出了一种新方法QDiT,用于精确量化Diffusion Transformers(DiTs),针对其在权重和激活中的空间及时间方差问题。通过自动量化粒度分配和样本级动态激活量化,QDiT显著降低模型计算成本,同时在ImageNet上实现了高保真度的图像和视频生成,建立了新基准。
03
Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model
发表:2025/4/23
生成式推荐系统统一生成推荐框架推荐系统检索与排序信息共享与优化动态平衡优化机制
本文提出了一种统一生成推荐框架(UniGRF),旨在解决推荐系统中检索和排序阶段的信息损失问题。通过将这两个阶段视为序列生成任务,UniGRF实现了信息共享、模型无关性,并引入排序驱动增强模块和动态平衡机制,以优化性能。实验结果显示,UniGRF在各基准数据集上显著优于现有模型。
08