论文
登录后可查看剩余解析次数。
标签筛选
MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model
发表:2024/5/1
运动生成模型可控运动生成动作潜在一致性模型实时运动生成运动生成的文本条件控制
本文提出了框架,致力于解决现有文本条件运动生成方法的低效率问题。通过引入运动潜在一致性模型,采用一步推理方式,大幅提升运动生成效率。同时集成运动ControlNet以实现显式控制信号,支持实时生成高质量可控的三维人体动作。
02
Qwen2 Technical Report
发表:2024/7/15
大语言模型系列 Qwen2指令微调语言模型多语言能力开源模型权重性能基准测试
本技术报告介绍了Qwen2系列模型,涵盖0.5亿至720亿参数的基础语言模型和指令微调模型,超越大多数开源模型及Qwen1.5。旗舰模型Qwen272B在多项基准测试中展现出色表现,具有卓越的多语言能力,支持约30种语言,推动了社区创新。
02
Mastering Diverse Domains through World Models
发表:2023/1/11
DreamerV3算法多任务强化学习自我想象行为优化稳定学习技术开放世界控制问题
本研究提出了DreamerV3,一种通用算法,能够在150多个任务中仅用单一配置超越专用方法。通过学习环境模型并想象未来场景,Dreamer实现了在Minecraft中首次不借助人类数据从零开始收集钻石,展示了在多样化领域中稳定学习的能力。
03
Memformer: A Memory-Augmented Transformer for Sequence Modeling
发表:2020/10/14
记忆增强Transformer序列建模优化外部动态记忆网络长序列处理记忆回放反向传播
Memformer是一种记忆增强型Transformer,针对标准Transformer在长序列建模中的效率问题,通过外部动态记忆提高了信息编码与检索的能力。该模型实现了线性时间复杂度与常数空间复杂度,并通过记忆回放反向传播优化了内存需求。实验结果表明,Memformer在推理时的内存减少8.1倍,速度提升3.2倍,同时性能相当。
03
VoCo-LLaMA: Towards Vision Compression with Large Language Models
发表:2024/6/18
视觉压缩与大语言模型基于注意力的视觉指令调优时间序列压缩与视频帧多模态任务的计算效率提升视觉语言模型的上下文利用
该论文提出了VoCoLLaMA,这是第一种利用大语言模型自有能力进行视觉压缩的方法。在视觉指令微调阶段引入视觉压缩词元,通过注意力蒸馏实现信息的高效压缩,达到576倍压缩率,同时在推理过程中的计算量减少94.8%。
04
A generalized e-value feature detection method with FDR control at multiple resolutions
发表:2024/9/25
多分辨率特征检测假发现率控制稳态灵活e-filter过程空间基因组宽关联研究模拟研究
本文提出了一种稳定灵活的e过滤器过程(SFEFP),旨在解决多分辨率结构下显著特征及其分组的检测问题,并控制假发现率(FDR)。与现有的多层Knockoff过滤器方法相比,SFEFP通过构建广义e值和利用稳定化处理,灵活整合不同分辨率下的检测过程,实验表明其在多分辨率FDR控制中表现出色。
00
Model-Free Assessment of Simulator Fidelity via Quantile Curves
发表:2025/12/5
无模型仿真信度评估量化曲线方法仿真与真实分布比较LLM仿真评价输出不确定性处理
本文提出了一种无模型的方法,通过分位数函数评估复杂系统模拟与真实结果之间的差异,关注输出不确定性,并将模拟器视为黑盒应用,适用于各种参数模型。该方法支持构建置信区间、风险感知摘要及模拟器性能比较,并在世界价值基准数据集上评估大型语言模型的保真度。
03
GraphBench: Next-generation graph learning benchmarking
发表:2025/12/4
图学习基准化图神经网络消息传递神经网络标准化评估协议生成式图学习
本文提出了GraphBench,一个全面的图学习基准测试套件,旨在解决现有基准测试分散的问题,促进可复现性。GraphBench涵盖节点、边、图和生成式任务,提供标准化评估协议、数据集划分和超参数调优框架,且对消息传递神经网络和图Transformer模型进行了基准测试,建立了基准性能。
02
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios
发表:2025/5/7
灵活动作控制参考视频动作迁移空间结构自适应频率意识动作提取视频生成与定制化
本文提出了一种新的灵活动作控制方法,名为,旨在解决异构场景下的动作定制任务。它利用实现空间结构的自适应,结合频率感知动作提取(FAE)有效迁移动作到任意目标图像,即便主体在布局和视角上存在差异,确保身份一致性。
03
ScoreHOI: Physically Plausible Reconstruction of Human-Object Interaction via Score-Guided Diffusion
发表:2025/9/10
基于扩散的物理可信重建人机交互重建分数引导采样接触驱动的迭代优化人机交互优化方法
本文提出了一种新型的优化器ScoreHOI,利用分数引导扩散模型,解决从单张图像中重建物理合理的人物交互问题。通过引入扩散先验和物理约束,该方法在推理过程中能够有效提高重建质量,并通过接触驱动的迭代优化增强接触合理性,实验结果表明其优于现有方法。
07
A Survey of Generative Recommendation from a Tri-Decoupled Perspective: Tokenization, Architecture, and Optimization
生成式推荐系统模型优化方法推荐系统架构标记化技术
本综述分析了生成式推荐系统的三个关键方面:分词、架构和优化。它指出,生成式方法能有效缓解错误传播,提高硬件利用率,并超越局部用户行为的限制。通过追溯分词演变,探讨了当前生成系统发展面临的挑战与机遇。
024
Unsupervised Degradation Representation Learning for Unpaired Restoration of Images and Point Clouds
发表:2024/10/30
无配对图像与点云恢复退化表示学习无监督恢复方法退化感知卷积低质量数据恢复
本文提出了一种无监督降解表示学习方案,以应对图像和点云非配对恢复中的挑战。通过在表示空间中区分各种降解,提取隐含信息,同时开发了降解感知卷积以适应多样化降解,从而建立了一个通用的非配对恢复框架,展示其在图像与点云恢复中的有效性。
02
Tongyi DeepResearch Technical Report
发表:2025/10/29
大型语言模型的深度研究代理长远信息寻求任务自动化数据合成管道深度研究基准测试自主研究能力增强
本技术报告介绍了Tongyi DeepResearch,一种专为长周期深度研究任务设计的代理式大型语言模型。通过端到端的训练框架,该模型结合了中期和后期训练,促进自主深度研究能力,并设计了一个无需人工标注的全自动数据合成流水线,从而在多个基准测试中取得了最先进的表现。
02
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
发表:2025/11/29
多模态理解与生成统一表征模型向量量化自编码器视觉基础模型自蒸馏约束
本文提出VQRAE,一种基于向量量化的表示自动编码器,解决了多模态理解、生成与重建的统一表示问题。通过使用一个统一的标记器,VQRAE实现了图像理解的连续语义特征和视觉生成的离散词元。该模型在冻结编码器学习高维语义VQ码本后,通过自蒸馏约束联合优化,确保语义信息损失极小,展现出优异的性能及扩展潜力。
07
UniSearch: Rethinking Search System with a Unified Generative Architecture
发表:2025/9/9
统一生成搜索框架搜索生成器与视频编码器集成搜索偏好优化方法短视频检索系统生成推荐系统
本文提出了UniSearch,一个用于快手搜索的统一生成式搜索框架,取代传统的级联架构。通过集成搜索生成器和视频编码器,UniSearch实现了端到端优化,解决了目标不一致和泛化能力有限的问题,从而提升了短视频搜索的整体性能。
09
NeuDATool: An Open Source Neutron Data Analysis Tools, Supporting GPU Hardware Acceleration, and Across-computer Cluster Nodes Parallel
发表:2019/4/12
开源中子数据分析工具GPU 硬件加速计算集群并行中子散射数据分析微观结构重构
NeuDATool是一款开源中子数据分析工具,克服了传统经验势结构精修算法在计算速度和可扩展性上的限制。该工具使用C编写,支持GPU加速和计算机集群节点间的并行运行,测试表明其计算速度比CPU提高400倍,能有效重建无序液体的微观结构。
02
Momentum-GS: Momentum Gaussian Self-Distillation for High-Quality Large Scene Reconstruction
发表:2024/12/6
基于动量的自蒸馏方法大型场景重建3D高斯Splatting隐式与显式特征集成区块加权动态调整
提出了一种新颖的方法MomentumGS,结合动量高斯自蒸馏以应对大规模场景重建中的内存消耗和存储开销问题。该方法通过动量更新维护教师高斯解码器,以提供全局指导,确保块间的一致性,并动态调整块的权重,从而在精度上实现重大突破。
04
DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning
发表:2025/3/15
多模态表示学习跨模态对齐框架层级化对齐方法高斯混合模型多模态 Transformer
本文提出了DecAlign,一个新型的分层跨模态对齐框架,旨在有效解耦多模态表征,处理模态之间的异质性与同质性。通过原型引导的最优传输与高斯混合模型相结合,DecAlign在保留模态独特特征的同时,增强了语义一致性。实验结果显示,该方法在多个基准数据集上性能优于现有最优方案,推进了多模态表征学习的研究进展。
03
HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation
发表:2025/5/10
文本到图像生成分层跨模型对齐多模态生成MS-COCO数据集扩散模型
本文提出了层次化跨模态对齐(HCMA)框架,旨在解决文本到图像生成中的语义保真度与空间控制的矛盾。HCMA结合全局和局部对齐模块,实现复杂场景的高质量生成。实验显示,该方法在MSCOCO 2014验证集上超越现有技术,提升了FID和CLIP分数,证明了其有效性。
02
ATOMAS: Hierarchical Adaptive Alignment on Molecule-Text for Unified Molecule Understanding and Generation
分子与文本跨模态表示学习层次自适应对齐模型SMILES字符串表示学习分子生成与理解跨模态 fragment 对应学习
本文提出了Atomas,一个分层的分子表征学习框架,联合学习SMILES字符串和文本的表征。通过分层自适应对齐模型,Atomas能够自动捕捉细粒度片段的对应关系并在三个语义级别进行对齐。实验表明,该方法在各项任务中表现优异,凸显了其有效性和适用性。
02
……