论文

登录后可查看剩余解析次数。
标签筛选
Hiding in the AI Traffic: Abusing MCP for LLM-Powered Agentic Red Teaming
发表:2025/11/20
基于MCP的指挥控制架构自主红队攻击系统生成式安全攻防自主渗透测试对抗性行为分析
本文提出了一种新颖的命令与控制(C2)架构,利用模型上下文协议(MCP)实现隐蔽的自主侦察智能体,重塑进攻性网络安全。该方法提升了系统的目标导向行为,并消除了可用于检测的网络伪迹,克服了现有方法中存在的通用性与专业性之间的权衡以及上下文限制。
02
Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives
发表:2024/11/8
Bradley-Terry模型理论基础偏好驱动的奖励建模多任务大语言模型评估顺序一致性在奖励建模中的应用基于深度神经网络的奖励模型
本文重新审视了BradleyTerry模型在偏好奖励建模中的应用,建立了基于深度神经网络的收敛速度理论基础,尽管理论上可靠,但在下游优化中并非必要,提出替代的上界算法,并通过12000个实验验证了不同奖励建模方法的有效性。
04
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
发表:2025/11/26
长视频推理框架多模态链式工具推理长视频问题回答数据集视听证据检索与处理大规模多模态模型
本文提出了LongVT,一个端到端智能框架,通过交错式多模态工具思维链增强长视频推理能力。它借助大型多模态模型的时间定位能力,进行全球到局部的推理过程,并发布了VideoSIAH数据集以支持训练和评估,显著提升了在多个基准测试中的表现。
03
DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning
发表:2025/2/24
合成演示生成数据高效的视觉运动策略学习空间增广演示生成3D点云合成机器学习机器人操作
本文提出了DemoGen,一种低成本的全合成演示生成方法,旨在增强机器人视觉运动策略的学习。该方法只需一个人类演示,即可通过调整动作轨迹生成适应新物体配置的空间增强型演示。实验表明,DemoGen显著提升了多种实际操作任务的策略性能,具备良好的扩展性,适用于具有挑战性的场景。
05
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
发表:2023/11/26
扩散模型视频生成模型文本到视频生成高质量视频微调视频数据集策划
本文介绍了稳定视频扩散模型(SVD),用于高分辨率文本到视频和图像到视频生成。研究评估了三阶段训练过程,强调精心策划的数据集在生成高质量视频中的重要性,并提出了一种系统化的数据整理过程。这项研究为下游任务提供了强大的运动表征,并展示了其优越性能。
02
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
发表:2024/3/22
文本到视频生成长视频生成自回归视频生成条件注意力机制视频增强应用
本论文提出了一种名为StreamingT2V的自回归长视频生成方法,解决了现有文本生成视频模型在生成长视频时的局限性。通过条件注意力模块(CAM)和外观保持模块(APM),确保了视频帧之间的平滑过渡和场景特征的保留。此外,随机混合技术提升了视频质量,实验表明该方法能够生成超过1200帧的高质量动态视频。
02
SecureGPT: A Framework for Multi-Party Privacy-Preserving Transformer Inference in GPT
发表:2024/1/1
多方隐私保护变压器推理安全自然语言处理框架生成预训练变换器多方私密协议设计隐私保护机制验证
随着生成式预训练Transformer (GPT)的普及,用户数据隐私问题日益凸显。为此,本文提出SecureGPT框架,设计了包括M2A、截断、除法、softmax及GELU协议等多方隐私保护模块。通过在半诚实对手模型下的安全性证明,SecureGPT实现高达100倍的性能提升,推动了GPT的隐私推理技术发展。
01
Masked Diffusion for Generative Recommendation
发表:2025/11/28
生成式推荐系统标签扩散模型语义ID建模序列推荐系统自回归建模
本文提出了一种新的生成式推荐方法——掩蔽扩散生成推荐(MADRec),通过离散掩蔽噪声对用户交互序列中的语义ID(SID)进行建模。该方法克服了传统自回归模型高推理成本及低数据利用效率的问题,实验表明MADRec在性能上优于自回归模型,尤其在数据受限和粗粒度召回场景中表现显著。
010
CoFiRec: Coarse-to-Fine Tokenization for Generative Recommendation
发表:2025/11/28
生成式推荐系统细粒度用户偏好建模自主回归推荐生成粗到细语义分层公共基准数据集测试
本论文提出了生成式推荐框架CoFiRec,结合物品语义的粗粒度到细粒度特性,改进了用户历史的词元化过程。CoFiRec通过分层处理物品信息,从类别到详细描述,增强了用户意图的捕捉,实验证明其在多项基准测评中优于现有方法。
07
EAMamba: Efficient All-Around Vision State Space Model for Image Restoration
发表:2025/6/27
图像恢复高效视觉状态空间模型Mamba框架多头选择扫描模块低阶计算机视觉
本研究提出高效全方位Mamba(EAMamba),将多头选择性扫描模块和全方位扫描机制相结合,以解决视觉Mamba在图像恢复任务中的计算复杂度和局部像素遗忘问题。实验表明,EAMamba在保持相似性能的同时,FLOPs显著减少3189%。
01
NTIRE 2025 Challenge on RAW Image Restoration and Super-Resolution
发表:2025/6/3
RAW 图像恢复与超分辨率图像信号处理管道NTIRE 2025 挑战赛Bayer 图像上采样图像去噪与模糊恢复
本论文回顾了NTIRE 2025 RAW图像恢复与超分辨率挑战,重点介绍了提出的解决方案和结果。新方法针对RAW图像的模糊和噪声恢复及Bayer图像的2倍放大,参赛的230名参与者中有45名提交了结果,为现代图像处理管道提供了前沿技术。
03
Attention-Guided Progressive Neural Texture Fusion for High Dynamic Range Image Restoration
发表:2021/7/14
高动态范围图像恢复注意力引导的纹理融合多曝光融合神经特征传递机制渐进式纹理混合模块
本文提出了一种注意力引导的渐进神经纹理融合(APNTFusion)模型,用于高动态范围(HDR)图像恢复。该模型通过有效的双流结构分离纹理特征迁移和多曝光融合,利用神经特征迁移机制和渐进纹理融合模块解决饱和区、运动及伪影带来的内容关联模糊性,实验结果显示其性能优于现有方法。
02
Effective Measures to Improve Current Collection Quality for Double Pantographs and Catenary Based on Wave Propagation Analysis
发表:2020/4/6
双重受电弓与接触网互动波传播分析优化措施有限元方法建模电流采集质量改善高速度列车受电弓与接触网
本研究提出了一种基于波传播分析的方法,以改善双受电弓与接触网的电流收集质量。通过有限元模型分析,发现受电弓的最优间距取决于接触线抬升速度的变化。此外,加入稳臂阻尼器能有效降低波强度,提高拖后受电弓的性能。
05
Emerging Properties in Self-Supervised Vision Transformers
发表:2021/4/29
自监督视觉TransformerViT特征学习图像语义分割DINO自蒸馏方法ImageNet数据集评估
本文研究自监督学习(SSL)对视觉变换器(ViT)的独特贡献,提出了DINO方法。研究发现,自监督ViT特征显式包含图像语义分割信息,且在kNN分类器上表现优异,达到78.3%的准确率。DINO在ImageNet上实现了80.1%的顶级准确率,展示SSL与ViT的强协同。
02
LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders
发表:2025/5/7
长期序列建模工业推荐系统高效Transformer架构多种混合注意力机制GPU优化推荐系统
本文提出了LONGER,一个针对工业推荐系统的长序列Transformer模型,旨在建模超长用户行为序列以捕捉用户偏好。创新包括全局令牌机制以稳定长上下文中的注意力、令牌合并模块降低复杂度,以及通过工程优化提升计算效率,最终在字节跳动的多个场景中表现优异,验证了其工业级扩展性。
02
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
大语言模型强化学习训练长上下文建模大语言模型推理能力增强稀疏注意力机制
本文介绍了DeepSeekV3.2模型,平衡高计算效率与推理能力,核心技术包括:1. 深度稀疏注意力机制,降低计算复杂性;2. 可扩展强化学习框架,性能媲美GPT5;3. 大规模智能体任务合成流水线,提升泛化能力和指令遵循的鲁棒性。
072
MAGI-1: Autoregressive Video Generation at Scale
发表:2025/5/19
自回归视频生成模型图像到视频生成高效时间一致性建模可控视频生成长上下文视频生成
本文提出MAGI1,一个基于世界模型的视频生成系统,采用自回归方式逐块生成视频,支持因果时间建模和实时流式生成。通过创新算法和基础设施,MAGI1在图像到视频任务上表现优异,具备240亿参数并支持400万词元的上下文,实现在内存高效的推理。
09
Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement
发表:2020/1/19
低光照图像增强零参考深度曲线估计DCE-Net网络图像特定曲线估计无参考损失函数
本研究提出零参考深度曲线估计(ZeroDCE)方法,通过轻量级网络DCENet进行图像特定曲线估计以增强低光照图像。该方法无需成对或不成对数据,利用无参考损失函数有效提升图像质量,并展示了在多种光照条件下的良好泛化能力,且在暗处人脸检测上具有潜在优势。
02
Pack and Force Your Memory: Long-form and Consistent Video Generation
发表:2025/10/2
长篇视频生成记忆包机制上下文建模自回归视频模型错误传播缓解
本文提出了一种长时程视频生成的新方法,解决了模型在捕捉长距离依赖和自回归解码中错误累积的问题。通过引入可学习的上下文检索机制和单步近似策略,本文显著增强视频生成的一致性和可靠性,提升了自回归模型的实际可用性。
03
CAMformer: Associative Memory is All You Need
发表:2025/11/25
CAMformer架构基于记忆的注意力机制高能效转换器BERT与视觉transformer优化物理相似性感知
本文提出了CAMformer,一种新颖的硬件加速器,通过将注意力机制重新解释为关联记忆操作,并使用电压域二进制注意力内容寻址存储器(BACAM)实现恒定时间的相似度搜索。该方法在BERT和视觉变换器等负载下表现出超过10倍的能量效率、最高4倍的吞吐量提升和68倍的面积降低,同时保持近乎无损的准确性。
04