论文

登录后可查看剩余解析次数。
标签筛选
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation
高斯世界模型机器人操作基于模型的强化学习离线模仿学习政策网络
本文提出了一种新颖的高斯世界模型(GWM),旨在解决现有机器人操控中的三维几何理解不足问题。GWM通过推断3D高斯基元的传播,结合潜在扩散变换器和3D变分自编码器,能够有效重建未来状态,增强模仿学习和支持基于模型的强化学习。实验证明其在模拟和现实场景中均能精准预测未来,显著提升策略学习性能。
03
UniDex: Rethinking Search Inverted Indexing with Unified Semantic Modeling
发表:2025/9/29
基于模型的倒排索引统一语义建模短视频搜索系统语义匹配排名工业级数据集
本文提出一种新颖的搜索倒排索引方法UniDex,通过统一语义建模改革传统的基于词项的检索机制。UniDex引入了UniTouch和UniRank两个关键组件,有效提高了语义泛化能力和检索效果,并在快手短视频系统中验证了其实际应用,显著提升了检索能力。
04
RNA stability enhancers for durable base-modified mRNA therapeutics
发表:2025/11/7
基于RNA的疗法稳定性增强mRNA 疗法病毒序列筛选稳定性增强元素RNA 修饰与翻译
本研究筛选了196,277个病毒序列,识别出11种能显著增强mRNA稳定性和翻译的RNA稳定性增强剂。这些元素通过招募TENT4延长poly(A)尾,降低去腺苷酸化,提高mRNA的耐久性。特别是元素A7在不同条件下表现优异,实现了与环状RNA相当的稳定性及更高的翻译效率,为新型mRNA疗法的开发奠定了基础。
010
MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling
发表:2001/11/14
本文介绍了MiroThinker v1.0,一种开源研究智能体,通过交互扩展提高推理和信息检索能力。与传统模型扩展不同,MiroThinker利用系统性模型训练处理更密集的智能体环境交互,经过强化学习在多项基准测试中显著提升性能,展示了交互深度作为新维度的重要性。
01
Recent Advances in Speech Language Models: A Survey
发表:2024/10/2
语音语言模型自动语音识别技术文本到语音转换端到端语音生成语音模型评估指标
本综述论文首次全面概述了语音语言模型(SpeechLMs)的最新构建方法,强调了其作为端到端模型的优势,能够无须文本中介直接生成语音,克服了传统ASRLLMTTS管道中信息丢失、延迟及错误累积等问题,讨论了其评估指标和未来研究方向。
05
MUSS-TI: Multi-level Shuttle Scheduling for Large-Scale Entanglement Module Linked Trapped-Ion
发表:2025/9/30
大规模离子阱量子计算量子电路编译器多级调度方法量子耦合设备量子操作效率优化
本文提出MUSSTI,一种针对大规模囚禁离子量子架构的可扩展编译器,通过多级调度方法减少了在光子互连的纠缠模块连接的量子电荷耦合器件中的穿梭开销。实验结果表明,该方法可将3032量子比特应用的穿梭操作减少41.74%,并在更大规模应用中实现平均73.38%的减少,显著提升量子操作效率。
03
AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation
发表:2024/12/9
双手操作策略迁移单手策略泛化双手操控模型高维动作空间机器学习应用
本文提出了一种名为AnyBimanual的方法,旨在通过少量双臂演示数据,将单臂策略迁移为通用双臂操作策略。该方法包含技能管理器和视觉对齐器两个核心模块,成功提升了在RLBench2上12个模拟任务中的成功率17.33%,并在9个真实任务中达到了84.62%的成功率。
02
Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving
发表:2024/6/24
大语言模型服务架构KVCache中心调度策略分散式缓存系统负载预测与拒绝策略长上下文处理优化
Mooncake 是一种以 KVCache 为中心的解耦式架构,大幅提升了 LLM 服务的有效吞吐量,同时满足延迟相关的服务水平目标(SLO)。通过分离预填充和解码阶段,并利用 GPU 集群的闲置资源,Mooncake 在长上下文场景中实现了高达 525% 的吞吐量提升,能处理 75% 更多请求。
04
A physics-informed transformer neural operator for learning generalized solutions of initial boundary value problems
发表:2024/12/12
物理驱动神经算子初边值问题求解非线性偏微分方程跨注意力机制无仿真数据训练
本文提出了一种物理信息变压器神经算子(PINTO),解决初边值问题中的非线性偏微分方程。该方法通过迭代核积分算子单元和交叉注意力结构,能够在无模拟数据的情况下,仅依赖物理损失进行训练,从而有效应对未见初始和边界条件,提高了求解效率和准确性。
03
Semi-Supervised Subspace Clustering via Tensor Low-Rank Representation
发表:2022/5/21
半监督子空间聚类低秩张量表示亲和矩阵学习拉普拉斯图正则化多基准数据集实验
本文提出了一种新颖的半监督子空间聚类方法,通过将初始监督信息表示为成对约束矩阵,构建具有判别力的亲和矩阵。该方法将亲和矩阵和成对约束矩阵堆叠成三维张量,并施加全局低秩约束,从而增强聚类效果。通过结合局部几何结构,提升了亲和矩阵的学习精度,在多个基准数据集上表现优越。
03
其他文献.pdf
社交媒体算法审查推特影子禁令研究文本分析与机器行为特征平台审计与问责机制算法对在线注意力的影响
本研究通过系统化审计探讨推特上的“影子禁令”现象,分析算法在在线注意力引导中的作用。对25,000个美国推特账户进行分析,结果表明影子禁令相对罕见,机器人行为账户易受影响,而认证账户则不易被禁。此外,发布冒犯性及政治相关内容的账户更可能受到限制,这对算法问责制具有重要启示。
04
Tokenize Once, Recommend Anywhere: Unified Item Tokenization for Multi-domain LLM-based Recommendation
发表:2025/11/17
多领域大语言模型推荐系统统一物品标记化框架混合专家架构互信息校准机制领域特定知识捕获
本文提出了,一种统一物品词元化框架,用于解决大型语言模型(LLM)推荐系统中不同物品领域需要独立训练模型的限制。该框架结合混合专家架构和互信息校准机制,实现跨领域的物品词元化,同时在多样化场景中保持语义信息。实验表明,比现有基线提高了最多51.89%。
015
ThinkBot: Embodied Instruction Following with Thought Chain Reasoning
发表:2023/12/12
基于大语言模型的指令补全思维链推理人机协作环境中的动作规划复杂目标完成对象定位与互动
本文提出了ThinkBot,一个针对具身指令跟随任务的系统,通过引入思维链推理,克服了现有方法中人类指令稀疏和不连贯的问题。该系统利用大语言模型补全缺失的动作描述,并结合多模态Transformer实现物体精确定位,从而在ALFRED基准测试中显著提升了成功率和执行效率。
04
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
发表:2025/5/5
多模态理解与生成模型生成式对抗模型扩散模型与自回归模型融合文本到图像生成多模态数据集与基准
本文对统一多模态理解与生成模型进行了全面综述,探讨了自回归和扩散模型在各自领域的成功及架构差异带来的挑战。重点介绍了三种主要的统一框架:基于扩散、自回归和混合方法,并提供了为这些模型定制的数据集和基准,旨在推动未来的研究进展。
07
LucidFusion: Reconstructing 3D Gaussians with Arbitrary Unposed Images
发表:2024/10/21
基于相对坐标图的3D重建无姿态图像重建方法LucidFusion框架高质量3D对象生成可微栅格化技术
本文提出了LucidFusion框架,通过引入相对坐标图(RCM)将三维重建重新定义为图像到图像的翻译任务,解决了对相机位姿的依赖问题。RCG作为RCM的扩展,确保了几何与位姿恢复的一致性。该方法支持任意数量未带位姿图像,能快速生成高质量三维重建结果。
03
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis
发表:2024/9/4
视频扩散模型高保真新视角合成基于点的表示相机轨迹规划3D重建与合成
本研究提出了,一种利用视频扩散模型从单张或稀疏图像合成高保真新视图的方法,突破了传统神经三维重建对密集多视图捕获的依赖。该方法结合粗略的三维线索和精确的相机姿态控制,采用迭代视图合成策略和相机轨迹规划算法,应用于实时渲染和场景级文本到三维生成。实验表明其在合成新视图中的强泛化能力。
02
Efficient, continuous mutagenesis in human cells using a pseudo-random DNA editor
持续突变技术人类细胞基因编辑T7 RNA 聚合酶驱动的编辑细胞代谢屏幕突变筛选方法
本研究提出了一种名为TRACE的革新方法,通过将胞嘧啶脱氨酶与T7 RNA聚合酶融合,实现了在多代细胞中对特定基因的连续靶向诱变。TRACE的应用成功识别了与MEK1抑制剂耐药性相关的功能性突变,显著提高了诱变效率。
04
Self-supervised Graph Learning for Recommendation
发表:2020/10/21
自监督图学习推荐系统长尾项推荐图卷积网络优化交互噪声鲁棒性用户-物品图表示学习
该论文提出了一种自监督图学习框架(SGL),旨在解决图卷积网络(GCN)在推荐系统中对长尾商品推荐效果差和噪声敏感的问题。SGL通过引入自监督任务和多视图生成,如节点和边丢弃,提升了模型的推荐准确性和鲁棒性,特别是在长尾物品领域。
04
$π^{*}_{0.6}$: a VLA That Learns From Experience
发表:2025/11/19
视觉-语言-动作模型大语言模型强化学习训练基于经验的强化学习机器人数据收集与优化优势条件化策略
研究视觉语言行动(VLA)模型如何通过真实世界部署提升性能。提出RECAP方法,通过优势条件化整合异构数据,以强化学习训练VLA模型。预训练的通用模型π0.6π^{}{0.6}经过机器人收集数据后,能够在多项复杂任务中显著提升表现,包括折叠衣物和制作拿铁等。
013
Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning
发表:2025/11/19
在线上下文学习同步大语言模型强化学习长尾延迟优化动态负载均衡适应性分组推测解码
本文提出Seer,一个新型在线上下文学习系统,旨在优化大型语言模型的同步强化学习,特别是推演阶段的性能瓶颈。Seer通过动态负载均衡、上下文感知调度和自适应分组推测解码等技术,有效减少了长尾延迟,提升了资源利用率,测试结果表明其吞吐量提升了74%至97%。
03