论文

登录后可查看剩余解析次数。
标签筛选
InterPLM: Discovering Interpretable Features in Protein Language Models via Sparse Autoencoders
发表:2024/11/13
蛋白质语言模型特征提取稀疏自编码器应用蛋白质生物学解释性人类可理解的潜在特征ESM-2模型分析
本文提出了一种利用稀疏自编码器从蛋白质语言模型(PLM)中提取可解释特征的新方法。通过分析ESM2模型的嵌入,发现多达2548个人类可解释的潜在特征,这些特征与143个生物学概念高度相关。研究表明,PLM能够编码丰富的生物学信息,且可应用于蛋白质数据库补全和序列生成。
010
SCALING LARGE LANGUAGE MODELS FOR NEXT-GENERATION SINGLE-CELL ANALYSIS
发表:2025/4/17
大语言模型微调单细胞RNA测序细胞文本建模生物信息合成多细胞上下文推理
本研究提出了一种基于Cell2Sentence框架的新方法,将单细胞RNA测序数据转化为文本“细胞句子”,并在超过十亿个标记的语料库上训练大型语言模型。通过将模型规模扩展至270亿参数,观察到在多细胞信息整合及高级下游任务中的持续性能提升,最终为下一代单细胞分析和“虚拟细胞”的开发奠定了基础。
05
RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction
发表:2025/9/10
长时序任务的机器人学习人机交互回滚与修正机器人策略微调双手控制任务效率提升与鲁棒性增强
这篇论文提出了一种名为的方法,旨在通过扩展机器人学习中的恢复和纠正行为,提高其在长时程任务中的效率和鲁棒性。通过人类干预的训练阶段,利用人类操作者的干预轨迹对机器人策略进行微调,增强了机器人的重试和适应能力,显著提升了在复杂任务上的表现。
03
ShiDianNao: Shifting Vision Processing Closer to the Sensor
图像应用专用神经网络加速器卷积神经网络优化近感知器架构设计高能效神经网络加速器65纳米布局设计
本文提出了一种名为ShiDianNao的卷积神经网络加速器,置于CMOS或CCD传感器旁,消除DRAM访问并优化数据访问模式,使能效提高60倍,速度比高端GPU快约30倍,面积仅为4.86mm²,功耗320mW,推动了图像应用的性能提升。
06
INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats
发表:2025/10/29
低位量化格式细粒度量化比较浮点与整数量化AI硬件优化细粒度INT训练
本研究系统比较了低位量化格式中的浮点数(FP)和整数(INT),填补了行业内缺乏统一对比的空白。结果显示,对于8位细粒度格式,MXINT8在算法精度和硬件效率上优于FP;而在4位格式中,FP常具精度优势,但结合异常值缓解技术后,NVINT4表现更佳。引入的对称裁剪方法有效解决了细粒度INT训练中的梯度偏差问题,挑战了FP的广泛使用,证明细粒度INT格式在未来AI加速器设计中更具潜力。
04
A genome-to-proteome map reveals how natural variants drive proteome diversity and shape fitness
发表:2025/10/9
基因组-蛋白质组映射自然变异与蛋白质组多样性自然遗传变异影响酵母菌株遗传研究基因型-表型关系研究
本研究首次绘制出自然、核苷酸分辨率的基因组到蛋白质组图谱,揭示了自然遗传变异如何显著驱动蛋白质组的多样性和适应性。研究通过分析不同酵母菌株的减数分裂后代,展示了微小变异与复杂选择机制的相互作用,强调了高分辨率图谱在基因型表型研究中的重要性。
05
DaDianNao: A Machine-Learning Supercomputer
发表:2014/12/1
机器学习超级计算机卷积神经网络加速器深度神经网络架构多芯片系统设计高性能计算优化
本文介绍了机器学习超级计算机DaDianNao的设计,该系统针对CNN和DNN优化,展示了在64芯片系统中相较于GPU可实现450.65倍的加速,并降低150.31倍能耗,从而有效应对机器学习对计算和内存的高需求。
02
Physics-Based Dexterous Manipulations with Estimated Hand Poses and Residual Reinforcement Learning
发表:2020/8/7
基于残差的强化学习与模仿学习3D手势估计与物理模拟虚拟环境中的灵巧操作基于手势的对象交互物理引导的目标姿势重映射
本文提出了一种新型的残差强化学习方法,使得智能体能在虚拟环境中进行灵巧操控,依据估计的手部姿态映射到目标姿态,克服了物理反馈缺失的问题。通过3D手部姿态估计奖励,该模型在处理复杂手物体交互和运动重建时显著提高了准确性和灵活性。
03
DreamControl: Human-Inspired Whole-Body Humanoid Control for Scene Interaction via Guided Diffusion
发表:2025/9/18
基于扩散模型的机器人控制全身人形机器人动作学习人类运动数据指导的强化学习模拟到真实的动作转移Unitree G1 机器人任务执行
本文提出了DreamControl,一种新的全身人形机器人技能学习方法。该方法结合了受人类运动数据训练的扩散模型和强化学习,能够引导机器人完成复杂任务,如打开抽屉和物体交互,且有效促进仿真到真实世界的迁移。
04
Omnigrasp: Grasping Diverse Objects with Simulated Humanoids
发表:2024/7/16
基于模拟人形机器人的抓取控制多样物体抓取与移动人形运动表示学习不需要配对数据集的训练方法物体轨迹跟随任务
本文提出了一种名为Omnigrasp的方法,用于控制模拟人形机器人抓取和移动多样物体。该方法通过学习一套人形运动表示来增强机器人控制精度,支持1200多种物体沿随机轨迹移动。训练过程中无需配对数据,仅依靠简单的奖励和状态表示,展现出卓越的可扩展性与性能。
02
Stable-Predictive Optimistic Counterfactual Regret Minimization
发表:2019/2/14
反事实悔恨最小化稳定预测悔恨最小化大规模博弈求解收敛速率优化决策树中的稳定性
本文提出了一种新型的反事实遗憾最小化(CFR)变体,显著提高了大规模扩展形式博弈(Nash均衡)的收敛速率,达到了O(T3/4)O(T^{3/4})。通过结合预测性和稳定性遗憾最小化的进展,引入"稳定预测性"概念,为决策树中的每个最小化器设置了稳定性,使算法表现优于传统CFR。
04
Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies
发表:2024/10/16
Lipschitz约束政策腿部机器人的平稳运动控制强化学习与仿真到现实转移机器人平滑行为开发低通滤波与平滑奖励
本文提出了一种通过Lipschitz约束策略(LCP)来提升类人机器人运动控制的有效方法。LCP在强化学习框架中强制实施平滑行为,取代了传统的平滑奖励和低通滤波器,并且易于与自动微分集成。实验表明,LCP生成的控制器在模拟和现实世界中具有良好的平滑性和鲁棒性。
03
Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model
发表:2025/10/14
视觉语言动作模型空间理解能力增强隐式空间表示对齐3D基础模型对齐机器人任务精准执行
本文提出了一种名为“空间强制”(SF)的方法,通过隐式对齐策略增强视觉语言行为(VLA)模型的空间理解能力。SF通过将VLA模型的视觉嵌入与预训练的3D基础模型的几何表示对齐,提高机器人在三维世界中的操作精度,避免了依赖显式3D输入的问题。
05
$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
发表:2025/10/30
流式视觉语言动作模型在线强化学习微调LIBERO基准测试多任务强化学习环境交互中的去噪建模
本文提出了πextttRLπ exttt{RL}框架,利用在线强化学习技术对基于流的视觉语言动作(VLA)模型进行微调,解决了大规模应用中行动日志似然性的挑战。该方法在LIBERO和ManiSkill基准测试中表现优异,显著提高模型性能,证明了其有效性和实用性。
06
ManiSkill-HAB: A Benchmark for Low-Level Manipulation in Home Rearrangement Tasks
发表:2024/12/9
低级操作基准测试家庭物体重排任务强化学习与模仿学习基线GPU加速家庭助手基准数据生成与演示过滤
本文提出了ManiSkillHAB,一个针对家庭重排任务的低级别操控基准,以满足对于快速模拟和复杂环境的需求。通过GPU加速实现,该基准显著提高了速度并降低了内存使用,同时训练了强化学习和模仿学习模型,并开发了基于规则的演示过滤系统,推动了未来研究的比较和数据生成。
03
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
发表:2025/5/18
大语言模型强化学习训练群体相对策略优化判别约束优化框架长推理模型数学推理能力增强
本文提出了一种新的判别约束优化(DisCO)框架,以增强大型推理模型(LRMs)的性能。相较于现有的群组相对策略优化(GRPO),DisCO通过引入判别目标和非裁剪评分函数,解决了难度偏差和熵不稳定的问题,从而实现长期稳定的训练动态,提升了模型的数学推理能力。
04
Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
发表:2025/10/5
低精度Transformer训练失败分析快速注意力机制训练动态稳定性低秩表示与偏置误差模型训练中的误差积累
本文分析了低精度 Transformer 训练中遇到的损失爆炸,首次提供了机制性解释。研究发现, 机制中的低秩表示及 算术中的偏差舍入误差相互作用,形成误差累积恶性循环,导致训练不稳定。通过对 的小幅修改,有效稳定了训练过程,验证了分析结果。
014
Transformations in exposure to debris flows in post-earthquake Sichuan, China
地震后泥石流风险暴露四川省泥石流模拟与评估排水设施对泥石流的影响高分辨率卫星影像分析城市发展与自然灾害关系
本研究探讨了四川省三个沟谷中地震后流域干预措施(例如修建拦渣坝和堤防)如何影响泥石流的暴露度。结果显示,震后城市发展增加了对2019年泥石流的风险,拦渣坝在管理低和高流量事件中有效,但对极端事件无效。
03
Distributed LLM Serving on Consumer-Grade GPUs by Reconciling Computation and Communication
发表:2025/1/1
基于消费者级GPU的分布式大语言模型服务MoLink 服务系统预填充请求传输调度算法大语言模型通信效率优化分布式推理计算架构
本文提出了MoLink,一个高效的分布式大型语言模型(LLM)服务系统,通过协调计算与通信,以消费级GPU降低LLM服务成本。它将预填充请求的数据流量拆分为较小的块,并优化传输调度,显著减少了首词元生成时间、每输出词元时间和延迟,相比现有系统最大降幅达46%。
05
Order-agnostic Identifier for Large Language Model-based Generative Recommendation
发表:2025/2/15
基于大语言模型的生成推荐系统订单无关标识符设计协同过滤与语义信息整合SETRec框架稀疏注意力机制
本文提出了一种基于大语言模型的无序标识符设计,用于生成式推荐,解决了现有标识符在效率和性能上的问题。通过整合协同过滤与语义信息,设计无序标识符并采用SETRec框架,利用稀疏注意力掩码和查询引导生成机制,显著提升了推荐效果和生成效率。
05