AiPaper

论文

登录后可查看剩余解析次数。
标签筛选
ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations
发表:2025/10/2
机器人多模态学习双手动态操作演示基于大语言模型的动作规划主动感知机器人操作虚拟现实遥操作数据采集
本文提出ActiveUMI框架,结合便携式VR遥操作套件与传感器控制器,实现机器人与人类末端执行器的精确对齐,支持复杂双臂操作。系统利用头戴显示器捕获主动自我中心感知,学习视觉注意力与操控关联,在六项任务中展示了70%成功率及良好泛化能力。
05
Experience as Source for Anticipation and Planning: Experiential Policy Learning for Target-driven Recommendation Dialogues
发表:2024/11/1
目标驱动推荐对话体验式策略学习对话状态潜力估计大语言模型与蒙特卡洛树搜索长时记忆对话经验利用
本文提出经验策略学习框架,通过经验评分函数利用长期记忆中的相似交互,有效提升目标驱动推荐对话的预测与规划能力。树状EPL结合大语言模型和蒙特卡洛树搜索,实现无需训练的多层次推理,实验表明其性能优越。
06
Query Understanding in LLM-based Conversational Information Seeking
发表:2025/4/9
基于大语言模型的查询理解对话式信息检索多轮交互语义理解查询模糊消解与重构LLM驱动的评估指标设计
本研究探讨基于大语言模型的对话式信息检索中查询理解技术,聚焦上下文感知意图解析、歧义消解与查询重构。提出LLM驱动的多轮交互评估指标和主动查询管理策略,针对系统交互性和精确性提升,分析关键挑战并展望未来发展。
010
ChatCRS: Incorporating External Knowledge and Goal Guidance for LLM-based Conversational Recommender Systems
发表:2025/4/1
基于大语言模型的推荐系统外部知识检索集成对话目标规划多目标对话推荐系统
本文提出ChatCRS框架,通过工具增强的知识检索智能体和目标规划智能体,将复杂的多目标对话推荐任务分解,有效整合外部知识与对话目标引导。实验证明其在推荐准确性和语言质量上实现显著提升,达成最新最优性能。
06
Browsing Like Human: A Multimodal Web Agent with Experiential Fast-and-Slow Thinking
发表:2025/7/1
多模态网页智能体人类认知启发规划网页导航任务自动化快速与慢速思维机制经验性学习与失败反思
本文提出WebExperT多模态网页智能体,模拟人类快慢思考机制,有效分解复杂指令,并通过经验性学习从失败中反思,持续优化规划与决策。实验表明其在Mind2Web基准下超越现有方法,具备更接近人类的推理能力。
09
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
发表:2019/9/18
Transformer模型并行训练亿级参数语言模型训练大规模Transformer训练优化基于PyTorch的模型并行BERT与GPT-2模型扩展
本文提出了一种高效的层内模型并行方法,在原生PyTorch中轻量实现,解决了超大规模Transformer训练的内存瓶颈。该方法在512个GPU上成功训练出83亿参数模型,达到76%扩展效率,并推动GPT2、BERT类模型在多个基准测试中取得领先表现。
16
Flow Matching for Generative Modeling
发表:2022/10/6
Flow Matching方法连续归一化流 (Continuous Normalizing Flows)概率路径回归扩散模型训练稳定性提升基于最优传输的生成模型
本文提出流匹配(Flow Matching)范式,在连续归一化流(CNFs)基础上,通过无模拟地拟合固定条件概率路径的向量场,实现大规模训练。该方法兼容多种高斯路径,结合扩散路径提升扩散模型训练稳定性,且借助最优传输路径加速训练和采样,提升泛化能力,在ImageNet上优于现有扩散方法。
02
Mean Flows for One-step Generative Modeling
发表:2025/5/20
单步生成模型平均速度场建模Flow Matching 方法扩散模型高效推理ImageNet 256×256 生成
本文提出MeanFlow模型,引入平均速度概念替代瞬时速度,推导恒等式指导神经网络训练,简化了生成过程。该模型无需预训练或蒸馏,单次函数评估在ImageNet 256x256上实现3.43 FID,显著优于现有一步生成模型,缩小一步与多步模型性能差距。
09
Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models
发表:2025/5/29
序列策略优化大语言模型强化学习训练短链式思维链策略优化长链式思维链树状优化中间粒度优势估计
提出分段策略优化(SPO),在大语言模型强化学习中引入中间粒度的分段级优势估计,实现较轨迹级更精准、较词元级更稳定的信誉分配。SPO通过灵活分段、准确优势估计及新颖策略优化显著提升推理性能,在GSM8K和MATH500上均优于PPO和GRPO。
06
OneFlowSeq: Achieving One-Step Generation for Diffusion Language Models via Lightweight Distillation
发表:2025/10/8
Diffusion 模型微调自回归扩散模型大语言模型微调序列策略优化无训练加速方法
OneFlowSeq提出一种轻量蒸馏框架,将多步扩散教师模型精炼为单步生成器,利用MeanFlow监督和Jacobianvector乘积信号提高指导质量。显著提升生成速度和性能,参数量缩减1600倍,实验证明在多任务上超越传统方法。
016
A systematic exploration of C-to-rust code translation based on large language models: prompt strategies and automated repair
发表:2025/10/18
基于大语言模型的代码翻译C到Rust代码迁移多阶段代码生成与修复跨语言语义对齐代码生成验证机制
本文提出RustFlow框架,基于大语言模型通过多阶段架构实现C代码向Rust的语义对齐翻译与自动修复。采用协同提示与对话式迭代修复策略,显著提升代码质量与迁移性能,较基线提升50.67%,为跨语言代码迁移提供创新方法。
05
WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents
发表:2022/7/4
基于大语言模型的动作规划大语言模型强化学习训练语言-动作环境联网交互模拟电商环境人类演示强化学习
本文提出WebShop,一个包含118万真实商品及1.2万众包指令的模拟电商环境,针对语言接地网页交互训练智能体。通过强化学习和模仿学习提升智能体任务成功率至29%,显著优于基线,且具备模拟到真实网页的迁移能力。
03
REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites
发表:2025/4/16
基于网站的自主代理评测基准确定性网页模拟多轮网页交互任务基于大语言模型的信息检索评估自主网页导航能力评估
REAL提出了一个高保真、确定性的真实网站模拟基准,涵盖11个领域内112个复杂多轮任务,结合程序化状态检测与基于LLM打分的信息检索评价,实现了安全、可复现的智能体能力测试。实验显示顶尖语言模型成功率仅41%,揭示自主网页导航挑战。
03
PAARS: Persona Aligned Agentic Retail Shoppers
发表:2025/3/31
基于大语言模型的推荐系统在线购物行为建模用户画像生成与应用代理人行为模拟消费者行为分布对齐
本文提出PAARS框架,基于匿名购物数据自动挖掘人格画像,创建具零售工具的合成购物智能体,重点从群体层面对齐模拟行为与真实人类分布。实验验证人格画像提升了对齐效果,展示了智能体在自动化A/B测试中的潜力。
02
Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory
发表:2025/4/11
大语言模型推理能力增强测试时学习持久自适应记忆机制无监督推理增强
本文提出动态备忘录(DC),赋予黑盒大模型持久且可演进记忆,实现测试时学习。DC在推理过程中储存并复用策略和代码,显著提升多任务性能,无需真实标签或人为反馈,弥合孤立推理与经验积累的鸿沟。
011
3L-Cache: Low Overhead and Precise Learning-based Eviction Policy for Caches
缓存替换策略基于学习的缓存管理低开销训练数据采集参数自适应调优对象级缓存策略
3LCache提出了一种低开销的基于学习的缓存驱逐策略,结合高效训练数据收集和双向采样驱逐方法,实现了最低的字节和对象未命中率。其参数自动调优增强了对不同访问模式的适应性,显著减少计算负担,适合生产环境部署。
09
Towards LLM-Based Failure Localizationin Production-Scale Networks
基于大语言模型的故障定位大规模生产网络故障诊断网络监控数据分析Root Cause Analysis (RCA)大语言模型推理能力增强
本文提出了基于大语言模型的故障定位框架BiAn,通过文本推理处理网络监控数据,生成带解释的故障设备排序。BiAn在生产级云网络中应用,显著缩短了根因分析时间,提高故障定位准确率,验证了LLM在网络运维的有效性。
03
D-Bot: Database Diagnosis System using Large Language Models
发表:2024/6/1
基于大语言模型的数据库诊断系统知识提取与自动提示生成根因分析与树搜索算法多源异常协同诊断机制数据库异常诊断基准测试
DBot 利用大语言模型自动提取诊断文档知识,结合知识匹配、树搜索算法和协作机制,实现数据库异常快速根因定位与诊断。该系统显著缩短诊断时间,支持复杂异常场景,为数据库管理带来高效、智能的新方法。
03
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering
发表:2025/3/14
具备探索意识的实体问答基准EXPRESS-Bench 数据集Fine-EQA 混合探索模型探索一致性评估指标实体智能中的多步推理
本文提出EXPRESSBench具身问答基准,包含777条探索轨迹与2044问答对,系统评估智能体探索和推理能力。结合边界与目标导航的FineEQA模型提升任务相关区域探索效率,同时引入探索答案一致性指标保障评估忠实性。
02
Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production
发表:2011/1/1
AI模型训练故障诊断系统云端训练服务监控分布式训练性能优化训练任务故障定位
本文介绍了Aegis系统,专为AI模型训练云服务设计故障诊断,通过分布式数据采集与分析定位训练任务故障,显著减少空闲时间和重启次数,提升训练性能,展现了其在生产环境中的演进和实用价值。
012