Interactive Recommendation Agent with Active User Commands
TL;DR 精炼摘要
本文提出了交互式推荐流(IRF)概念,允许用户通过自然语言指令主动调整推荐结果。开发的RecBot结合解析器和规划器,实时理解用户意图并优化推荐策略,解决了传统推荐系统基于被动反馈的局限。实验表明,该方法显著提高了用户满意度和商业指标。
摘要
Traditional recommender systems rely on passive feedback mechanisms that limit users to simple choices such as like and dislike. However, these coarse-grained signals fail to capture users' nuanced behavior motivations and intentions. In turn, current systems cannot also distinguish which specific item attributes drive user satisfaction or dissatisfaction, resulting in inaccurate preference modeling. These fundamental limitations create a persistent gap between user intentions and system interpretations, ultimately undermining user satisfaction and harming system effectiveness. To address these limitations, we introduce the Interactive Recommendation Feed (IRF), a pioneering paradigm that enables natural language commands within mainstream recommendation feeds. Unlike traditional systems that confine users to passive implicit behavioral influence, IRF empowers active explicit control over recommendation policies through real-time linguistic commands. To support this paradigm, we develop RecBot, a dual-agent architecture where a Parser Agent transforms linguistic expressions into structured preferences and a Planner Agent dynamically orchestrates adaptive tool chains for on-the-fly policy adjustment. To enable practical deployment, we employ simulation-augmented knowledge distillation to achieve efficient performance while maintaining strong reasoning capabilities. Through extensive offline and long-term online experiments, RecBot shows significant improvements in both user satisfaction and business outcomes.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
中文标题: 支持主动用户指令的交互式推荐智能体 英文标题: Interactive Recommendation Agent with Active User Commands
1.2. 作者
主要作者: Jiakai Tang (中国人民大学), Yujie Luo, Xunke Xi, Fei Sun, Xueyang Feng 等。 隶属机构: 中国人民大学高雷人工智能学院 (Gaoling School of AI, RUC)、阿里巴巴集团 (Alibaba Group)。
1.3. 发表期刊/会议
发表状态: 2025年发布于 arXiv (预印本),根据内容格式推测可能投稿于推荐系统或信息检索领域的顶级会议(如 SIGIR, KDD, RecSys 等)。 发布时间: 2025-09-25 (UTC)
1.4. 摘要
传统的推荐系统依赖于点击、点赞等被动反馈,这种粗粒度的信号难以捕捉用户细微的意图和对具体属性的偏好,导致用户意图与系统理解之间存在鸿沟。为了解决这一问题,本文提出了交互式推荐流 (Interactive Recommendation Feed, IRF) 范式,允许用户通过自然语言指令直接控制推荐策略。为此,作者开发了 RecBot,这是一个双智能体架构(解析器 Parser + 规划器 Planner),前者将自然语言转化为结构化偏好,后者动态编排工具链以调整推荐策略。为了实际部署,该方法采用了模拟增强的知识蒸馏技术。离线和在线实验(在某大型电商平台首页)均表明 RecBot 显著提升了用户满意度和商业指标。
1.5. 原文链接
PDF 链接: https://arxiv.org/pdf/2509.21317v2.pdf
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 现有的推荐系统主要基于隐式反馈循环 (Implicit Feedback Loop),即向用户展示物品,根据用户的点击或忽略来猜测其偏好。
-
现有挑战:
- 信号模糊: 点击一个商品可能只是因为图片吸引人,并不代表用户喜欢该商品的所有属性;反之,不点击也不代表完全不喜欢。
- 表达受限: 用户只能被动接受推荐,无法主动表达“我想要找价格低于50元的裙子”或“不要再给我推荐电子产品了”这样具体的意图。
- 沟通死锁: 系统猜不准,用户没法说,导致推荐结果越来越偏离用户真实需求,形成“信息茧房”或导致用户流失。
-
创新思路: 从“被动猜测”转向“主动交互”。提出在主流的推荐信息流(Feed)中嵌入一个自然语言接口,让用户随时可以通过打字或语音下达指令,实时干预推荐算法。
下图(原文 Figure 1)生动展示了传统被动反馈(左图)与本文提出的主动交互推荐(右图)的区别。在 RecBot 中,用户可以直接说“给我展示一些长裙”,系统会立即响应并调整推荐列表。
该图像是示意图,展示了传统推荐系统与互动推荐系统的对比。图(a)展示了传统系统依赖隐式反馈信号,引导用户选择;而图(b)则展示了互动推荐系统RecBot,允许用户通过自然语言命令主动调整推荐策略。
2.2. 核心贡献
-
新范式 (IRF): 提出了交互式推荐流范式,打破了推荐系统的沉默,允许用户通过自然语言指令直接与系统沟通,实现以用户为中心的可控推荐。
-
新框架 (RecBot): 设计了包含解析器 (Parser Agent) 和 规划器 (Planner Agent) 的多智能体框架。Parser 负责理解意图,Planner 负责通过工具链将意图转化为具体的算法调整(如修改打分公式)。
-
工业级落地: 通过模拟增强的知识蒸馏技术,解决了大语言模型(LLM)推理成本高的问题,成功在拥有亿级用户的大型电商平台上线,并验证了其商业价值。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下概念:
- 推荐系统 (Recommender Systems, RecSys): 旨在根据用户的历史行为预测其未来可能感兴趣的物品的系统。
- 隐式反馈 (Implicit Feedback): 用户的行为数据,如点击、浏览时长、购买。这是传统推荐系统的主要数据源。
- 显式反馈 (Explicit Feedback): 用户明确给出的评分或评论,本文特指用户输入的自然语言指令(如“我不喜欢红色”)。
- 大语言模型 (Large Language Models, LLMs): 如 GPT-4 或 Qwen,具有强大的自然语言理解和推理能力。本文利用 LLM 来解析用户的自然语言指令。
- 智能体 (Agent): 在本文中指由 LLM 驱动的、能够感知环境(用户输入)、进行推理并执行动作(调用工具调整推荐)的模块。
- 知识蒸馏 (Knowledge Distillation): 一种模型压缩技术。利用一个强大但庞大的“教师模型”(Teacher,如 GPT-4)来教导一个较小但快速的“学生模型”(Student,如微调后的 Qwen-7B),使其模仿教师的能力,以便在实际应用中降低计算成本。
3.2. 前人工作
- 序列推荐 (Sequential Recommendation): 传统的模型如 SASRec 和 BERT4Rec,利用 Transformer 架构处理用户历史行为序列,预测下一个物品。它们主要依赖 ID 嵌入,缺乏对文本指令的理解能力。
- 对话式推荐系统 (Conversational RecSys, CRS): 通过多轮对话(通常是问答形式)来获取用户偏好。
- 差异点: CRS 通常是一个独立的聊天机器人窗口,用户需要跳出浏览流程去聊天。而本文的 IRF 是直接嵌入在推荐信息流(如淘宝首页)中的,用户可以在浏览商品的同时随时输入指令,不打断浏览体验,且不需要系统像查户口一样提问。
3.3. 技术演进
推荐技术从早期的协同过滤(只看ID),发展到内容感知推荐(看图片文本),再到现在的LLM赋能推荐(理解复杂语义)。RecBot 处于最前沿,它不再仅仅把 LLM 当作特征提取器,而是将其作为能够推理和调用工具的决策大脑(Brain)。
4. 方法论
4.1. 方法原理
RecBot 的核心思想是将复杂的自然语言交互转化为推荐系统可以执行的数学操作。它采用了一个双阶段的处理流程:
-
理解 (Understanding): 解析器将用户的“人话”(非结构化文本)翻译成“机器语言”(结构化偏好配置)。
-
规划 (Planning): 规划器根据这些配置,动态选择并组合不同的数学工具(如过滤器、加分器),即时修改推荐列表的生成逻辑。
下图(原文 Figure 2)展示了 RecBot 的整体架构。用户输入命令 ,解析器将其转化为结构化偏好 ,规划器据此生成新的推荐列表 。
该图像是示意图,展示了RecBot框架的工作流程。初始推荐源 通过用户的主动命令 ,经过解析器(Parser)转化为结构化偏好 ,再由规划器(Planner)动态调整推荐策略,生成下一个推荐项曝光 。图中展示了用户反馈的情绪变化过程,从初始的愤怒到最后的满意。
4.2. 核心方法详解:解析器智能体 (Parser Agent)
解析器的任务是处理用户的自然语言输入 ,结合历史偏好 ,生成更新后的结构化偏好 。
4.2.1. 结构化命令解析
解析器将用户的意图分解为正向偏好(想要什么)和负向偏好(不想要什么),并进一步区分为硬约束(必须满足)和软偏好(倾向于满足)。 公式表达为映射函数 : 其中:
- : 当前展示给用户的推荐列表(上下文)。
- : 用户针对该列表发出的自然语言指令。
- : 更新后的偏好,包含四个集合:
-
: 正向硬约束(如“价格<50”)。
-
: 正向软偏好(如“浪漫风格”)。
-
: 负向硬约束(如“不要红色”)。
-
: 负向软偏好(如“不太喜欢恐怖片”)。
下图(原文 Figure 3)展示了解析器的工作细节,特别是它如何通过动态记忆整合来处理多轮对话。
该图像是示意图,展示了解析器的用户意图理解过程。图中,解析器结合历史偏好记忆 、当前推荐信息 和主动用户命令 ,生成新的偏好表示 。图中的两个主要责任分别为:将自由格式命令转化为结构化指令,及动态记忆整合策略,确保用户偏好的高效更新与整合。
-
4.2.2. 动态记忆整合 (Dynamic Memory Consolidation)
为了处理多轮对话而不导致上下文过长,解析器采用三种策略来更新偏好 :
- 保留 (Preservation): 如果用户反馈是中性或满意的,保持 。
- 整合 (Integration): 如果有新需求且不冲突,将其合并:。
- 解决 (Resolution): 如果新指令与旧偏好冲突(如用户改主意了,从“要裙子”变成“要裤子”),则利用 LLM 的推理能力识别变化并更新冲突部分。
4.3. 核心方法详解:规划器智能体 (Planner Agent)
规划器接收结构化偏好 ,并通过编排工具链来计算物品的最终得分。这是一个将语义转化为数值的过程。
4.3.1. 推荐域工具集 (Tool Set)
RecBot 定义了四个核心工具,每个工具负责修改物品得分的不同方面。
1. 过滤器 (Filter Tool): 处理硬约束。它直接从候选池 中筛选出满足正向硬约束且不违反负向硬约束的物品。 公式如下:
- : 表示物品 满足所有正向硬约束(如价格区间)。
- : 表示物品 不违反任何负向硬约束(如品牌黑名单)。 被过滤掉的物品得分设为 。
2. 匹配器 (Matcher Tool): 计算正向软偏好 的相关性分数。它结合了语义理解和协同过滤。 最终匹配分数 由两部分加权得出:
-
语义路径 (Semantic Path) : 使用预训练的 Embedding 模型(如 BGE)计算物品描述与用户意图的余弦相似度:
-
主动意图感知协同路径 (Active-Intent-Aware Collaborative Path, AIA) : 这是本文的一个亮点。它利用用户的显式意图作为 Query,去“查询”用户的历史隐式行为 ,从而发现符合当前意图的历史兴趣模式。 公式如下:
- : 用户当前自然语言意图的向量表示(作为 Query)。
- : 用户历史交互序列的多模态融合表示(作为 Key 和 Value)。
- : 多头交叉注意力机制 (Multi-Head Cross-Attention)。
- 这一步确保了推荐不仅符合用户嘴上说的(意图),也符合用户心里喜欢的风格(历史行为)。
3. 衰减器 (Attenuator Tool): 处理负向软偏好 。对于那些与用户厌恶点相似的物品,给予惩罚分。 注意这里的负号,表示降低得分。
4. 聚合器 (Aggregator Tool): 将上述分数求和,得到最终排名分:
下图(原文 Figure 4)展示了规划器如何根据偏好动态组装这些工具(例如,如果没有负向反馈,就不调用衰减器)。
该图像是示意图,展示了规划器在实时推荐策略调整中的作用。图中描述了如何根据解析的用户偏好 ,规划器生成下一步推荐 的工具调用序列。推荐域工具集包括过滤工具、匹配工具、衰减工具和聚合工具等,支持自适应工具链的动态编排,以优化推荐效果。
4.4. 多智能体优化 (Multi-Agent Optimization)
为了实现低成本上线,作者使用模拟增强的知识蒸馏。
-
教师模型 (Teacher): 使用 GPT-4 作为强大的教师,通过与模拟用户(User Simulator)进行多轮交互,生成高质量的训练数据(轨迹)。
-
学生模型 (Student): 使用较小的开源模型(如 Qwen-7B/14B),在生成的轨迹数据上进行微调(SFT)。
-
统一训练: 将 Parser 和 Planner 的任务统一为 Next-Token Prediction (NTP) 任务进行训练,使得一个模型能同时胜任两个角色的工作。
5. 实验设置
5.1. 数据集
实验使用了三个不同领域的数据集:
- Amazon (Books): 图书推荐。硬约束包括价格、语言、装订格式;软约束为类别。
- MovieLens: 电影推荐。硬约束为上映年份;软约束为电影流派。
- Taobao: 工业级电商数据集,包含3000名用户的交互记录。硬约束包括价格、风格、材质;软约束为品类。
- 特点: 数据包含多模态信息(文本+图像),更贴近真实场景。
5.2. 评估指标
除了常规的 Recall@N 和 NDCG@N,本文引入了针对交互式推荐的特定指标:
-
条件满足率 (Condition Satisfaction Rate, CSR@N):
- 概念定义: 衡量推荐列表中有多少物品真正符合用户指定的属性要求(例如用户说要“红色”,推荐了多少红色的)。
- 数学公式:
- 符号解释: 是推荐列表长度, 是指示函数,若满足条件则为1,否则为0。
-
通过率 (Pass Rate, PR):
- 概念定义: 在有限的交互轮次内(如5轮),系统是否成功将用户心目中的目标商品(Target Item)推荐到了列表的前列(Top-K)。这是一个二值指标(成功/失败),最后取平均值。
-
平均轮次 (Average Rounds, AR):
- 概念定义: 系统成功猜中目标商品所需的平均交互次数。数值越低越好,说明系统越聪明、越高效。
5.3. 对比基线
- 传统序列推荐: SASRec, BERT4Rec, MoRec, UniSRec(无法处理文本指令,作为下界)。
- 指令感知方法: BM25, BGE(基于检索的方法,能匹配文本但缺乏个性化)。
- 交互式推荐智能体:
-
GOMMIR: 基于目标的交互推荐。
-
InteRecAgent: 另一种基于 LLM 的推荐智能体。
-
Instruct2Agent: 基于指令的智能体。
-
6. 实验结果与分析
6.1. 核心结果分析
RecBot 在所有数据集和任务设置(单轮 SR、多轮 MR、兴趣漂移 MRID)中均显著优于基线。
以下是原文 Table 3 中关于多轮交互(MR)场景的部分结果(以 HTML 格式展示以保留复杂表头结构):
| Method | Recall (R@K) ↑ | Condition Sat. (C@K) ↑ | Pass Rate (PR) ↑ | Avg Rounds (AR) ↓ | ||||
|---|---|---|---|---|---|---|---|---|
| R@10 | R@20 | R@50 | C@10 | C@20 | C@50 | |||
| Taobao (MR Scenario) | ||||||||
| BM25 | 0.0941 | 0.0941 | 0.0941 | 35.01% | 40.33% | 47.01% | 9.41% | 5.4354 |
| BGE | 0.1919 | 0.2259 | 0.2880 | 64.11% | 68.30% | 74.10% | 17.18% | 5.1235 |
| InteRecAgent | 0.2166 | 0.2619 | 0.3160 | 53.26% | 57.21% | 62.49% | 18.42% | 5.0791 |
| RecBot-Qwen (Align.) | 0.4238 | 0.4735 | 0.5252 | 76.94% | 79.35% | 81.98% | 38.47% | 4.3827 |
| RecBot-GPT (Teacher) | 0.4618 | 0.5305 | 0.6220 | 84.86% | 87.32% | 90.22% | 41.14% | 4.2809 |
分析:
- 显著的性能优势: 在 Taobao 数据集上,RecBot-Qwen (Align.) 的 Pass Rate 达到了 38.47%,远超 InteRecAgent 的 18.42%。这意味着 RecBot 能更准确、更快地理解并满足用户需求。
- 高效的交互: 平均轮次 (AR) 显著降低,说明用户不需要反复纠正系统,通常更少的对话就能找到想要的商品。
- 青出于蓝: 有趣的是,在某些指标上(参考原文其他表格),经过对齐微调的学生模型(RecBot-Qwen Align)甚至超越了它的老师(GPT-4)。这证明了针对特定任务进行知识蒸馏的有效性。
6.2. 消融实验
作者通过移除 RecBot 的不同组件来验证其有效性。 下图(原文 Figure 5)展示了 Amazon 数据集上的消融结果。
该图像是一个图表,展示了在Amazon数据集上的离线消融研究结果。图中展示了不同模型版本(V1至V4)在CSR@20(SR、MR、MRID)和PR(SR、MR、MRID)上的性能表现,所有数值均表示百分比。横轴为模型版本,纵轴为相应指标值。
- V1 (Only Semantic): 仅使用语义匹配,效果最差。说明仅靠理解文本是不够的,必须结合用户历史偏好。
- V2 (Only Collaborative): 仅使用意图感知的协同过滤,效果提升明显。
- Full (RecBot): 结合了语义、协同过滤以及过滤器 (Filter Tool)。可以看到,加入了硬约束过滤(Full 版本)后,条件满足率 (CSR) 和通过率 (PR) 都达到了最高,证明了显式约束处理的重要性。
6.3. 在线实验 (A/B 测试)
在某大型电商平台进行了为期三个月的 A/B 测试。 下图(原文 Figure 6)展示了关键指标的变化趋势。
该图像是图表,展示了在三个月的A/B测试期间,RecBot与基础系统的在线性能曲线。图中包含四个指标:EICD、CICD、ATC和GMV,所有度量均经过最小-最大规范化处理。
以下是原文 Table 5 的平均提升结果:
| 指标 | 含义 | 变化幅度 |
|---|---|---|
| NFF | 负反馈频率 (越低越好) | -0.71% |
| EICD | 曝光类目多样性 | +0.88% |
| CICD | 点击类目多样性 | +1.44% |
| GMV | 商品交易总额 | +1.40% |
分析:
-
用户满意度提升: NFF 下降意味着用户点击“不感兴趣”的次数变少了,因为他们可以直接告诉系统不看什么。
-
打破信息茧房: 多样性指标(EICD/CICD)的提升表明,用户通过主动指令探索了更多新的商品类目,不再局限于历史行为的单一推荐。
-
商业价值: GMV 的提升证明了这种更好的用户体验直接转化为真金白银的收入。
下图(原文 Figure 7)进一步展示了针对不同历史负反馈频率用户的分析。可以看到,对于那些平时爱“挑刺”(中高频负反馈)的用户,RecBot 带来的负反馈减少效果最为明显(-3.3%),说明这一功能恰好解决了挑剔用户的痛点。
该图像是一个图表,展示了不同历史负反馈频率下用户群体的在线绩效改进情况。图中包含了基础用户比例和实验用户比例的对比,以及负反馈减少率的趋势。数据表明,随着负反馈频率的提高,负反馈减少率存在一定变化。
6.4. 案例研究
下图(原文 Figure 8)展示了一个真实的在线交互案例。 用户一开始看裙子 -> 提出要“长裙” -> 系统调整 -> 用户追加“浅蓝色” -> 系统调整 -> 用户追加预算“200元左右” -> 系统精确推荐。 这完美展示了 RecBot 处理多轮、累积约束的能力。
该图像是一个交互式推荐系统的案例研究展示,展示了用户与推荐系统之间的多轮对话。在不同回合中,用户表达了自己对裙子款式和颜色的具体要求,系统根据这些反馈不断调整推荐,最后用户找到了一款满意的长裙。
7. 总结与思考
7.1. 结论总结
本文提出了交互式推荐流 (IRF) 范式,并通过 RecBot 框架实现了这一愿景。
- 技术突破: 利用 LLM 的推理能力(Parser)和工具调用能力(Planner),成功将非结构化的自然语言指令转化为精确的推荐策略调整。
- 架构创新: 引入“主动意图感知协同过滤 (AIA)”,巧妙结合了显式指令与隐式历史行为。
- 实际验证: 通过知识蒸馏实现了低延迟部署,在线实验证明了其在提升用户体验(多样性、满意度)和商业价值(GMV)方面的双重有效性。
7.2. 局限性与未来工作
- 计算开销: 尽管使用了知识蒸馏,LLM 的推理成本相对于传统 ID Embedding 模型仍然较高,大规模并发下的资源消耗是挑战。
- 指令模糊性: 如果用户输入的指令极其模糊或包含反讽,当前的 Parser 可能仍难以完美理解。
- 未来方向: 作者计划探索在线学习 (Online Learning) 机制,让 Agent 能够从实时的用户反馈中持续进化,而不仅仅是离线训练。
7.3. 个人启发与批判
- 从“猜”到“听”的转变: 传统的推荐系统都在拼命优化“猜测”算法(点击率预测),而本文指出了一条更直接的路——让用户说话。这种范式转移(Paradigm Shift)可能比单纯提升模型精度更有价值。
- 工具化的 LLM: RecBot 展示了 LLM 在推荐系统中不应只是一个文本编码器(Encoder),而应该是一个控制器(Controller)。通过 Prompt 这里的 Parser 和 Planner,LLM 实际上是在编写和执行推荐逻辑。
- 潜在问题: 这种交互方式要求用户有一定的“主动性”。对于那些只想“葛优瘫”被动刷手机的用户,输入文字可能门槛过高。语音输入的结合可能是未来的关键优化点。
相似论文推荐
基于向量语义检索推荐的相关论文。