Modeling shopper interest broadness with entropy-driven dialogue policy in the context of arbitrarily large product catalogs
TL;DR 精炼摘要
本文提出了一种新的会话推荐系统策略,通过计算检索得分的熵来建模用户兴趣广度,从而有效平衡用户需求的探索与推荐的利用。在面对庞大产品目录时,该策略动态调整对话策略,低熵查询直接推荐,高熵查询则发问以探索更多信息,优化用户体验。
摘要
Conversational recommender systems promise rich interactions for e-commerce, but balancing exploration (clarifying user needs) and exploitation (making recommendations) remains challenging, especially when deploying large language models (LLMs) with vast product catalogs. We address this challenge by modeling the breadth of user interest via the entropy of retrieval score distributions. Our method uses a neural retriever to fetch relevant items for a user query and computes the entropy of the re-ranked scores to dynamically route the dialogue policy: low-entropy (specific) queries trigger direct recommendations, whereas high-entropy (ambiguous) queries prompt exploratory questions. This simple yet effective strategy allows an LLM-driven agent to remain aware of an arbitrarily large catalog in real-time without bloating its context window.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
建模购物者兴趣广度与熵驱动对话策略在任意大型产品目录背景下的应用 (Modeling shopper interest broadness with entropy-driven dialogue policy in the context of arbitrarily large product catalogs)
1.2. 作者
- Firas Jarboui (Gorgias, 巴黎, 法国)
- Issa Memari (Gorgias, 巴黎, 法国)
1.3. 发表期刊/会议
发表于 Workshop on Generative AI for E-Commerce (GenAIECommerce 2025 @RecSys 25)。这是一个关于电商领域生成式人工智能的研讨会,附属于 RecSys 25 (推荐系统大会)。这意味着该工作在推荐系统和电商AI领域具有一定的相关性和创新性。
1.4. 发表年份
2025年
1.5. 摘要
会话推荐系统 (Conversational recommender systems, CRS) 承诺为电商带来丰富的互动体验,但平衡探索(澄清用户需求)和利用(进行推荐)仍然具有挑战性,尤其是在部署大型语言模型 (Large Language Models, LLMs) 处理庞大产品目录时。本文通过检索得分分布的熵来建模用户兴趣的广度,解决了这一挑战。我们的方法使用一个神经检索器 (neural retriever) 为用户查询获取相关商品,并计算重新排序分数 (re-ranked scores) 的熵,以动态路由对话策略:低熵(特定)查询触发直接推荐,而高熵(模糊)查询则提示探索性问题。这种简单而有效的策略使 LLM驱动智能体 (LLM-driven agent) 能够实时感知任意大的目录,而不会增加其上下文窗口 (context window) 的负担。
1.6. 原文链接
- 原文链接: https://arxiv.org/abs/2509.06185
- PDF 链接: https://arxiv.org/pdf/2509.06185v1.pdf
该论文作为预印本 (preprint) 发布在 arXiv 上,并且已经被
ACM(Association for Computing Machinery) 接收并发布,表明其已正式发表。
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 在电商场景中,会话推荐系统 (Conversational Recommender Systems, CRS) 结合大型语言模型 (LLMs) 具有巨大潜力,但面临两大挑战:一是如何在对话中有效平衡“探索”用户需求(提问以获取更多信息)与“利用”现有信息(直接给出推荐);二是如何让
LLM驱动智能体 (LLM-driven agent)在面对任意庞大且不断变化的产品目录时,能够实时感知目录内容而又不至于让LLM的上下文窗口 (context window) 负担过重。 - 为什么重要:
CRS能提供个性化、互动式的购物体验,提高用户满意度和转化率。然而,如果平衡不当,系统可能频繁提问导致用户沮丧,或者过早推荐不准确的商品。LLM虽然强大,但其上下文窗口大小限制了直接处理整个商品目录的能力,而传统的RAG(Retrieval Augmented Generation) 策略在判断用户查询的“广度”或“特指性”时,也往往因缺乏对整个目录的感知而失效。 - 现有研究挑战或空白:
LLM难以在对话中动态且细致地判断用户意图是模糊(需要探索)还是具体(可以推荐)。- 在面对超大型商品目录时,将整个目录信息注入
LLM的上下文窗口是不切实际的,会导致幻觉 (hallucination)风险增加和响应时间延长。 - 传统的
LLM分类器在判断查询广度时,无法感知其相对于整个目录的粒度,例如,“钉子”在一个专业五金店是广义查询,但在一个综合美妆店则是特指查询。
- 论文切入点或创新思路: 论文提出了一种新颖的
熵驱动路由策略 (entropy-based routing strategy)。它不依赖LLM直接理解目录内容,而是通过量化神经检索器返回的产品相关性分数分布 (retrieval score distributions)的熵 (entropy),来间接估计用户查询的广度或模糊性。
2.2. 核心贡献/主要发现
- 提出了基于熵的对话策略路由机制: 通过计算神经检索器返回的商品得分分布的熵,量化用户查询的“广度”或“模糊性”。
- 实现了动态的对话策略调整:
- 当熵值较低(查询意图明确、特定)时,智能体倾向于直接进行推荐(
利用)。 - 当熵值较高(查询意图模糊、广泛)时,智能体倾向于提出探索性问题以澄清用户需求(
探索)。
- 当熵值较低(查询意图明确、特定)时,智能体倾向于直接进行推荐(
- 解决了
LLM在大型目录下的上下文管理问题: 该策略使得LLM驱动智能体能够实时感知任意规模的产品目录,而无需将整个目录注入LLM的上下文窗口,从而避免了上下文窗口膨胀 (context window bloating)和幻觉 (hallucination)等问题。 - 经验证据支持有效性:
A/B测试结果显示,与基线模型相比,采用熵驱动策略的购物助手能够实现更长的对话轮次,显著提高了购物者的参与度 (engagement)。
3. 预备知识与相关工作
3.1. 基础概念
- 会话推荐系统 (Conversational Recommender Systems, CRS):
CRS是一种通过自然语言对话与用户互动,从而理解用户需求并提供个性化推荐的系统。与传统的推荐系统(如基于协同过滤、内容推荐)不同,CRS能够实时提问、澄清偏好,并根据对话上下文动态调整推荐。 - 大型语言模型 (Large Language Models, LLMs):
LLM是一种基于Transformer架构的深度学习模型,通过在海量文本数据上进行预训练,学习到丰富的语言知识和生成能力。它们能够理解、生成和处理自然语言,执行问答、摘要、翻译和对话等多种任务。 - 探索 (Exploration) 与 利用 (Exploitation): 这是决策系统中的一个经典权衡问题。
- 探索 (Exploration): 指系统主动尝试新的、不确定的选项,以收集更多信息,从而提高对环境的理解和未来决策的质量。在推荐系统中,这可能意味着提出澄清问题或展示多样化的产品以了解用户更广泛的兴趣。
- 利用 (Exploitation): 指系统根据现有信息和知识做出当前看起来最优的决策,以最大化即时奖励。在推荐系统中,这通常意味着基于当前明确的用户意图,直接推荐最相关的商品。
- 对话策略 (Dialogue Policy):
对话策略是会话系统的核心组件,它定义了智能体在每个对话回合中应该采取什么行动。这些行动可以是提问、提供信息、进行推荐、转交人工客服等。对话策略旨在优化用户体验、达成对话目标(如完成购买、解决问题)。 - 检索增强生成 (Retrieval Augmented Generation, RAG):
RAG是一种结合了信息检索和文本生成的技术。它首先从一个大型知识库中检索与用户查询相关的文档或信息片段,然后将这些检索到的信息作为上下文输入给LLM,让LLM根据这些信息生成更准确、更具事实依据的回复。这有助于减少LLM的幻觉 (hallucination)现象。 - 熵 (Entropy): 在信息论中,
熵是对随机变量不确定性或信息量的度量。一个事件发生的可能性越平均,其熵就越高,表示不确定性越大;反之,如果一个事件的发生集中在少数几种可能性上,其熵就越低,表示不确定性越小。在本文中,熵用于衡量检索到的产品相关性分数分布的广度或均匀性。 - 神经检索器 (Neural Retriever):
神经检索器是一种使用深度神经网络模型进行信息检索的系统。它通常将查询(如用户输入的文本)和文档(如产品描述)编码成低维向量(embedding),然后在嵌入空间中通过计算向量相似度来查找最相关的文档。 - 重排序器 (Re-ranker): 在一个多阶段的检索系统中,
重排序器是在初始检索(也称为召回 (recall))阶段之后发挥作用的组件。它接收由初始检索器召回的少量(通常是top-k)候选文档,然后使用一个更复杂、更精确的模型对这些候选文档进行二次排序,以进一步提高检索结果的相关性。 - HNSW (Hierarchical Navigable Small World):
HNSW是一种高效的近似最近邻 (Approximate Nearest Neighbor, ANN) 搜索算法。它通过构建一个多层图结构来实现快速搜索:在底层图连接距离近的节点,在高层图连接距离远的节点,使得搜索可以在不同粒度上进行,从而在保持高召回率的同时大大加快了搜索速度。它广泛应用于大规模嵌入向量的相似性搜索。 - Transformer:
Transformer是一种基于自注意力机制 (self-attention mechanism)的深度学习模型架构,最初为自然语言处理任务设计。它能够有效地处理序列数据,捕捉长距离依赖关系,并在机器翻译、文本生成等领域取得了突破性进展。 - Triplet Loss (三元组损失):
三元组损失是一种用于训练嵌入模型 (embedding model) 的损失函数。它的目标是学习一个嵌入空间,使得锚点 (anchor) 样本与正样本 (positive) 之间的距离小于锚点与负样本 (negative) 之间的距离,并且保持一个预设的边距 (margin)。具体来说,对于一个三元组(a, p, n),其中 是锚点, 是正样本(与 相关), 是负样本(与 不相关),三元组损失函数旨在最小化 ,其中 表示距离函数。 - 二元交叉熵 (Binary Cross-Entropy, BCE):
二元交叉熵是一种常用的损失函数,主要用于二分类问题。它衡量了模型预测的概率分布与真实标签之间的差异。对于每个样本,如果真实标签是 1,BCE惩罚模型预测为 0 的情况;如果真实标签是 0,则惩罚模型预测为 1 的情况。它的计算公式为:,其中 是真实标签(0或1), 是模型预测为 1 的概率。
3.2. 前人工作
论文在引言和方法论部分提及了多个相关工作,主要围绕 会话推荐系统、大型语言模型、RAG、神经检索以及查询性能预测等领域:
- 会话推荐系统 (CRS):
- [16] 强调了
CRS通过提问、理解用户偏好和解释推荐来创建互动体验。 - [8] 提供了关于
CRS的调查,强调了选择合适对话策略的重要性。 - [17] 指出了电商中信息发现的重要性。
- [22] 提出
CRS可以通过提问或推荐来提升相关性。
- [16] 强调了
- LLM与CRS结合:
- [4] 和 [14] 指出
LLM的突破加速了CRS的发展,使得CRS能够结合传统推荐算法的优势与AI助手的灵活推理和语言能力。
- [4] 和 [14] 指出
- 多技能AI智能体:
- [10] 提及了阿里巴巴
AliMe系统中类似的多技能统一助手策略。
- [10] 提及了阿里巴巴
- 多意图检测:
- [6] 指出单个用户话语可能包含需要处理的多个意图。
- 检索增强生成 (RAG):
- [9] 介绍了
RAG技术,将其用于知识密集型NLP任务。 - [3] 描述了
RAG如何通过检索相关文档来确保对政策或支持问题的准确回答。
- [9] 介绍了
- 神经搜索管道与嵌入:
- [5, 11, 12, 18] 等研究方向发现两阶段神经搜索管道在电商检索中是相关的。
- [15]
HNSW在高效近似最近邻搜索中的应用。 - [19]
Transformer架构。 - [13]
RoBERTa预训练方法。 - [20]
E5多语言文本嵌入模型。
- 查询质量与熵:
- [1, 7] 讨论了查询质量性能在检索系统中的重要性。
- [21] 探讨了查询质量与相似度分布熵之间的相关性。
- [2] 通过测量检索结果或用户点击的分布熵来量化查询的模糊性或特异性。这直接启发了本文的核心方法。
3.3. 技术演进
电商推荐系统从早期的基于规则、协同过滤、内容推荐,逐步发展到利用深度学习进行嵌入学习和神经检索。随着 大型语言模型 (LLMs) 的兴起,推荐系统开始转向 会话推荐系统 (CRS),以提供更自然、更个性化的互动体验。LLM 能够处理复杂的自然语言查询,但其 上下文窗口 (context window) 限制了其直接处理大规模产品目录的能力。RAG 技术缓解了这一问题,但仍然需要有效判断何时进行 探索 和 利用。
本文的工作正处于这一演进的关键节点,它结合了 LLM 的语言能力和 神经检索 的效率,并通过引入 熵 这一信息论概念,创造性地解决了 LLM 在面对任意大型产品目录时,如何动态调整 对话策略 的挑战。它提供了一种量化用户意图广度的通用机制,弥补了 LLM 在感知全局目录信息方面的不足,推动了 CRS 的实用化发展。
3.4. 差异化分析
本文方法与相关工作的核心区别在于其对 对话策略 的决策机制。
- 与传统
LLM-driven dialogue policy基线相比:-
基线方法: 依赖
LLM内部的兴趣分类器 (Interest classifier)来判断用户意图是DISCOVERY(意图不明)还是INTERESTED(意图精确)。这种方法的局限性在于,LLM作为一个黑盒模型,它在做判断时无法感知完整的商家产品目录的广度。例如,当用户查询“指甲”时,LLM很难判断在当前商家的商品目录中,“指甲”是一个非常广泛的类别(如在专业美甲用品店),还是一个非常具体的少数商品(如在综合美妆店)。这导致LLM的判断容易出错,无法根据真实的目录粒度调整其决策。同时,将整个目录作为上下文注入LLM是不切实际的。 -
本文方法 (熵驱动对话策略): 克服了基线方法的局局限性。它不依赖
LLM对目录的语义理解,而是通过神经检索器对用户查询执行搜索后,计算检索到的top-k产品的相关性得分分布 (retrieval scores distribution)的归一化熵 (normalized entropy)。这个熵值直接反映了查询在当前目录上下文中的广度:低熵表示少数商品高度相关(意图精确),高熵表示许多商品均有一定相关性(意图模糊)。这种方法能够实时、客观地感知目录的粒度,并且不会增加LLM的上下文窗口负担。简而言之,核心创新在于用一个更客观、可量化且
目录感知 (catalog-aware)的熵指标,替代了LLM主观且非目录感知 (non-catalog-aware)的意图分类器,从而更有效地平衡了探索和利用。
-
4. 方法论
本研究旨在解决 LLM驱动的会话推荐系统 在面对 任意大型产品目录 时,如何有效平衡 探索(澄清用户需求)与 利用(直接推荐)的挑战。核心思想是引入 熵 来量化用户查询的广度,并以此动态路由对话策略。
4.1. 方法原理
该方法的核心思想是通过分析 神经检索器 对用户查询返回的 产品相关性得分分布 (retrieval score distributions),来定量估计用户请求的 广度 或 模糊性。
- 直觉:
- 如果检索结果显示少数几个产品具有极高的相关性得分,而其他产品得分很低,则表明用户意图非常精确,此时系统应该倾向于
利用现有信息,直接进行推荐(对应低熵)。 - 相反,如果检索结果中大量产品都具有中等或相似的相关性得分,没有明显突出的少数产品,则表明用户意图可能很模糊或很广泛,此时系统应该倾向于
探索用户需求,通过提问来获取更多信息(对应高熵)。 这种方法提供了一种目录感知 (catalog-aware)的机制,能够实时根据产品目录的实际分布来判断查询的精确度,而不需要将整个庞大的目录注入到LLM的上下文窗口中。
- 如果检索结果显示少数几个产品具有极高的相关性得分,而其他产品得分很低,则表明用户意图非常精确,此时系统应该倾向于
4.2. 核心方法详解
论文的方法论围绕一个多技能电商 AI 智能体展开,重点聚焦于其 购物助手工作流 中的 熵驱动对话策略。
4.2.1. 多技能电商AI智能体架构
该系统是一个生产级的 AI 智能体,用于处理电商场景中每天大量的购物者消息。其架构如图1所示,由三个主要路由节点组成:

该图像是一个示意图,展示了购物者请求如何通过产品目录和知识库的交互生成回应的高层次数据流。图中显示了从购物者发送消息到AI生成回复的整个过程,包含了检测销售机会、查询处理以及请求解决方案的步骤。
Figure 1: High-level data flow of the agent (see .
-
规划节点 (Planning node):
- 接收原始的购物者消息以及会话元数据(如访问页面、购物车内容、历史订单)。
- 一个
LLM对交互进行分解,识别出:支持请求 (support requests):需要解决的独立摩擦点(例如:“你们的退货政策是什么?”)。销售机会 (sales opportunity):一个二元决策,判断是否存在销售机会。
- 规划器输出一个结构化的
JSON计划,命名每个请求,并在适用时标记该回合以激活销售。
-
解决工作流 (Resolution workflows):
- 计划中的每个元素都由一个专门的工作流处理,这些工作流是受控的
LLM调用链,结合了检索增强生成 (RAG)技术,查询商家的专属数据。 - 支持代理工作流 (Support-agent workflow): 查询商家知识库(政策、常见问题等),生成简洁的解决方案指令,确保对政策或支持问题的准确回答。
- 购物助手工作流 (Shopping-assistant workflow): (本文主要关注点)选择一个
销售策略 (sales tactic)——发现 (Discovery)或推荐 (Recommendation),然后生成特定于策略的指令,这些指令稍后将呈现给购物者。
- 计划中的每个元素都由一个专门的工作流处理,这些工作流是受控的
-
回复生成节点 (Reply-generation node):
- 一个最终的
LLM聚合所有指令摘要,解决重叠,检查一致性,并生成单一的回复。 - 如果任何摘要表明置信度低或过于复杂,该节点会触发转交人工代理,而不是自动回复。
- 一个最终的
4.2.2. AI购物助手中的对话策略挑战
在每个销售导向的对话回合中,智能体必须在两种会话策略之间做出选择:
-
探索 (Discovery): 提问澄清问题或展示一小部分有代表性的商品,以帮助购物者细化其意图或探索商家的商品。
-
推荐 (Recommendation): 一旦意图明确,呈现具体的商品(或捆绑商品),并解释其如何满足表达的需求。
实现这种混合主动性行为面临两个技术挑战:
- 产品上下文检索 (Product context retrieval): 如何在不溢出
LLM上下文窗口的情况下,获取高质量的候选产品。 - 策略选择 (Tactic selection): 系统如何逐回合推断对话是仍处于探索阶段还是已准备好进行推荐。
4.2.3. 产品搜索系统
购物助手依赖一个 两阶段神经搜索管道 (two-stage neural search pipeline),其输入是 LLM 根据实时上下文(对话轮次、访问页面、购物车内容、过往订单)生成的查询。每个查询以两种模式之一在商家产品目录上执行:
- 识别 (Identification): 检索与表达需求相匹配的商品。
- 推荐 (Recommendation): 检索补充当前兴趣的交叉销售或向上销售商品。
检索架构 (Retrieval architecture):
所有 LLM 生成的查询和产品描述都使用一个多语言编码器 (E5 [20]) 进行嵌入 (embedding),该编码器使用 三元组损失 (triplet loss) 进行微调。
- 第一阶段:召回 (Candidate fetching): 通过
HNSW (Hierarchical Navigable Small World)[15]近似最近邻 (approximate-nearest-neighbour)索引,快速获取候选商品。 - 第二阶段:重排序 (Re-ranking): 对
top-k(本例中 )候选商品使用一个基于Transformer[19] 的重排序模型 (RoBERTa[13]) 进行重排序。该模型在点击率标签 (click-through labels) 上使用二元交叉熵 (Binary Cross-Entropy, BCE)训练,生成一个校准过的相关性分数s(q, p),用于后续的熵计算。
训练数据和负样本 (Training data and negatives): 为了平衡在线推荐系统的探索与利用,使用了两种互补的数据源:
- 有机收集的
分发外信号 (Out of distribution signals)(无需AI智能体干预):识别:店铺搜索-落地页对。推荐:购物车共现元组。
分发内信号 (In distribution signals)(从实时智能体对话中收集的成功事件):LLM生成查询的识别或推荐管道点击事件。 负样本均匀地从(i) 其他商家的目录和(ii) 同商家内不相交的集合中采样,确保了强负样本且无语义重叠。
冷启动鲁棒性 (Cold-start robustness): 由于编码器是在跨商家数据上训练的,因此它能够泛化到未见过的店铺;新上架的产品在摄入时被嵌入并立即索引,无需额外微调,从而消除了冷启动延迟。
4.2.4. 基线:LLM驱动的对话策略
第一代购物助手依赖于一个 LLM路由器 (LLM router) 来决定是采用 DIscoveRY(发现)策略还是 RecoMMENDATIoN(推荐)策略。其工作流包括三个顺序阶段:
- 设置 (Setup): 并行发出两个
LLM调用:兴趣分类器 (Interest classifier):预测客户兴趣阶段为DISCOVERY(意图不明确)或INTERESTED(意图精确)。查询生成器 (Query generator):根据完整上下文(对话历史、浏览页面、购物车等)生成一个或多个文本查询,这些查询针对搜索引擎的识别或推荐操作符。
- 候选检索 (Candidate retrieval): 每个查询由第3.1节描述的两阶段搜索管道执行。
- 策略提示 (Tactic prompting): 根据预测的兴趣阶段,将检索到的产品片段注入专门的提示词(
DIsCovERY或RECoMMENDATIoN),生成指令摘要,然后转发到回复生成节点。
观察到的局限性 (Observed Limitations):
- 上下文相关的粒度 (Context-dependent granularity):
LLM基于兴趣阶段分类器在用户目标与特定产品无关时(如“你能在周五前发货吗?”)表现良好。然而,当用户明确提及产品或类别时,分类器经常错误判断请求相对于商家目录是模糊还是精确。例如,“钉子”这个查询在一家专业钉子供应店可能非常广泛(数百个SKU),但在一家只有少数指甲用品的综合美妆店则非常具体。由于分类器无法访问完整的目录广度,它无法做出这种区分。将整个目录作为上下文提供给LLM在实践中是不可行的,因为它会极大地增加幻觉 (hallucination)风险和响应时间。 - 购物助手发现是购物者驱动的 (Shopping assistant discovery is shopper driven): 对购物者首次消息的意图分析(见图2)显示,大部分购物者带着明确的产品意图进行互动(如
PRODUCT:DETAILs、PRODUCT:UsAGE、PRODUCT:AvAILABILITY)。因此,对话策略需要根据这些查询相对于商家目录的广度来动态调整其行为。
4.2.5. 通过熵建模查询广度
为了解决上述局限性,论文提出通过 检索得分分布的熵 来建模查询广度。
设商家目录包含 个商品 。对于 LLM 生成的查询 ,我们从重排序器获得每个候选产品校准后的相关性分数 (参见3.1节)。对于 top-k 候选产品,我们构建一个概率质量函数 (probability mass function):
-
符号解释:
-
: 对于查询 ,第 个候选产品被选中的概率。
-
: 查询 与产品 之间的校准重排序分数。
-
: 考虑的
top-k候选产品数量。 -
:
top-k候选产品的重排序分数总和,用于归一化。 -
: 索引 遍历
top-k候选产品。令 为查询 的
top-k检索结果上的分布,其中产品 的概率为 。
-
-
如果购物者带着非常精确的查询,则 将是高度偏斜的分布,少数几个产品占据大部分概率质量(对一小部分产品相似度很高,其余很低)。
-
相反,如果购物者带着模糊或广泛兴趣的查询,则得分分布会更平坦,更接近均匀分布(许多产品都有相似的低分数)。
基于此,我们使用 的熵作为客户意图广度的代理。我们将
广度分数 (broadness score)定义为 的归一化熵 (normalized entropy): -
符号解释:
-
: 对于查询 ,基于
top-k检索结果,相对于总目录 的归一化广度分数。 -
: 基于
top-k候选产品概率分布 的香农熵 (Shannon Entropy)。 即为上述的 。 -
: 最大可能熵(当所有 个产品概率相等时,分布最均匀),用于归一化,使得 。
-
: 最小熵,所有概率质量集中在一个产品上,表明意图精确。
-
: 最大熵,分数几乎均匀分布,表明查询模糊。
熵估计器 (Entropy estimator): 实际上,我们仅能访问基于
top-k检索到的商品上下文的广度 ,而不是整个产品目录的广度 。这意味着计算广度时未考虑的产品目录项必然具有较低的相似度。因此,top-k广度 总是会高估完整产品目录的广度分数 ,因为它看不到不相关项的“长尾”。经验表明,当 达到 50 时,平均误差会迅速收敛到0,足以满足实际需求(见图3)。
-
4.2.6. 熵驱动对话策略
利用 广度分数,我们为购物助手设计了一个简单的 熵敏感对话策略。在每个对话回合中,一个 查询生成器 LLM 根据用户的言语和上下文定义两种类型的搜索查询:
-
探索性查询 (Exploratory): 一个或多个目录级别的识别或推荐搜索,反映用户的一般上下文(访问页面、购物车内容、对话历史)。
-
聚焦查询 (Focused): 从最近的言语中提炼出的单一识别查询,这是对购物者即时目标的最佳猜测。
我们通过产品搜索引擎执行所有候选查询,然后计算
聚焦查询 (focused query)的广度分数 。对话策略随后根据是否存在明确的聚焦查询及其熵值进行分支:
该图像是一个示意图,展示了产品搜索引擎如何根据购物者的查询与上下文生成推荐策略。图中区分了探索性查询和聚焦查询,并依据查询的精确度和广度,决定使用推荐提示或引导发现与探索的提示。
Figure 4: Entropy controlled sales tactic (see .
- 无聚焦查询 (No focus query): 如果
LLM无法生成一个合理的聚焦搜索,我们将对话路由到探索阶段 (Exploration phase)。系统旨在通过展示多样化的上下文相关产品或提出广泛的问题来激发购物者的兴趣。助手可能会展示热门类别或相关商品以帮助用户明确其需求。 - 存在聚焦查询 (Focus query present):
-
:这表示
低熵(相关性高度集中在少数商品上),用户意图显得精确。助手将自信地建议顶部结果或一个非常窄的产品集,这些产品最可能与购物者的需求相关。这对应于高置信度 (high-confidence)场景,此时利用 (exploitation)优于探索 (exploration)。 -
:这表示
高熵(查询广泛或模糊),用户意图仍然模糊或未充分指定。助手将提出一两个澄清问题或请求购物者提供额外细节。目标是在下一轮通过鼓励用户缩小需求来降低熵。这种
熵驱动策略的一个重要优势是,它能够在没有昂贵上下文注入的情况下,持续保持目录感知 (catalog-aware)。决策逻辑仅依赖于检索分数的分布,这意味着任何新索引的产品或目录变化都可以实时影响结果。
-
阈值选择 (Threshold selection):
我们将 阈值 分为三种“激进程度”预设 (educational、balanced、pushy),允许商家权衡发现的深度和转化压力。这些预设是实验性的,可以细化。为了定义每个桶的级别,我们使用了从购物者会话数据中有机收集的用户搜索查询,这些查询被映射到搜索后的下一个落地页。对于每个查询,我们测量了检索系统的 召回率@10 (recall@10)(二元,0或1),并测量了搜索的熵。
然后,我们测量了相同熵桶中搜索查询的平均归一化熵,并在图5中报告了作为熵桶函数平均 召回率@10。

该图像是图表,展示了搜索查询熵与 Recall@10 的关系。图中的曲线呈现出随着熵值变化,Recall@10 的指标呈现一定的波动,具体在熵值为 0.28 附近达到最高值,之后逐渐下降至较低水平。
Figure 5: Recall at 10 plateau for different values of entropy
从数据中我们注意到,召回率@10 在熵值变化时呈现出平台期,并在大约 0.3 和 0.8 附近下降:
- 低于
0.3:在top-10检索到的商品中,检索到正确产品的概率约为0.6。 - 介于
0.3和0.8之间:概率稳定在0.4左右。 - 超过
0.8:对于这种广度分数的查询,识别下一个落地产品页的成功率降至0.2。 我们使用这些级别作为上述三种激进程度预设的阈值的经验性猜测。
5. 实验设置
5.1. 数据集
论文中提及了多种类型的数据集,用于训练模型、评估意图分布和验证熵估计器的性能。
- 用于训练神经搜索管道的数据:
- 分发外信号 (Out of distribution signals): 有机收集的真实用户行为数据,无需
AI智能体干预。- 识别 (Identification) 模式: 商店门面搜索的查询与用户实际点击并访问的落地页(
storefront search landing-page pairs)。 - 推荐 (Recommendation) 模式: 购物车中共同出现的商品对(
cart co-occurrence tuples),反映了商品的搭配关系。
- 识别 (Identification) 模式: 商店门面搜索的查询与用户实际点击并访问的落地页(
- 分发内信号 (In distribution signals): 从实时
AI智能体对话中收集的成功事件。LLM生成的查询通过识别或推荐管道后的点击事件(LLM-generated queries identification or recommendation pipeline click through events)。
- 负样本: 均匀采样自
(i) 其他商家的目录和(ii) 同商家内不相交的集合,以确保负样本具有挑战性且语义上不重叠。
- 分发外信号 (Out of distribution signals): 有机收集的真实用户行为数据,无需
- 用于评估购物者意图分布的数据:
- 从过去6个月(2025年1月至2025年6月)随机抽样的100万次交互中获取的购物者首次消息。
- 使用了一个包含52个意图类别、每个类别有50个手动标记平衡示例的数据集,用于微调和验证意图分类提示词。
- 样本示例(来自图2):
PRODUCT:DETAILs,PRODUCT:UsAGE,PRODUCT:AvAILABILITY是最主要的意图类别。
- 用于评估熵估计器误差的数据:
- 有机搜索数据集(
storefront search landing-page pairs),平均跨越 Gorgias 支持的 15K 家商店。
- 有机搜索数据集(
- 用于定义阈值 的数据:
- 从购物者会话数据中有机收集的用户搜索查询,这些查询被映射到搜索后的下一个落地页。
5.2. 评估指标
论文中使用了以下评估指标来衡量不同方面的方法性能:
-
召回率@K (Recall@K):
- 概念定义:
召回率 (Recall)衡量的是在一个推荐(或检索)系统中,所有真正相关(或正确)的项中有多少比例被系统成功地找回。Recall@K特指在系统返回的top-K个结果中,包含至少一个相关项的比例。它关注的是系统“找全”的能力,特别是在前 个结果中的表现。 - 数学公式:
- 符号解释:
- : 真实相关的产品集合。
- : 推荐系统(或检索系统)返回的
top-K个产品集合。 - : 集合交集运算符。
- : 集合的元素数量(基数)。
在本文中,
Recall@10被用于评估检索系统在不同熵值下的性能,具体是衡量在top-10结果中是否包含用户下一个落地页对应的正确产品,其值为二元(0或1)。
- 概念定义:
-
对话长度 (Conversation Length):
- 概念定义:
对话长度衡量的是用户与AI智能体在一次会话中互动的回合数或消息数量。它是一个直接衡量用户参与度 (engagement) 的指标:通常,更长的对话表明用户对智能体的互动更满意,或智能体能更好地引导用户进行深入探索。 - 数学公式: 该指标通常是直接计数或求平均,没有复杂的数学公式。
- 符号解释:
- : 在一次会话中,用户与智能体之间消息交换的总回合数。
- 概念定义:
-
转化率 (Conversion Rate):
- 概念定义:
转化率衡量的是在特定情境下(如AI智能体辅助的对话),用户完成期望行动(如购买商品、注册服务)的比例。它是衡量商业成功的关键指标。 - 数学公式:
- 符号解释:
- : 完成期望行动(如购买)的次数。
- : 总的互动次数或会话次数。
在本文中,
转化率用于评估不同对话策略对销售的影响。
- 概念定义:
5.3. 对比基线
论文主要将提出的 熵驱动对话策略 (entropy-driven dialogue policy) 与其第一代 LLM驱动的对话策略 (LLM-driven dialogue policy) 进行了比较。
- LLM驱动的对话策略 (LLM-driven dialogue policy): 这是基线模型,它使用一个
LLM分类器来预测客户兴趣阶段是DISCOVERY(意图不明确)还是INTERESTED(意图精确),然后据此决定是提出探索性问题还是进行产品推荐。这个基线模型在方法论部分有详细描述,并且其局限性(如无法感知完整的目录广度)促使了熵驱动策略的开发。
6. 实验结果与分析
6.1. 核心结果分析
论文通过对购物者意图分布的分析、熵估计器性能的验证,以及 A/B 测试来评估熵驱动对话策略的效果。
6.1.1. 购物者意图分布
通过对100万次随机抽样的购物者首次消息的意图分类,论文揭示了电商场景下购物者的主要意图分布。

该图像是一个饼图,展示了顾客联系原因的分布,右侧为联系原因的分类标签。橙色区域占比较大,表明某一特定联系原因的突出性。
Shopper intent distribution
Figure 2: Distribution of shopper intents in e-commerce.
- 分析:
Figure 2展示了购物者意图的分布,其中PRODUCT:DETAILs、PRODUCT:UsAGE和PRODUCT:AvAILABILITY三个类别占据了近70%的比例(分别为 54%、10% 和 5.4%)。 - 含义: 这一发现表明,绝大多数购物者在与
AI智能体互动时,已经对某个产品或某一类产品有了一个初步的、相对清晰的意图。他们可能在寻求具体的产品信息、使用方法或库存状况。这强化了根据查询广度动态调整对话策略的必要性,即对于这些带有明确意图的查询,系统应该能够迅速判断其精确度,并在可能时直接推荐,而不是盲目地进入探索模式。
6.1.2. 熵估计器的收敛性
论文讨论了 top-k 广度分数 对完整目录广度分数 的估计误差。

该图像是一个示意图,展示了随着邻居数量增加,熵误差逐渐减小的趋势。X轴表示邻居数量,从0到100,Y轴表示熵误差,数值从0到0.5。数据表明,熵误差随邻居数量增加而降低,反映了模型在处理数据时的优化效果。
Average entropy estimator error
Figure 3: Convergence of the entropy estimator.
- 分析:
Figure 3展示了随着top-k邻居数量的增加,熵估计器的平均误差如何收敛。可以看到,误差迅速下降,并且当邻居数量达到50左右时,平均误差已经非常接近0。 - 含义: 这证明了即使只考虑
top-k个检索结果来计算熵,也能获得一个可靠的、足够近似的查询广度信号,以满足实际应用的需求。这对于计算效率至关重要,因为它避免了对整个庞大目录进行熵计算。
6.1.3. 召回率与熵的关系及阈值定义
为了确定熵驱动策略的切换阈值 ,论文分析了用户搜索查询的 召回率@10 与其对应的归一化熵之间的关系。

该图像是图表,展示了搜索查询熵与 Recall@10 的关系。图中的曲线呈现出随着熵值变化,Recall@10 的指标呈现一定的波动,具体在熵值为 0.28 附近达到最高值,之后逐渐下降至较低水平。
Figure 5: Recall at 10 plateau for different values of entropy
- 分析:
Figure 5展示了召回率@10随熵值变化的趋势。- 当熵值低于
0.3时,召回率@10约为0.6,表明此时查询非常精确,系统在前10个结果中找到正确产品的可能性较高。 - 当熵值介于
0.3和0.8之间时,召回率@10稳定在0.4左右,表示查询具有中等广度或模糊性。 - 当熵值超过
0.8时,召回率@10骤降至0.2,表明查询非常模糊,系统很难在前10个结果中识别出目标产品。
- 当熵值低于
- 含义: 这些观察到的平台期和下降点为定义对话策略的切换阈值提供了经验依据。例如,可以将
0.3和0.8作为划分“精确”、“中等模糊”和“高度模糊”查询的边界,进而指导教育型 (educational)、平衡型 (balanced)和进取型 (pushy)三种策略预设的 值的设定。这使得系统能够根据查询的实际广度,灵活地选择是直接推荐还是进行探索。
6.1.4. 熵驱动策略对参与度的影响
论文进行了 A/B 测试,比较了 熵驱动对话策略 与基线模型在 购物者参与度 (shopper engagement) 上的效果。

该图像是一个条形图,展示了使用熵驱动对话政策的购物助手与基线模型在用户互动次数上的对比。可以看到,在一次互动中,熵驱动政策的使用率明显高于基线,显示出更长的对话交互。该政策通过动态调整对话策略,提升了购物助手的互动效率。
Figure 6: The shopping assistant powered with the entropy driven dialogue policy had longer conversations with shoppers than our baseline
- 分析:
Figure 6显示了两种对话策略下的对话长度分布。熵驱动策略使得购物者与购物助手的对话轮次明显更长。在图中,熵驱动策略在更高对话轮次上的使用率(柱状图高度)明显高于基线模型。
- 含义: 这表明
熵驱动对话策略能够更有效地引导购物者进行更深入的互动。当查询模糊时,它会主动提问,收集更多信息,而不是过早地推荐不相关的商品,从而提升了用户体验和参与度。这种策略更好地平衡了探索和利用,使得对话更加自然和有效。 - 转化率: 论文提到虽然也测量了转化率,并注意到略微的增加,但这种增加在统计上并不显著,因此未在结果中报告。这表明对话策略对转化率的影响可能受到更多复杂因素的制约。
6.2. 数据呈现 (表格)
本论文未在正文中呈现表格形式的实验结果。所有结果均通过图表进行展示。
6.3. 消融实验/参数分析
论文通过 召回率@10 与熵的关系(Figure 5)来指导 阈值 (Threshold) 的选择,这可以看作是一种参数调优和消融分析的间接形式。通过观察不同熵区间内检索性能的变化,作者确定了划分 教育型 (educational)、平衡型 (balanced) 和 进取型 (pushy) 三种激进程度预设的经验阈值。这种方法不是传统的组件级消融,而是对核心参数()进行分析和校准,以适应不同的业务需求和用户体验目标。
7. 总结与思考
7.1. 结论总结
本研究提出了一种创新性的 熵驱动对话策略 (entropy-driven dialogue policy),用于 LLM驱动的会话推荐系统 在面对 任意大型产品目录 时的 探索-利用 (exploration-exploitation) 权衡问题。核心贡献在于通过计算 神经检索器 返回的 产品相关性得分分布的熵,来量化用户查询的 广度 (broadness)。当熵值较低时,系统进行直接推荐(利用);当熵值较高时,系统则提出探索性问题(探索)。
这一策略的优势在于,它使 LLM驱动智能体 能够实时 目录感知 (catalog-aware),而无需将庞大的产品目录注入 LLM 的 上下文窗口 (context window),从而有效避免了 上下文窗口膨胀 和 幻觉 等问题。经验证,该方法显著提升了购物者与智能体的 互动参与度 (engagement),表现为更长的对话轮次。
7.2. 局限性与未来工作
- 转化率提升不显著: 尽管
熵驱动策略显著增加了对话长度和用户参与度,但对转化率 (conversion rate)的提升在统计上并不显著。这表明影响电商转化率的因素是多方面的,对话策略只是其中一环,可能需要结合其他销售策略或更深层次的用户理解才能产生实质性影响。 - 阈值设定: 当前的
阈值是基于对召回率@10曲线的经验观察来设定的,这可能不是最优或最具适应性的。 - 未来研究方向: 作者提出将研究扩展到
主动式购物助手 (proactive shopping assistant)。这意味着智能体不再是被动等待用户提问,而是通过分析用户的浏览数据和上下文,主动判断用户何时可能需要帮助,并在不打扰用户的前提下提供帮助。这需要更复杂的模型来预测用户意图和行为,并精细化干预时机。
7.3. 个人启发与批判
7.3.1. 个人启发
- 巧妙的代理指标: 将
熵作为衡量用户意图广度的代理指标是一个非常巧妙且实用的思路。它将一个抽象的语义概念(意图广度)转化为一个可量化的信息论度量,有效地绕开了LLM在理解和处理大规模目录信息时的局限性。这种通过特征工程或数据驱动的指标来辅助LLM决策的范式,对于构建高效、可扩展的LLM应用具有重要启发意义。 - 实时目录感知与资源效率: 该方法实现了
LLM驱动智能体的实时目录感知,而无需将整个目录注入LLM上下文。这不仅解决了LLM上下文窗口的限制问题,也大大提高了系统的运行效率,降低了计算成本和幻觉风险,对于在实际生产环境中部署LLM推荐系统至关重要。 - 动态对话策略的普适性:
探索-利用权衡是许多智能系统中的核心问题。本文通过熵驱动的动态策略,提供了一个通用框架,可以推广到其他需要根据信息不确定性来调整行为的对话系统或决策智能体中。 - 业务与技术的结合: 论文从实际业务痛点出发(电商场景下的用户互动和转化),巧妙地运用了前沿技术(
LLM、神经检索、信息熵),并用真实的A/B测试验证了其在用户参与度方面的积极影响,体现了扎实的工程实践与学术研究相结合的价值。
7.3.2. 批判与潜在改进
- 转化率的深层原因: 尽管
参与度显著提升,但转化率未能显著增加是一个值得深思的问题。这可能表明:- 深度互动不等于有效互动: 延长对话可能只是增加了用户与
AI的“聊天”时间,但并未能更有效地引导用户做出购买决策。未来的研究需要关注如何将更长的对话转化为更高质量的互动,例如通过更精准的个性化说服、更有效的商品展示或更流畅的购买流程整合。 - 策略粒度问题:
熵只能判断查询的广度,但无法直接评估用户是否真的有购买意愿、预算、风格偏好等更细致的因素。可能需要在熵之外,结合更多用户意图信号(如情感分析、历史购买记录、浏览行为)来更全面地指导推荐和转化。
- 深度互动不等于有效互动: 延长对话可能只是增加了用户与
- 阈值设定的优化: 当前的
阈值是基于召回率@10曲线的经验观察来设定的。这种方法可能不够灵活和最优。- 自适应阈值: 可以探索使用
强化学习 (Reinforcement Learning)等方法来动态、自适应地调整阈值。通过将转化率或其他商业目标作为奖励信号,模型可以学习在不同上下文和用户状态下,何时更倾向于探索或利用。 - 多维度阈值: 阈值是否应该仅仅依赖于熵?也许可以引入其他特征,例如用户历史行为、商品利润率等,来构建一个多维度的决策函数。
- 自适应阈值: 可以探索使用
- 语义广度的细粒度: 熵衡量的是检索结果分布的均匀性,这在一定程度上反映了语义广度。然而,不同品类之间的“广度”可能存在语义差异,例如“红色T恤”和“夏季连衣裙”的广度可能在数值上相似,但在业务含义和用户期望上可能大相径庭。模型是否能处理这种语义上的细微差异,可能需要更深层次的语义理解。
- 主动式智能体的挑战: 论文提及的未来工作是开发
主动式购物助手。这将带来新的挑战,例如:- 打扰风险: 如何在主动提供帮助的同时,避免打扰用户?这需要非常精准的用户行为预测和干预时机判断。
- 用户意图推理: 在用户未明确提问的情况下,如何准确推断其潜在需求和帮助时机?这比被动响应更具挑战性。
- 跨领域泛化能力: 虽然
E5编码器具有跨商家泛化能力,但熵驱动策略对特定目录的依赖性较强。对于某些极端小众或高度专业化的目录,其性能如何,仍需进一步验证。
相似论文推荐
基于向量语义检索推荐的相关论文。