MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment
TL;DR 精炼摘要
本研究提出MAPS方法,通过大语言模型统一查询与咨询语义,采用注意力专家混合优先抽取关键语义,结合对比学习和双向注意力双重对齐,提升个性化搜索中动机感知能力。实验证明MAPS在电商检索排序任务中显著优于现有方法。
摘要
Personalized product search aims to retrieve and rank items that match users' preferences and search intent. Despite their effectiveness, existing approaches typically assume that users' query fully captures their real motivation. However, our analysis of a real-world e-commerce platform reveals that users often engage in relevant consultations before searching, indicating they refine intents through consultations based on motivation and need. The implied motivation in consultations is a key enhancing factor for personalized search. This unexplored area comes with new challenges including aligning contextual motivations with concise queries, bridging the category-text gap, and filtering noise within sequence history. To address these, we propose a Motivation-Aware Personalized Search (MAPS) method. It embeds queries and consultations into a unified semantic space via LLMs, utilizes a Mixture of Attention Experts (MoAE) to prioritize critical semantics, and introduces dual alignment: (1) contrastive learning aligns consultations, reviews, and product features; (2) bidirectional attention integrates motivation-aware embeddings with user preferences. Extensive experiments on real and synthetic data show MAPS outperforms existing methods in both retrieval and ranking tasks.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment (MAPS:基于大语言模型驱动的咨询对齐的动机感知个性化搜索)
1.2. 作者
Weicong Qin, Yi Xu, Weijie Yu, Chenglei Shen, Ming He, Jianping Fan, Xiao Zhang, Jun Xu 主要研究机构包括:
- 中国人民大学高瓴人工智能学院 (Gaoling School of Artificial Intelligence, Renmin University of China, China)
- 对外经济贸易大学 (University of International Business and Economics, China)
- 联想研究院人工智能实验室 (AI Lab at Lenovo Research, Lenovo Group Limited, China)
1.3. 发表期刊/会议
预印本,发布在 arXiv。
1.4. 发表年份
2025-03-03T16:24:36.000Z (UTC 时间)
1.5. 摘要
个性化产品搜索旨在检索和排序符合用户偏好和搜索意图的商品。尽管现有方法有效,但它们通常假设用户的查询完全捕捉了其真实动机。然而,作者对真实电商平台的分析发现,用户在搜索前常进行相关咨询,这表明他们通过基于动机和需求的咨询来完善意图。咨询中隐含的动机是增强个性化搜索的关键因素。这个未被探索的领域带来了新的挑战,包括将上下文动机与简洁查询对齐、弥合类别-文本鸿沟以及过滤序列历史中的噪声。为解决这些问题,论文提出了一个动机感知个性化搜索(Motivation-Aware Personalized Search, MAPS)方法。MAPS 通过大语言模型(LLMs)将查询和咨询嵌入到统一的语义空间中,利用注意力专家混合(Mixture of Attention Experts, MoAE)来优先处理关键语义,并引入双重对齐机制:(1) 对比学习(contrastive learning)对齐咨询、评论和产品特征;(2) 双向注意力(bidirectional attention)将动机感知嵌入(motivation-aware embeddings)与用户偏好整合。在真实和合成数据集上进行的大量实验表明,MAPS 在检索和排序任务中均优于现有方法。
1.6. 原文链接
- 原文链接:
https://arxiv.org/abs/2503.01711 - PDF 链接:
https://arxiv.org/pdf/2503.01711v4.pdf - 发布状态: 预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 论文试图解决的核心问题
论文旨在解决当前个性化产品搜索系统中的一个根本性限制:现有方法通常假设用户的搜索查询(query)能够完整、准确地表达其真实的搜索动机(motivation)或意图(intent)。然而,在实际的电子商务场景中,用户的初始查询往往是模糊的、不完整的,或者无法完全捕捉其深层次的需求。例如,用户搜索“X-600”可能只是一个起点,其真实动机可能是寻找一个“适合专业级视频编辑的轻便笔记本”,而“X-600”只是其偶然了解到的一个型号。
2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?
- 重要性: 电子商务平台为了提升用户满意度和转化率,迫切需要更精准的个性化搜索结果。如果搜索系统能理解用户查询背后的真实动机,将能提供更贴合用户需求、更具价值的商品,从而显著提升用户体验。
- 现有研究的挑战与空白 (
Gap):- 查询-动机鸿沟 (
Query-Motivation Gap): 用户查询通常简洁(关键词),而真实动机往往复杂且需要上下文。现有方法未能有效弥合这一鸿沟。 - 咨询数据未被充分利用: 越来越多的电商平台提供
AI咨询服务(AI consultation services),用户在搜索前会与AI进行自然语言交互,以澄清需求。这些咨询记录包含了用户丰富的动机信息,但目前尚未被现有搜索系统有效利用。 - 数据源异构性: 咨询信息是自然语言文本,而商品特征可能包括结构化类别属性。如何将这些异构信息对齐并融入搜索模型是一个挑战。
- 噪声过滤: 用户的历史咨询和搜索序列中可能包含大量与当前搜索无关的噪声信息,需要有效过滤。
- 查询-动机鸿沟 (
2.1.3. 这篇论文的切入点或创新思路
论文的创新点在于首次明确提出并利用用户在电商平台上的咨询记录来捕捉其搜索动机。作者发现用户在搜索前进行咨询的现象(如图 Figure 2(b) 所示,高达 50% 以上的搜索会话伴随相关咨询),并认为这些咨询文本中蕴含了比单一查询更丰富、更真实的动机信息。通过将这些动机信息融入个性化搜索流程,可以显著提升搜索效果。
2.2. 核心贡献/主要发现
论文的主要贡献体现在以下几个方面:
- 明确提出并建模“搜索动机”: 首次在提供咨询服务的电商平台语境下,明确提出并量化了“搜索动机”在个性化搜索系统中的关键作用。这填补了现有研究的空白,即现有方法通常假设查询即意图。
- 提出
MAPS模型框架: 设计了一个新颖的MAPS模型,该模型利用大语言模型(LLM)的知识来弥合ID嵌入和文本嵌入之间的鸿沟。通过注意力专家混合(MoAE)机制,有效对齐个性化搜索建模中的搜索动机。 - 双重对齐机制:
MAPS引入了通用的(general)和个性化的(personalized)双重对齐机制。- 通用对齐:通过对比学习,将咨询、评论和产品特征等不同数据源的文本信息与商品
ID进行语义对齐。 - 个性化对齐:通过双向注意力机制,从用户的历史咨询和搜索记录中提取动机感知嵌入,并与用户偏好进行整合。
- 通用对齐:通过对比学习,将咨询、评论和产品特征等不同数据源的文本信息与商品
- 广泛的实验验证: 在一个真实的商业数据集和一个合成数据集上进行了大量的实验,涵盖检索和排序两个阶段。实验结果表明,
MAPS在性能上显著优于传统的检索方法、现有的个性化搜索方法以及对话式检索方法。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 个性化搜索 (Personalized Search)
个性化搜索是一种搜索引擎技术,它根据用户的个人信息、历史行为、偏好或上下文来定制搜索结果。与传统搜索(只根据查询词匹配相关文档)不同,个性化搜索旨在提供更符合用户个体需求的、更相关的结果。在电商领域,这意味着根据用户过去的购买、浏览、点击等行为,以及其人口统计学信息等,来推荐最有可能购买或感兴趣的商品。
3.1.2. 大语言模型 (Large Language Models, LLMs)
大语言模型是基于海量文本数据进行训练的深度学习模型,通常采用 Transformer 架构。它们能够理解、生成和处理自然语言,并捕捉丰富的世界知识和语义关系。在本文中,LLM 被用来将用户查询、咨询文本和商品描述等自然语言文本转换为高维的语义嵌入(semantic embeddings),从而为模型提供强大的语言理解能力。
3.1.3. 嵌入 (Embeddings)
在机器学习中,嵌入是将离散的、高维的、通常是稀疏的(sparse)数据(如词、用户ID、商品ID、类别)映射到低维、连续、密集的(dense)向量空间的过程。这些向量能够捕捉实体之间的语义和关系,使得相似的实体在向量空间中距离相近。LLM 产生的文本嵌入就是一种语义嵌入。
3.1.4. 注意力机制 (Attention Mechanism)
注意力机制是一种神经网络技术,允许模型在处理序列数据时,将注意力集中在输入序列中最重要的部分。它通过为输入序列的不同部分分配不同的权重(注意力分数)来实现。例如,在处理一个句子时,模型可以通过注意力机制判断哪些词对理解当前任务最重要。
其核心思想是计算查询(query)与键(key)之间的相似度,然后用这个相似度作为权重来加权求和值(value)。
其中:
- :查询矩阵 (Query matrix),维度为 ,代表我们想关注什么。
- :键矩阵 (Key matrix),维度为 ,代表可供关注的信息。
- :值矩阵 (Value matrix),维度为 ,代表实际要提取的信息。
- :键向量的维度,用于缩放点积。
- :归一化函数,将注意力分数转换为概率分布。
3.1.5. 对比学习 (Contrastive Learning)
对比学习是一种自监督学习范式,其目标是学习一个好的表示空间,使得相似的样本在表示空间中彼此靠近,而不相似的样本彼此远离。它通常通过定义“正样本对”(相似的)和“负样本对”(不相似的)来训练模型。例如,给定一个锚点(anchor)样本,模型会学习使其与一个正样本(positive sample)的嵌入距离更近,同时使其与多个负样本(negative samples)的嵌入距离更远。
3.1.6. Transformer 编码器 (Transformer Encoder)
Transformer 是一种基于注意力机制的神经网络架构,特别适用于序列数据处理。它由多个编码器(encoder)和解码器(decoder)层组成。编码器层主要负责理解输入序列,通常包含多头自注意力机制(Multi-Head Self-Attention)和前馈神经网络(Feed-Forward Network)。在本文中,Transformer 编码器用于处理用户的历史咨询和搜索序列,捕捉序列内的复杂依赖关系和语义信息。
3.2. 前人工作
论文回顾了以下几类相关工作:
-
传统检索算法 (Traditional Retrieval Algorithms):
- 例如
BM25(Robertson et al., 2009),主要依赖于词频(word frequency)等统计特征进行文本匹配和检索。这类方法简单高效,但在理解语义和处理长文本方面存在局限。
- 例如
-
稠密检索算法 (Dense Retrieval Algorithms):
- 例如
BGE-M3(Chen et al., 2024),通过将查询和文档(或商品)嵌入到低维向量空间中,然后计算向量相似度来进行检索。这能够捕捉更深层次的语义信息,提高了检索的准确性。
- 例如
-
对话式检索方法 (Conversational Retrieval Methods):
- 例如
CHIQ(Mo et al., 2024),尝试通过考虑历史搜索查询来改进检索结果的准确性。这类方法关注多轮交互中的上下文信息,但通常不提供针对用户个人偏好的个性化结果。
- 例如
-
个性化搜索方法 (Personalized Search Methods):
- 早期方法:
QEM(Ai et al., 2019a) 和DREM(Ai et al., 2019b) 主要关注查询与商品之间的相似性匹配。 - 融合用户信息的方法:
HEM(Ai et al., 2017)、AEM(Ai et al., 2019a)、ZAM(Ai et al., 2019a) 和TEM(Bi et al., 2020) 等方法开始将用户交互历史和个人信息融入单独的用户嵌入(user embedding)中,以实现个性化。 - 结合推荐系统的方法: 也有一些方法将搜索和推荐结合起来,如
SESRec(Si et al., 2023) 使用对比学习,UnifiedSSR(Xie et al., 2023) 采用双分支网络处理商品和查询历史,UniSAR(Shi et al., 2024) 则使用Transformer和交叉注意力机制。
- 早期方法:
3.3. 技术演进
该领域的技术演进路径大致如下:
-
传统关键词匹配: 从早期的
BM25等方法开始,主要依赖于关键词的统计匹配。 -
语义嵌入与稠密检索: 引入
embedding概念,利用深度学习将文本映射到语义空间,实现更灵活的语义匹配。 -
个性化: 将用户历史行为和偏好融入模型,从通用搜索结果转向针对个体用户的定制化结果。这阶段的用户信息主要来源于交互序列。
-
序列建模与上下文:
Transformer等序列模型被引入,以更好地捕捉用户交互序列中的动态变化和上下文依赖。 -
对话与多模态: 随着
AI助手和咨询服务的兴起,开始考虑多轮对话和不同模态(如文本咨询)中的信息。本文的工作处于技术演进的最新阶段,它在现有个性化搜索的基础上,进一步挖掘了之前未被充分利用的用户咨询文本,将其中的深层动机显式地引入到个性化搜索模型中。
3.4. 差异化分析
MAPS 与上述相关工作的主要区别和创新点在于:
- 动机的显式建模: 大多数现有个性化搜索方法虽然考虑了用户历史,但它们的核心假设仍然是查询能够表达用户意图。
MAPS首次明确地将**咨询文本中隐含的“搜索动机”**作为一个独立的、关键的增强因素来建模,而非仅仅依赖于简洁的查询或历史交互序列。 - 利用
LLM增强语义理解:MAPS充分利用LLM强大的自然语言理解能力,将查询和复杂的咨询文本嵌入到统一的语义空间中,解决了传统方法在处理复杂、长文本时语义理解不足的问题。 - 引入
MoAE聚焦关键语义:MAPS通过注意力专家混合网络(MoAE),自适应地选择最相关的注意力专家来提取关键语义信息,有效过滤了噪声并提升了语义表示的准确性。这比简单的平均池化或单一注意力机制更具优势。 - 双重对齐机制解决多源异构问题:
MAPS通过通用对齐(对比学习)和个性化对齐(双向注意力)解决了不同数据源(ID、咨询文本、商品特征、用户历史)之间的语义鸿沟和噪声问题。通用对齐确保了文本与商品ID之间的基础语义关联,而个性化对齐则将这种关联与特定用户的动态偏好结合。 - 超越查询和交互历史: 现有方法主要关注查询匹配和用户交互序列(如点击、购买),而
MAPS引入了此前未被探索的咨询历史,这为理解用户真实需求提供了更丰富、更直接的线索。
4. 方法论
MAPS 模型旨在通过理解用户在咨询中表达的搜索动机来增强个性化搜索。其核心思想是将用户查询、咨询文本和商品信息嵌入到统一的语义空间,并通过双重对齐机制,即通用对齐和个性化对齐,来捕捉和利用这些动机。整个模型包含三个主要模块:ID-文本表示融合与 LLM、基于映射的通用对齐、基于序列的个性化对齐。
MAPS 的整体架构如下图 Figure 3 所示:

该图像是论文中图3的示意图,展示了MAPS模型的整体框架,包括通过LLM实现的ID-文本表示融合(①)、通用对齐模块(②)与个性化对齐模块(③),架构清晰描述了多专家注意力机制和双重对齐策略。
Figure 3: Overview of MAPS. denotes ID-text representation fusion with LLM. denotes the general alignment. EY denotes the personalized alignment.
4.1. ID-文本表示融合与 LLM (ID-Text Representation Fusion with LLM)
在个性化产品搜索中,用户、商品以及它们之间的各种交互都需要被表示为嵌入向量,以便模型理解用户-商品交互。对于用户和商品,都包含两种特征:类别特征(categorical features)和文本特征(textual features)。
4.1.1. 文本表示 (Text Representation)
为了解决现有方法在文本理解能力上的不足,MAPS 结合了预训练的 LLM 嵌入和注意力专家混合(Mixture of Attention Experts, MoAE)池化网络。
步骤 1: LLM 嵌入
首先,将文本输入到一个**冻结的(frozen)**预训练 LLM 中,获取相应的词元(token)嵌入,而不是直接进行平均池化。这些词元嵌入 包含了丰富的语义信息。
为了适应不同的 LLM,使用可训练的前馈网络层(feed-forward network layers, FFN)将其映射到统一的维度 。
步骤 2: MoAE 池化网络
MoAE 池化框架包括三种类型的注意力池化专家(attention pooling experts),它们自适应地为文本中的词元分配权重,以获得其最终嵌入。
-
参数化注意力池化专家 (Parameterized Attention Pooling Expert): 该专家维护一个参数化的嵌入 作为查询向量。输入词元的嵌入 作为键(
key)来计算注意力分数,然后通过加权平均得到文本嵌入。 其中:- :参数化注意力池化专家产生的文本嵌入。
- :序列长度,即文本中的词元数量。
- :
softmax函数,用于将注意力分数归一化为概率分布。 - :该专家的参数化查询向量,是一个可学习的参数。
- :第 个词元的
LLM嵌入。 - :用于变换键向量的权重矩阵,是一个可学习的参数。
- :词元嵌入的统一维度。
- :缩放因子,用于防止点积过大导致
softmax函数进入梯度饱和区。
-
自注意力池化专家 (Self-Attention Pooling Expert): 该专家直接从输入词元嵌入本身计算自注意力分数,生成加权平均表示。 其中:
- :自注意力池化专家产生的文本嵌入。
- :用于变换查询向量的权重矩阵,是一个可学习的参数。
- 其他符号与参数化注意力池化专家中的定义相同。
-
搜索中心交叉注意力池化专家 (Search-Centered Cross-Attention Pooling Expert): 为了确保用户、商品和咨询交互的文本更关注当前的搜索查询,该专家使用搜索查询文本嵌入 作为注意力查询向量 。 其中:
- :搜索中心交叉注意力池化专家产生的文本嵌入。
- :当前搜索查询文本嵌入 。
- 其他符号与自注意力池化专家中的定义相同。
步骤 3: 专家门控与组合
每种专家类型可以有 个成员。通过一个门控网络(gating network)计算门控分数,该网络将输入嵌入乘以权重矩阵,将其转换为 维向量,从而选择激活 Top K 个专家。对激活的 Top K 专家的门控分数应用 softmax,得到它们的权重 ,然后加权求和这些专家的池化嵌入 得到最终的文本嵌入:
其中:
-
:最终的文本嵌入。
-
:激活的专家数量。
-
:第 个专家的门控分数。
-
:第 个专家的池化嵌入。
对于用户或商品,可能存在多个文本特征 。它们的文本特征嵌入通过拼接(
concat)得到: 其中 表示文本特征的数量。
4.1.2. 类别 ID 表示 (Categorical ID Representation)
类别特征通常通过查表(lookup)操作转换为相应的 ID 嵌入。
其中 表示类别 对应 ID 的嵌入查找操作。
用户或商品的类别 ID 嵌入通过拼接得到:
其中 表示类别特征的数量。
4.1.3. 整体表示 (Overall Representations)
获得文本嵌入 和 ID 嵌入 后,通过进一步拼接、前馈网络和激活函数,得到用户 、商品 、查询 和咨询 的整体嵌入:
其中:
- :对于 ,将嵌入映射到统一维度 的前馈网络。
- :激活函数(如
tanh)。
4.2. 基于映射的通用对齐 (Mapping-Based General Alignment)
为了让模型理解哪些特征 ID 和商品对应于各种文本,需要将词元(token)和商品在统一的语义空间中进行对齐,这被称为“通用对齐”。
步骤 1: 构建商品全文本集合 对于每个商品 ,收集所有相关文本数据,包括相关查询集、咨询、商品标题、描述文本、广告文本等,构建一个全面的全文本集合 。
步骤 2: 过滤关键词集合 通过设置一个阈值 来过滤掉在搜索相关场景中出现频率过低的噪声文本,从而精炼关键词集合: 其中:
- :过滤后的商品 的关键词集合。
- :词 在搜索相关场景中的频率。
- :频率阈值。 这个精选的集合建立了一个从词元到商品的映射 ,其中每个词元 通过其在相似搜索上下文或主题相关性中的共同出现与商品 关联起来。
步骤 3: 双向对比损失
给定共享语义空间中的词元-商品对 (t, v),引入双向对比损失 :
其中:
- :点积相似度函数。
- :词元 的嵌入。
- :商品 的嵌入。
- :随机采样的负样本词元集合。
- :随机采样的负样本商品集合。
- :两个损失项的权重。
- :温度参数,用于控制
softmax分布的尖锐度。 该公式确保模型为正确的词元-商品对分配更高的相似度分数,同时降低与不正确对的相似度。
4.3. 基于序列的个性化对齐 (Sequence-Based Personalized Alignment)
本节展示如何从咨询中挖掘搜索动机并将其与当前查询 对齐以增强搜索。
4.3.1. 动机感知查询嵌入 (Motivation-Aware Query Embedding)
受到 的启发,将当前查询的嵌入 作为锚点(anchor)。它与用户的咨询历史 一起被输入到一个 Transformer 编码器中。通过多头双向注意力机制(multihead bidirectional attention mechanism)和 FFN 层,从用户的咨询历史中获得搜索动机嵌入。
其中:
-
:当前查询从咨询历史中获得的搜索动机嵌入。
-
:
Transformer编码器,用于处理查询和咨询历史。 -
:当前查询的嵌入。
-
:用户的 个咨询历史的嵌入。
-
[0, :]:选择输出序列中的第一个向量(对应于查询的输出)。考虑到历史查询也可能对当前查询的动机具有相关性或暗示作用,对查询历史 执行相同的操作。 其中:
-
:当前查询从查询历史中获得的搜索动机嵌入。
-
:
Transformer编码器,用于处理查询和搜索历史。 -
:用户的 个历史查询的嵌入。
然后,通过加权求和整合这些动机感知嵌入和原始查询嵌入,得到最终的动机感知查询嵌入 : 其中 是可学习的权重。
4.3.2. 基于商品历史的个性化搜索 (Personalized Search with Item History)
将动机感知查询嵌入 和商品嵌入 输入到一个 Transformer 编码器中,以捕捉复杂的交互。然后将用户嵌入 加到输出中,获得最终的个性化查询嵌入。
其中:
- :最终的个性化查询嵌入。
- :最终的
Transformer编码器。 - :商品嵌入的集合。
- :表示向量的原地相加(
in-place add)。
4.3.3. 推理 (Inference)
在推理阶段,候选商品根据其与最终查询嵌入的相似度派生的概率分数进行排序: 其中:
- :给定当前查询、用户历史和用户资料,商品 的排名概率。
- :候选商品集合中的商品。
- :点积相似度函数。
4.3.4. 优化 (Optimization)
遵循现有方法,学习目标是增加真实(ground-truth)商品在给定用户序列下的相关性分数。个性化对齐损失 可以表示为:
其中, 是候选商品集合, 是集合中的一个商品。
通过负采样(negative sampling)来优化 。
最终的总体损失 为: 其中:
- 是超参数。
- 是
MAPS模型参数 的 正则化项,用于防止过拟合。
5. 实验设置
5.1. 数据集
为验证 MAPS 的有效性,实验使用了两个数据集:
5.1.1. 商业数据集 (Commercial Dataset)
这是一个来自一个拥有 AI 咨询服务的互联网电商购物平台的真实用户交互数据集,包含 31 天的交互数据。
- 过滤: 遵循
Zhou et al. (2022); Shi et al. (2024),过滤掉交互次数少于5次的用户和商品。 - 划分: 为防止序列数据泄露(
sequence data leakage),前29天用于训练,剩下的两天分别用于验证和测试。
5.1.2. 亚马逊数据集 (Amazon Dataset)
为了验证用户搜索动机并利用 LLM 知识,需要一个包含真实词元文本(token text)和多种用户交互数据(如搜索和评论)的数据集。因此,采用了广泛使用的 Amazon Reviews 数据集 (Ni et al., 2019)。
-
预处理: 使用
PersonalWAB(Cai et al., 2024) 处理的版本,该版本包括用户画像(user profiles)和多种用户交互类型。 -
模拟咨询: 为模拟具有
AI咨询服务的真实电商平台,使用GPT-4基于用户画像和交互行为生成了用户咨询文本。 -
划分: 处理和划分方式与 保持一致。
以下是两个数据集的统计信息: 以下是原文 Table 1 的结果:
| Dataset | #Users | #Items | #Inters | #Sparsity |
| Commercial | 2096 | 2691 | 24662, (18774) | 99.56%, (99.66%) |
| Amazon | 967 | 35772 | 7263, (40567) | 99.98%, (99.88%) |
Table 1: Statistics of the 2 pre-processed datasets. In "#Inters" and "#Sparsity", the numbers in parentheses indicate consultation interactions, while the numbers outside the parentheses indicate search interactions.
#Users:用户数量。#Items:商品数量。#Inters:交互数量。括号内的数字表示咨询交互(consultation interactions),括号外的数字表示搜索交互(search interactions)。#Sparsity:稀疏度。同样,括号内表示咨询的稀疏度,括号外表示搜索的稀疏度。
5.2. 评估指标
遵循现有工作,评估指标主要包括针对排序任务的 Hit Ratio 和 NDCG,以及针对检索任务的 Mean Reciprocal Rank。
5.2.1. 命中率 (Hit Ratio, HR@k)
- 概念定义:
HR@k衡量在推荐(或搜索)列表中前 个结果中,是否存在用户实际交互过的目标商品。它是一个二元指标,表示用户所需商品是否“命中”了前 个结果。HR@k越高,表示模型在给出的短列表中命中用户真实兴趣的概率越大。 - 数学公式:
- 符号解释:
Number of users for whom the target item is in the top k list:目标商品出现在前 个搜索结果中的用户数量。Total number of users:总用户数量。
5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@k 或 N@k)
- 概念定义:
NDCG@k衡量排序结果的质量,考虑了相关性得分(relevance score)和位置(position)的影响。它假设排名越靠前的相关结果对用户越有用。NDCG的值介于0和1之间,1表示完美排序。相比HR,NDCG更精细地反映了排序位置的重要性。 - 数学公式:
首先定义累计增益(
Cumulative Gain,CG),折损累计增益(Discounted Cumulative Gain,DCG),然后是NDCG。 其中 是理想折损累计增益(Ideal Discounted Cumulative Gain),即完美排序下的 。 - 符号解释:
- :考虑的排名长度。
- :排名第 位的商品的(二元或多级)相关性得分。在本文的场景中,通常为二元,即目标商品为
1,非目标商品为0。 - :位置折损因子,随着 增大,折损越大。
- :理想情况下,将所有相关结果按相关性从高到低排序后计算的 。
5.2.3. 平均倒数排名 (Mean Reciprocal Rank, MRR@k)
- 概念定义:
MRR@k主要用于评估检索任务,衡量第一个正确答案(或相关商品)在列表中的平均排名倒数。如果第一个正确答案在位置 ,则其倒数排名是 。MRR对排名靠前的正确结果给予更高的分数。 - 数学公式:
- 符号解释:
- :查询总数。
- :对于查询 ,第一个相关商品在检索列表中的排名(如果未在前 个结果中找到,则为
0)。
5.2.4. 实验具体设置
- 排序评估: 将真实
ground-truth商品与99个随机采样的负样本商品配对作为候选,报告HR和NDCG在 处的性能。 - 检索评估: 考虑所有商品作为候选,报告
MRR在 处的性能。
5.3. 对比基线 (Baselines)
MAPS 与多种基线模型进行了比较,分为个性化搜索、多场景方法和检索方法。
5.3.1. 个性化搜索基线 (Personalized Search Baselines)
这些模型主要关注用户的历史交互和查询:
AEM(Ai et al., 2019a): 基于注意力的个性化模型,结合用户历史交互商品与当前查询。QEM(Ai et al., 2019a): 仅考虑商品与查询之间的匹配分数。HEM(Ai et al., 2017): 基于潜在向量(latent vectors)的个性化模型。ZAM(Ai et al., 2019a): 通过将零向量拼接(concatenate)到商品列表来增强AEM。TEM(Bi et al., 2020): 通过用Transformer编码器替换AEM的注意力层来改进模型。CoPPS(Dai et al., 2023): 利用对比学习技术来学习用户序列表示。
5.3.2. 多场景基线 (Multi-scenario Baselines)
这些模型旨在整合搜索和推荐交互,以实现更好的排序效果:
SESRec(Si et al., 2023): 利用对比学习来学习解耦(disentangled)的搜索表示,用于推荐。UnifiedSSR(Xie et al., 2023): 联合学习用户在搜索和推荐场景中的行为历史。UniSAR(Shi et al., 2024): 通过两个不同的Transformer模型有效建模不同类型的细粒度行为转换,并实现交叉注意力机制。
5.3.3. 检索基线 (Retrieval Baselines)
这些模型涵盖了传统、深度学习和对话式检索方法:
BM25(Robertson et al., 2009): 使用词频来维护相关的检索候选。BGE-M3(Chen et al., 2024): 引入嵌入(embedding)概念以增强检索任务的性能。CHIQ(Mo et al., 2024): 尝试将LLM的世界知识融入搜索中,以增强检索能力。
5.4. 实现细节
- 超参数: 所有基线的超参数均按照原论文设置进行搜索。
- 维度: 嵌入维度 设为
64,文本嵌入维度 设为32。 - 序列长度: 用户历史序列的最大长度为
30。 - 数据过滤: 过滤掉交互次数少于
5次的用户。 - 激活函数: 默认使用
tanh作为激活函数。 - Transformer 层数:
Transformer编码器中的层数设为1。 - 批次大小 (Batch size):
72。 - 负采样: 对于 ,每个正样本的负样本数量设为
10。对于 ,采用in-batch negative策略,批次大小在{128, 256, 512, 1024}中搜索。 - 损失权重: 在 中调优, 在
{0.0, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5}中调优。 - 温度参数: 和 在
[0.0, 1.0]区间内以0.1的步长进行调优。 - 训练: 所有模型训练
100个周期(epochs),使用早停(early stopping)策略防止过拟合,并使用Adam优化器 (Kingma and Ba, 2014)。 - 学习率: 在 中调整。
- 硬件: 所有实验均在 上完成。
6. 实验结果与分析
本节旨在回答论文提出的 RQ1 到 RQ6 等研究问题,主要通过比较 MAPS 与基线模型的性能,并进行消融研究和参数分析。
6.1. 核心结果分析
实验结果表明,MAPS 在检索和排序任务中均显著优于现有方法。
6.1.1. 排序性能对比 (RQ1, RQ3)
以下是原文 Table:Search ranking performance compared with personalized search baselines 的结果:
| Model | HR@5 | HR@10 | HR@20 | HR@50 | NDCG@5 | NDCG@10 | NDCG@20 | NDCG@50 |
| Commercial | ||||||||
| AEM | 0.3886 | 0.5376 | 0.6733 | 0.8249 | 0.2656 | 0.3135 | 0.3478 | 0.3781 |
| QEM | 0.3996 | 0.5473 | 0.6733 | 0.8439 | 0.2671 | 0.3144 | 0.3463 | 0.3805 |
| HEM | 0.3484 | 0.4907 | 0.6366 | 0.8037 | 0.2360 | 0.2817 | 0.3185 | 0.3519 |
| ZAM | 0.3674 | 0.5248 | 0.6808 | 0.8205 | 0.2490 | 0.2994 | 0.3389 | 0.3669 |
| TEM | 0.4041 | 0.5685 | 0.7078 | 0.8528 | 0.2871 | 0.3402 | 0.3756 | 0.4049 |
| CoPPS | 0.4050 | 0.5637 | 0.7171 | 0.8660 | 0.2831 | 0.3445 | 0.3805 | 0.4103 |
| MAPS | 0.5281 | 0.7071† | 0.8330† | 0.9308† | 0.3780† | 0.4359† | 0.4680† | 0.4877† |
| Amazon | ||||||||
| AEM | 0.3180 | 0.4550 | 0.5372 | 0.7239 | 0.1860 | 0.2132 | 0.2475 | 0.2768 |
| QEM | 0.2831 | 0.3888 | 0.5285 | 0.7663 | 0.1914 | 0.1805 | 0.2277 | 0.2913 |
| HEM | 0.2735 | 0.4198 | 0.5400 | 0.7446 | 0.1983 | 0.2172 | 0.2598 | 0.2961 |
| ZAM | 0.3103 | 0.4488 | 0.5429 | 0.7301 | 0.1833 | 0.2114 | 0.2494 | 0.2787 |
| TEM | 0.4026 | 0.4814 | 0.7197 | 0.7301 | 0.2968 | 0.3124 | 0.3415 | 0.3535 |
| CoPPS | 0.3870 | 0.4854 | 0.7286 | 0.8004 | 0.2788 | 0.3298 | 0.3439 | 0.3699 |
| MAPS | 0.5832† | 0.7735† | 0.8987† | 0.9741† | 0.4059† | 0.4676† | 0.4995† | 0.5147† |
Table:Search ranking performance compared with personalized search baselines. The best results are shown in bold. '†' indicates the model significantly outperforms all baseline models with paired t-tests at level.
-
与个性化搜索基线(
AEM,QEM,HEM,ZAM,TEM,CoPPS)比较: 从表中可以看出,MAPS在Commercial和Amazon两个数据集上,所有HR@k和NDCG@k指标上均显著优于所有个性化搜索基线模型。在Commercial数据集上,MAPS实现了约20%的提升;在Amazon数据集上,提升更是高达约35%。这强有力地证明了MAPS在捕捉和利用用户搜索动机方面的优越性。以下是原文 Table 4 的结果:
Method HR@10 HR@20 N@10 N@20 SESRec 0.5622 0.7191 0.3465 0.3797 UnifiedSSR 0.5706 0.7074 0.3590 0.3743 UniSAR 0.5838 0.7294 0.3577 0.3894 MAPS 0.7071 0.8330 0.4359 0.4680
Table 4: Search ranking performance compared with multi-scenario baselines on the Commercial dataset.
- 与多场景基线(
SESRec,UnifiedSSR,UniSAR)比较:MAPS在Commercial数据集上,在HR@10、HR@20、N@10和N@20指标上也都明显优于这些整合了搜索和推荐交互的方法。这表明MAPS对搜索动机的显式建模及其双重对齐策略,比仅仅融合多场景交互提供了更深层次的性能提升。
6.1.2. 检索性能对比 (RQ2)
以下是原文 Table 3 的结果:
| Method | MRR@10 | MRR@20 | MRR@50 |
| BM25 | 0.2529 | 0.2577 | 0.2625 |
| AEM | 0.2445 | 0.2539 | 0.2588 |
| QEM | 0.2427 | 0.2516 | 0.2572 |
| HEM | 0.2176 | 0.2277 | 0.2331 |
| ZAM | 0.2304 | 0.2413 | 0.2459 |
| TEM | 0.2705 | 0.2803 | 0.2852 |
| CoPPS | 0.2642 | 0.2750 | 0.2799 |
| BGE-M3 | 0.2976 | 0.3110 | 0.3168 |
| CHIQ | 0.3192 | 0.3392 | 0.3412 |
| MAPS | 0.3805 | 0.3889 | 0.3922 |
Table 3: Retrieval performance on the Commercial dataset.
-
与检索基线(
BM25,BGE-M3,CHIQ)和个性化搜索基线比较: 在Commercial数据集上的检索任务中,MAPS在MRR@k指标上也超越了所有传统、稠密和对话式检索方法,以及其他个性化搜索方法,提升超过15%。这表明MAPS不仅在精细排序上表现出色,在从大量候选中召回相关结果的粗粒度检索阶段也具有显著优势。总结: 整体实验结果充分证明了
MAPS方法在排序和检索任务中的有效性和优越性,突出了其在电商平台中增强搜索性能的能力。
6.2. 消融实验 (Ablation Study)
消融实验旨在回答 RQ4:MAPS 中引入的每个模块的有效性。
以下是原文 Table 5 的结果:
| Ablation | HR@10 | HR@20 | N@10 | N@20 |
| MAPS | 0.7071 | 0.8330 | 0.4359 | 0.4680 |
| w/o LLM | 0.6527 | 0.7839 | 0.3968 | 0.4309 |
| w/o MoAE | 0.6781 | 0.7844 | 0.4096 | 0.4494 |
| w/o general align | 0.6198 | 0.7424 | 0.3669 | 0.4006 |
| w/o filter () in Eq. 2 | 0.6201 | 0.7426 | 0.3597 | 0.3951 |
| w/o personal align | 0.6334 | 0.7518 | 0.3732 | 0.4105 |
| w/o e_c | 0.6565 | 0.7730 | 0.3863 | 0.4246 |
| w/o e_s | 0.6448 | 0.7615 | 0.3803 | 0.4170 |
Table 5: Ablation study of MAPS on the Commercial dataset.
-
w/o LLM(不使用LLM嵌入): 性能显著下降。这表明LLM提供的语义信息对于理解复杂文本(如咨询和查询)至关重要,它能弥合ID嵌入和文本嵌入之间的差距,并引入丰富的世界知识。 -
w/o MoAE(不使用MoAE池化): 性能也有下降,尽管不如完全移除LLM那么剧烈。这说明MoAE能够有效地聚焦关键语义,过滤噪声,自适应地从文本中提取最相关的表示。 -
w/o general align(不使用通用对齐): 性能下降最为显著。通用对齐模块负责将文本(如咨询、评论)与商品ID进行语义对齐。如果缺少这个模块,模型将难以理解特定文本词元与哪些商品特征或商品本身相关联。例如,在电商语境中,“Cool”可能是一个商品功能(如“散热好”),而不是形容词。通用对齐帮助模型建立了这种领域特定的语义映射。 -
w/o filter()in Eq. 2 (不使用 Eq. 2 中的过滤机制): 性能下降也很大,与不使用通用对齐模块的情况接近。这表明过滤掉低频噪声文本对于构建清晰的词元-商品映射至关重要。过多的噪声会干扰通用对齐的效果。 -
w/o personal align(不使用个性化对齐): 性能下降也较为明显。这表示从用户历史(咨询和查询)中提取个性化搜索动机对于提升搜索效果是不可或缺的。 -
w/o e_c(不使用咨询历史的动机嵌入): 性能下降。这直接验证了本文的核心主张:咨询历史中包含的搜索动机对个性化搜索有显著的增强作用。 -
w/o e_s(不使用搜索历史的动机嵌入): 性能下降。这表明即使在考虑了咨询历史后,历史搜索查询仍然能提供有价值的动机信息。结论: 所有模块,尤其是
LLM、通用对齐和个性化对齐(特别是咨询动机的整合),都对MAPS的卓越性能做出了重要贡献。其中,通用对齐模块对于弥合领域知识鸿沟和确保正确语义理解至关重要。
6.3. 可伸缩性研究 (Scalability Study)
RQ5 探究 MAPS 的可伸缩性(scalability)。实验从训练序列长度、LLM 模型规模和 Transformer 层数三个方面进行分析。
以下是原文 Table 7 的结果:
| Aspect − | Config | | N@5 | N@10 | N@20 |
| Sequence Length | 10 | |0.3674 | 0.4200 | 0.4481 |
| 30 | 0.3780 | 0.4359 | 0.4680 | |
| 40 | 0.3739 | 0.4303 | 0.4627 | |
| LLM Scale | Qwen2.5-0.5B | | 0.3394 | 0.3892 | 0.4237 |
| Qwen2.5-1.5B | 0.3534 | 0.4026 | 0.4357 | |
| Qwen2-7B | 0.3593 | 0.4090 | 0.4412 | |
| Qwen2.5-7B | 0.3780 | 0.4359 | 0.4680 | |
| Transformer Scale | 1 Layer | 0.3780 | 0.4359 | 0.4680 |
| 2 Layer | 0.3881 | 0.4470 | 0.4724 | |
| 4 Layer | 0.3909 | 0.4561 | 0.4838 |
Table 7: Scalability Study of MAPS on the Commercial dataset. Default configurations are underlined.
-
序列长度 (Sequence Length): 结果显示,并非序列越长越好。当序列长度从
10增加到30时,性能有所提升,但从30增加到40时,性能反而略有下降。这表明过长的用户序列可能包含更多噪声,反而会影响最终的排序性能。需要选择一个合适的序列长度来平衡信息量和噪声。 -
LLM规模 (LLM Scale): 随着LLM模型规模(参数量)的增加,MAPS的性能持续提升,从Qwen2.5-0.5B到Qwen2.5-7B,N@k指标逐渐提高。这说明更强大的LLM拥有更丰富的世界知识和更强的语义理解能力,能够更好地增强MAPS的文本嵌入,从而提升模型整体的排序能力。 -
Transformer层数 (Transformer Scale): 增加Transformer编码器的层数,模型性能也有所提升。从1层到4层,N@k指标呈现上升趋势。这表明多层Transformer能够更有效地对齐LLM嵌入与特定场景,捕捉更复杂的交互模式,进一步增强模型的表达能力。结论:
MAPS的性能受益于强大的LLM和更深层的Transformer结构,但训练序列长度需要谨慎选择以避免噪声干扰。
6.4. ID-文本表示融合分析 (ID-text Representation Fusion Analysis)
RQ6 旨在探究整合 ID 嵌入和 LLM 嵌入以及 MoAE 池化对个性化搜索的增强作用。
以下是原文 Table 6 的结果:
| Ablation | HR@10 | HR@20 | N@10 | N@20 |
| MAPS-Default | 0.7071 | 0.8330 | 0.4359 | 0.4680 |
| MAPS-ID | 0.6870 | 0.7953 | 0.4226 | 0.4500 |
| MAPS-LLM | 0.6794 | 0.7896 | 0.4196 | 0.4427 |
| MAPS-Mean | 0.6950 | 0.8249 | 0.4337 | 0.4566 |
Table 6: The performance of representation for users and items under different settings on Commercial. 'ID' denotes using only ID embedding (including categorical features), 'LLM' indicates using only LLM embedding (containing text features only), and 'Mean' refers to conducting mean pooling only.
MAPS-ID(仅使用ID嵌入): 性能低于默认的MAPS。这表明仅依靠类别ID特征不足以完全捕捉用户和商品的信息,文本特征提供的语义信息是必要的补充。MAPS-LLM(仅使用LLM文本嵌入): 性能也低于默认的MAPS,甚至略低于MAPS-ID。这强调了ID特征的重要性,尤其是在电商场景中,类别ID能够提供非常明确且结构化的信息。纯文本嵌入可能在某些情况下缺乏这种精确性。MAPS-Mean(仅使用平均池化): 性能低于默认的MAPS。这证明了MoAE池化网络的优越性。MoAE能够自适应地选择并组合不同的注意力专家,以更有效地提取文本中的关键语义信息,而不是简单地对所有词元进行平均。
结论:
ID和LLM嵌入的融合: 融合原始类别ID嵌入和LLM文本嵌入,能够更好地表示用户和商品信息。ID提供了结构化、离散的身份和类别信息,而LLM文本嵌入提供了丰富的语义和世界知识,两者互补,共同构建更全面的表示。MoAE池化的有效性:MoAE机制通过覆盖多种注意力机制,能够自适应地为文本计算注意力分数,选择最佳的注意力专家,使得最终的语义嵌入更好地与搜索任务对齐,从而提升了性能。
6.5. 配置分析 (Configuration Analysis)
本节分析了通用对齐中的映射阈值 和激活函数对模型性能的影响。
6.5.1. 映射阈值 (Mapping Threshold )
以下是原文 Figure 4 的结果:

该图像是图表,展示了亚马逊平台上不同阈值 (见公式2)对排名性能的影响,默认阈值为2。左图为 HR@10 和 HR@20,右图为 NDCG@10 和 NDCG@20,均随阈值变化呈现趋势。
Figure 4: Ranking performance on Amazon with different threshold in Eq. 2. The default one is 2.
如图 Figure 4 所示,阈值 对性能有显著影响。
- 过小的值: 导致性能下降。这是因为过低的阈值会引入来自其他场景的噪声文本,这些文本可能与商品的相关性较低,干扰了通用对齐的准确性。
- 过大的值: 也导致性能下降。过高的阈值设置过于严格,限制了有用数据的数量,使得模型无法从足够多的相关词元中学习,从而制约了性能。
- 最优值: 在 时达到最佳性能。这表明存在一个最佳阈值,能够有效过滤噪声,同时保留足够的有用信息,从而实现最佳的词元-商品映射。
6.5.2. 激活函数 (Activation Function)
以下是原文 Table 8 的结果:
| Activation | HR@10 | HR@20 | N@10 | N@20 |
| tanh | 0.7585 | 0.8787 | 0.4676 | 0.4995 |
| SiLU | 0.7823 | 0.8953 | 0.4697 | 0.5010 |
| PReLU | 0.7813 | 0.9067 | 0.4763 | 0.5097 |
| GELU | 0.7978 | 0.9036 | 0.4734 | 0.5015 |
| ReLU | 0.4390 | 0.6740 | 0.2165 | 0.2768 |
Table 8: Performance on Amazon with different activation function in Eq. 1. The default one is "tanh".
-
ReLU的性能问题:ReLU激活函数表现最差,性能大幅下降。作者将其归因于“dying ReLU”(Lu et al., 2019)现象,即当输入为负时,ReLU的梯度为零,导致神经元停止学习和更新权重。 -
其他激活函数: 尽管
tanh是默认设置,但SiLU、PReLU和GELU都比tanh表现更好。其中GELU表现最优。这表明选择合适的激活函数对于模型的非线性表达能力和性能至关重要。结论: 阈值 和激活函数的选择对
MAPS的性能有重要影响。在实际应用中,需要对这些超参数进行仔细调优。
6.6. 咨询示例
以下是原文 Figure 5 的结果:

该图像是论文中图6,展示了在商业平台上的咨询示例。左侧为用户关于电子产品配件的具体问题与系统回答,右侧为隐私相关项目需求的问答展示,体现了系统对用户动机的理解和针对性推荐能力。
Figure 5: Examples of consultations on the Amazon dataset.
图 Figure 5 展示了 Amazon 数据集上的咨询示例,直观地说明了用户在咨询中表达其需求的详细程度。这些咨询文本包含了用户对商品特性、用途和场景的详细描述,这些信息远比简短的搜索查询丰富,能够为 MAPS 提供深入的用户动机洞察。
7. 总结与思考
7.1. 结论总结
本文提出了 MAPS(Motivation-Aware Personalized Search)方法,旨在通过整合用户咨询信息来增强个性化产品搜索。MAPS 的核心创新在于显式地建模了用户在咨询中表达的搜索动机,弥补了现有方法仅依赖简洁查询和交互历史的不足。该方法通过以下关键技术实现了卓越性能:
LLM驱动的统一语义空间: 利用大语言模型将用户查询和复杂咨询文本嵌入到统一的语义空间中,极大地提升了模型对自然语言的理解能力。MoAE精准语义提取: 引入注意力专家混合(MoAE)网络,自适应地选择并组合多个注意力专家,以优先处理文本中的关键语义信息,有效过滤了噪声。- 双重对齐机制:
- 通用对齐: 通过对比学习,将咨询、评论和产品特征等不同数据源的文本信息与商品
ID进行语义对齐,解决了类别-文本鸿沟问题。 - 个性化对齐: 利用双向注意力机制,从用户的历史咨询和搜索序列中提取动机感知嵌入,并与用户偏好进行整合,实现了对用户动态意图的精准捕捉。
广泛的实验结果表明,
MAPS在真实的商业数据集和合成数据集上,无论是在检索还是排序任务中,都显著优于传统方法、现有个性化搜索方法和对话式检索方法,证明了其有效性和优越性。
- 通用对齐: 通过对比学习,将咨询、评论和产品特征等不同数据源的文本信息与商品
7.2. 局限性与未来工作
作者在论文中指出了 MAPS 的几个局限性以及未来可能的改进方向:
- 计算效率和实时性: 尽管
MAPS提升了语义理解,但其计算效率和在实时应用中的可伸缩性可能仍是一个瓶颈。未来的工作可以关注如何优化这些方面。 - 动态用户行为建模: 当前框架主要关注语义对齐,但可能未能完全捕捉用户偏好和搜索意图随时间动态变化的行为。未来的研究可以探索更复杂的动态用户行为建模。
- 领域特定知识集成:
MAPS目前没有明确整合领域特定知识(domain-specific knowledge),这限制了其在不同垂直行业间的泛化能力。未来的工作可以考虑如何集成外部领域知识,以构建更健壮和通用的个性化搜索系统。 - 进一步的咨询建模: 作者表示未来将继续探索电商平台中的咨询建模方法。
7.3. 个人启发与批判
7.3.1. 个人启发
- 未被充分利用的数据源: 这篇论文给我最大的启发是,在很多应用场景中,可能存在着大量未被充分利用的“非典型”数据源,它们蕴含着比传统数据更深层次的信息。用户咨询文本就是一个很好的例子,它比简洁的查询更能直接地反映用户的真实动机。这提示我们,在设计系统时,除了关注显式行为数据,也应探索用户“表达”其需求的各种隐性或半隐性渠道。
LLM的能力拓展:LLM不仅仅是生成文本的工具,它们强大的语义理解和编码能力,使其成为连接不同模态(如结构化ID和非结构化文本)的关键桥梁。MAPS利用LLM作为特征提取器,并结合专门设计的注意力机制,展示了LLM在下游任务中作为基础骨架(backbone)模型的巨大潜力。- “动机”的显式建模: 显式地将“动机”作为模型关注的核心概念来建模,而不是仅仅通过历史行为间接推断,这对于构建更“智能”的推荐或搜索系统具有重要意义。理解用户为什么(
why)会搜索某个商品,比仅仅知道他们搜索了什么(what)能够带来更本质的提升。 - 多专家机制的潜力:
MoAE机制在处理复杂、多变信息时的自适应性令人印象深刻。它比单一的、固定的注意力机制更灵活,能够根据输入内容的特点选择最合适的“专家”进行处理,这在多模态或复杂语义理解任务中具有广泛的应用前景。
7.3.2. 批判
-
泛化能力与数据依赖:
MAPS的核心在于利用咨询数据。对于那些不提供AI咨询服务或咨询数据稀疏的平台,MAPS的效果可能会大打折扣。尽管作者通过GPT-4合成咨询数据来验证Amazon数据集,但合成数据的质量和真实性始终是需要考量的问题,可能无法完全模拟真实用户咨询的复杂性和多样性。 -
计算成本与延迟:
LLM的使用,特别是冻结的LLM嵌入和多层Transformer编码器,意味着较高的计算成本和潜在的推理延迟。这对于追求毫秒级响应的实时电商搜索系统来说,可能是一个实际的挑战。虽然论文提到了可伸缩性研究,但并未详细讨论实时部署的工程细节和优化策略。 -
冷启动问题: 对于新用户或新商品,缺乏足够的咨询和交互历史,
MAPS可能会面临冷启动问题。虽然通用对齐可以提供一些帮助,但个性化动机的提取仍会受限。 -
解释性不足: 尽管
MAPS提升了性能,但其内部决策过程(特别是MoAE专家如何选择、Transformer如何结合动机)可能不如传统规则系统那样易于解释。在电商等需要高信任度的场景中,解释性有时与性能同样重要。 -
隐私问题: 收集和利用用户的详细咨询文本可能涉及敏感信息,需要严格遵守隐私政策和法规。论文中并未深入探讨这一方面。
总体而言,
MAPS提供了一个新颖且有效的视角来提升个性化搜索,通过挖掘用户咨询中的深层动机,为该领域的研究开辟了新的方向。未来的工作可以在解决上述局限性的基础上,进一步推广和完善这一框架。
相似论文推荐
基于向量语义检索推荐的相关论文。