LLMs as Sparse Retrievers:A Framework for First-Stage Product Search
TL;DR 精炼摘要
产品搜索是电子商务的核心,要求高召回和高效部署。本文提出PROSPER框架,利用大语言模型作为稀疏检索器,解决词汇不匹配问题。通过字面残差网络和词汇聚焦窗口,改善关键词权重,解决传统稀疏检索中的幻觉与初始化难题,从而提升检索质量。
摘要
Product search is a crucial component of modern e-commerce platforms, with billions of user queries every day. In product search systems, first-stage retrieval should achieve high recall while ensuring efficient online deployment. Sparse retrieval is particularly attractive in this context due to its interpretability and storage efficiency. However, sparse retrieval methods suffer from severe vocabulary mismatch issues, leading to suboptimal performance in product search scenarios. With their potential for semantic analysis, large language models (LLMs) offer a promising avenue for mitigating vocabulary mismatch issues and thereby improving retrieval quality. Directly applying LLMs to sparse retrieval in product search exposes two key challenges:(1)Queries and product titles are typically short and highly susceptible to LLM-induced hallucinations, such as generating irrelevant expansion terms or underweighting critical literal terms like brand names and model numbers;(2)The large vocabulary space of LLMs leads to difficulty in initializing training effectively, making it challenging to learn meaningful sparse representations in such ultra-high-dimensional spaces.To address these challenges, we propose PROSPER, a framework for PROduct search leveraging LLMs as SParsE Retrievers. PROSPER incorporates: (1)A literal residual network that alleviates hallucination in lexical expansion by reinforcing underweighted literal terms through a residual compensation mechanism; and (2)A lexical focusing window that facilitates effective training initialization via a coarse-to-fine sparsification strategy.Extensive offline and online experiments show that PROSPER significantly outperforms sparse baselines and achieves recall performance comparable to advanced dense retrievers, while also achieving revenue increments online.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
LLMs as Sparse Retrievers: A Framework for First-Stage Product Search (将大语言模型作为稀疏检索器:一种用于第一阶段产品搜索的框架)
1.2. 作者
论文作者包括:
- Hongru Song, Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Xueqi Cheng
- 隶属机构:中国科学院计算技术研究所人工智能安全国家重点实验室、中国科学院大学
- 电子邮箱:{songhongru24s,liuyuan21b}@ict.ac.cn, {zhangruqing,guojiafeng}@ict.ac.cn, cxq@ict.ac.cn
- Maarten de Rijke
- 隶属机构:荷兰阿姆斯特丹大学
- 电子邮箱:m.derijke@uva.nl
- Sen Li, Wenjun Peng, Fuyu Lv
- 隶属机构:阿里巴巴集团研究员
- 电子邮箱:lisen.lisen@alibaba-inc.com, pengwj@mail.ustc.edu.cn, fuyu.lfy@alibaba-inc.com
1.3. 发表期刊/会议
ACM, New York, NY, USA。具体会议名称待补充,根据 ACM Reference Format,提示为“Make sure to enter the correct conference title from your rights confirmation email (Conference acronym XX)”。目前为预印本状态。
1.4. 发表年份
2025年
1.5. 摘要
产品搜索是现代电子商务平台的关键组成部分,每天处理数十亿用户查询。在产品搜索系统中,第一阶段检索应该在实现高召回率的同时,确保高效的在线部署。稀疏检索 (sparse retrieval) 因其可解释性和存储效率而在此背景下显得尤为吸引人。然而,稀疏检索方法存在严重的词汇不匹配 (vocabulary mismatch) 问题,导致在产品搜索场景中性能不佳。
大语言模型 (LLMs) 凭借其语义分析潜力,为缓解词汇不匹配问题并从而提高检索质量提供了一条有前景的途径。但将LLMs直接应用于产品搜索中的稀疏检索会暴露出两大关键挑战:(1) 查询和产品标题通常较短,极易受到LLM诱导的幻觉 (LLM-induced hallucinations) 影响,例如生成不相关的扩展词元 (expansion terms) 或低估品牌名称、型号等关键字面词元 (literal terms) 的权重;(2) LLMs庞大的词汇空间导致训练初始化困难,使得在如此超高维空间中学习有意义的稀疏表示 (sparse representations) 具有挑战性。
为了应对这些挑战,我们提出了 PROSPER 框架,一个利用LLMs作为稀疏检索器进行产品搜索的框架。PROSPER 包含:(1) 一个字面残差网络 (literal residual network, LRN),通过残差补偿机制强化低权重的字面词元,从而缓解词汇扩展中的幻觉问题;(2) 一个词汇聚焦窗口 (lexical focusing window, LFW),通过粗粒度到细粒度的稀疏化策略 (coarse-to-fine sparsification strategy) 促进有效的训练初始化。广泛的离线和在线实验表明,PROSPER 显著优于稀疏基线,并取得了与先进稠密检索器 (dense retrievers) 相当的召回性能,同时在线上也实现了营收增长。
1.6. 原文链接
- https://arxiv.org/abs/2510.18527v2
- PDF 链接: https://arxiv.org/pdf/2510.18527v2.pdf
- 发布状态:预印本 (arXiv)。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 研究背景
电子商务平台已成为日常生活中不可或缺的一部分,每天处理数亿用户的查询,并需要从数十亿规模的产品目录中高效地匹配相关商品。为了满足这些需求并应对严格的延迟约束,工业级的搜索引擎通常遵循“索引-检索-排序” (index-retrieve-then-rank) 的范式。其中,第一阶段检索 (first-stage retrieval) 是整个搜索系统的基石,其主要目标是实现高召回率 (high recall),即尽可能多地召回所有相关的产品。因为任何在此阶段被遗漏的相关产品都无法在后续的排序阶段中被恢复,这直接影响用户体验和平台效益。
2.1.2. 现有挑战与研究空白 (Gap)
-
稠密检索 (Dense Retrieval) 的挑战: 尽管稠密检索模型能够将查询和文档编码成低维稠密向量,实现强大的语义匹配能力,但它在工业级电商应用中面临显著挑战:
- 可解释性 (Interpretability) 差: 稠密向量的“黑盒”性质使得模型决策难以理解。
- 索引和存储开销 (Indexing and Storage Overheads) 大: 例如,在
MS MARCO数据集上,稠密检索的索引大小是原始语料库的数倍甚至数十倍。
-
稀疏检索 (Sparse Retrieval) 的挑战: 稀疏检索通过高维但稀疏的向量进行操作,每个维度对应词汇表中的一个词元 (token),其值表示该词元的重要性。稀疏检索因其固有的可解释性和存储效率而备受青睐。然而,稀疏检索方法普遍存在词汇不匹配 (vocabulary mismatch) 问题。这指的是用户查询中的词元可能与相关产品标题中的词元不完全重叠,导致检索性能下降。传统的
BM25等统计模型和学习型稀疏检索模型SPLADE均受此问题困扰。特别是SPLADE,其性能受限于其BERT(Bidirectional Encoder Representations from Transformers) 主干网络的预训练知识和语义容量,难以根本解决词汇不匹配问题。 -
大语言模型 (LLMs) 直接应用于稀疏检索的挑战:
- 幻觉 (Hallucination) 问题: 在产品搜索中,用户查询和产品标题通常很短,信息密度高。LLMs在对这些短文本进行词汇扩展时,容易产生
LLM-induced hallucinations(LLM诱导的幻觉),例如生成不相关的扩展词元,或者错误地低估了品牌名称、型号等对用户意图至关重要的字面词元 (literal terms) 的权重。 - 训练初始化不稳定 (Unstable Training Initialization): LLMs通常拥有非常庞大的词汇表空间(例如,
Qwen2.5模型的词汇表维度超过150,000)。在这样一个超高维空间中,如果没有适当的指导和约束,模型很难有效地初始化训练,从而难以学习到有意义的稀疏表示。
- 幻觉 (Hallucination) 问题: 在产品搜索中,用户查询和产品标题通常很短,信息密度高。LLMs在对这些短文本进行词汇扩展时,容易产生
2.1.3. 论文的切入点与创新思路
本文旨在利用大语言模型强大的语义分析能力,同时保留稀疏检索的可解释性和效率优势,来解决产品搜索中的词汇不匹配问题。针对LLMs直接应用于稀疏检索所面临的“幻觉”和“训练初始化不稳定”两大挑战,论文提出了 PROSPER 框架。
2.2. 核心贡献/主要发现
论文的主要贡献包括:
- 提出了
PROSPER框架: 这是首次探索将LLMs用于产品搜索中的稀疏检索。 - 设计了
Literal Residual Network (LRN)(字面残差网络):- 通过引入一种补偿加权机制 (compensatory weighting mechanism),强化用户查询和商品标题中的字面词元(如品牌、型号),有效缓解了词汇扩展中的幻觉问题,使模型注意力锚定在用户关键信息上。
- 引入了
Lexical Focusing Window (LFW)(词汇聚焦窗口):- 与
FLOPS regularization(浮点运算次数正则化) 协同工作,引导模型进行粗粒度到细粒度的稀疏化 (coarse-to-fine sparsification) 过程。LFW在早期训练阶段作为硬约束,强制模型快速稀疏化并脱离超高维表示学习,而FLOPS regularization则在后期提供细粒度控制。
- 与
- 在离线和在线实验中取得显著效果:
- 离线实验: 在
Multi-CPR E-commerce和Taobao-Internal数据集上,PROSPER显著优于所有稀疏基线(例如,在Multi-CPR的Hit@1000指标上比BM25提升10.2%,比SPLADE提升4.3%),并取得了与先进稠密检索器相当的召回性能,尤其是在第一阶段检索关键的Hit@1000和Recall@1000指标上表现更佳。 - 在线实验: 在淘宝搜索引擎的在线 A/B 测试中,
PROSPER实现了GMV(Gross Merchandise Volume) 0.64% 的显著增长,同时提升了其他关键业务指标,且对其他阶段无负面影响。
- 离线实验: 在
- 深入分析: 论文通过详细的消融实验和参数分析,验证了
LRN和LFW各自组件的有效性,并对字面词元和扩展词元的互补作用、效率-有效性权衡以及模型大小对性能的影响进行了深入探讨。
3. 预备知识与相关工作
本节旨在为读者铺垫理解论文所需的前置知识,并介绍与本文工作相关的关键研究。
3.1. 基础概念
-
第一阶段检索 (First-Stage Retrieval): 在大规模搜索引擎(如电商平台)中,这是处理用户查询的第一步。其目标是从海量的文档或产品库中,快速、高效地召回一个相对较小但尽可能包含所有相关结果的候选集,供后续的精排 (ranking) 阶段处理。此阶段通常对召回率 (Recall) 和效率 (Efficiency) 有极高要求。
-
稀疏检索 (Sparse Retrieval):
- 定义: 一种基于词元 (token) 匹配的检索方法。查询和文档被表示为高维但稀疏 (sparse) 的向量,其中每个维度对应词汇表中的一个词元,向量中的非零值表示该词元的重要性或权重。
- 工作原理: 通过计算查询和文档稀疏向量的点积来衡量其相关性。由于向量稀疏,点积运算只涉及少量共同出现的词元,结合倒排索引 (inverted index),检索效率高。
- 优点:
- 可解释性 (Interpretability): 非零权重直接对应具体词元,容易理解模型为什么认为两个文本相关。
- 存储效率 (Storage Efficiency): 只存储非零元素,节省存储空间。
- 缺点: 易受词汇不匹配 (vocabulary mismatch) 问题影响,即查询中的词元和相关文档中的词元可能不完全重叠,导致无法检索到语义相关的文档。
-
稠密检索 (Dense Retrieval):
- 定义: 利用深度学习模型(如神经网络)将查询和文档编码成低维的稠密 (dense) 向量(或称嵌入,embeddings)。
- 工作原理: 通过计算这些稠密向量之间的相似度(如余弦相似度)来衡量查询和文档的语义相关性。
- 优点:
- 语义匹配 (Semantic Matching): 能够捕捉词元之间的语义关系,缓解词汇不匹配问题。
- 缺点:
- 黑盒性质 (Black-box Nature): 稠密向量缺乏直接的可解释性。
- 索引和存储开销大 (Indexing and Storage Overheads): 存储稠密向量需要更大的空间,且相似度搜索需要专门的近似最近邻 (Approximate Nearest Neighbor, ANN) 算法,增加了部署复杂性。
-
大语言模型 (Large Language Models, LLMs):
- 定义: 具有大量参数、在海量文本数据上进行预训练的深度学习模型。它们能够理解、生成和处理人类语言,展现出强大的语义理解、知识推理和文本生成能力。
- 特点: 通常采用
Transformer架构,特别是decoder-only(仅解码器) 架构,如GPT系列和Qwen系列。 - 在检索中的潜力: 其强大的语义分析能力有望缓解稀疏检索中的词汇不匹配问题。
-
字面词元 (Literal Terms) 与扩展词元 (Expansion Terms):
- 字面词元: 指查询或文档中直接出现的原始词元。例如,在查询“
Elysee oil filter”中,“Elysee”、“oil”、“filter”都是字面词元。 - 扩展词元: 指模型根据查询或文档的语义,额外生成或识别出的相关词元,用于补充原始文本的信息,以提高检索覆盖面。例如,对于“
oil filter”,模型可能扩展出“engine”、“fuel”、“maintenance”等。
- 字面词元: 指查询或文档中直接出现的原始词元。例如,在查询“
-
LLM诱导的幻觉 (LLM-induced Hallucinations):
- 定义: LLM在生成文本或进行词汇扩展时,产生与输入不相关、不准确或无意义的内容的现象。
- 在稀疏检索中的体现: 可能导致模型为查询生成无关的扩展词元,或在扩展时削弱了原始查询中关键字面词元的权重,从而偏离用户真实意图。
-
稀疏化 (Sparsification):
- 定义: 将一个稠密或半稠密的向量转换为一个稀疏向量的过程,即减少向量中非零元素的数量。
- 目的: 降低存储和计算成本,提高效率。在稀疏检索中,稀疏化是控制模型表示维度的关键。
-
FLOPS正则化 (FLOPS Regularization):
- 定义:
FLOPS(Floating Point Operations Per Second) 是衡量计算复杂度的指标。FLOPS regularization是一种训练正则化技术,旨在惩罚模型生成的稀疏向量中非零元素的数量,从而间接控制检索时的计算开销和延迟。它鼓励模型学习更稀疏的表示。 - 与 正则化的区别: 它惩罚的是平均词元权重较高的词元,促进更均衡的索引分布,而非仅仅是绝对值的和。
- 定义:
-
InfoNCE损失 (InfoNCE Loss):
- 定义: 一种广泛应用于对比学习 (contrastive learning) 的损失函数。它通过最大化正样本对的相似度,同时最小化负样本对的相似度来训练模型。
- 在检索中的应用: 鼓励查询与其相关文档的表示更接近,而与不相关文档的表示更远。
3.2. 前人工作
- 传统统计稀疏检索:
BM25[44] (Okapi BM25): 经典的统计检索模型,基于词频-逆文档频率 (TF-IDF) 的变体,通过计算查询词和文档词的重叠度来评估相关性,并考虑词频饱和度和文档长度归一化。它以其效率和鲁棒性成为强基线。
- 学习型稀疏检索 (Learned Sparse Retrieval):
- 早期工作: 如
DeepCT[5, 8] 和SparTerm[2] 等,开始利用神经网络为词元分配更具信息量的权重,以捕捉更丰富的语义。 Doc2Query[40]: 通过使用seq2seq模型为文档生成潜在查询来缓解词汇不匹配问题,从而增加文档被查询召回的机会。SPLADE[13]: 一个重要的里程碑,它使用BERT作为骨干网络,通过语言模型头 (LM head) 联合学习词元扩展和加权。它优化了词元权重的池化策略,并引入了FLOPS loss[41] 进行稀疏化。后续版本SPLADE-v2[11] 进一步引入了知识蒸馏 (distillation) 和硬负样本采样 (hard negative sampling) 等技术,使其在段落检索任务上达到了与稠密模型相当的性能。
- 早期工作: 如
- 稠密检索模型:
DPR[22] (Dense Passage Retrieval): 引入了带有BERT[9] 的双编码器 (dual-encoder) 架构,可以离线编码文档以实现高效检索。ColBERT[23]: 通过在词元级别进行晚期交互 (late interaction) 来增强检索效果。- 后续发展: 包括无监督预训练 [15, 20, 27]、硬负样本挖掘 [51] 和知识蒸馏 [18, 19] 等技术,持续提升稠密检索模型的性能。
BGE Series[50] (BAAI General Embedding Series): 一系列强大的稠密文本嵌入模型,常作为中文稠密检索的基线。
- LLMs应用于检索:
- 近期研究开始探索LLMs在检索任务中的潜力 [26, 31, 37, 46, 48]。
- LLMs在稠密检索中的挑战与改进: LLMs通常使用因果注意力 (causal attention) 机制(每个词元只能关注之前的词元),这限制了它们学习全面的文本表示的能力。
LLM2Vec[4] 和Nv-Embed[26] 通过自适应训练引入双向注意力,而Echo Embedding[45] 则通过复制输入序列来模拟双向感受野。 - LLMs在稀疏检索中的应用:
Zeng et al. [54]研究了基于LLMs的稀疏检索器的缩放定律。CSPLADE[52] 借鉴Nv-Embed[26] 和Echo Embedding[45] 的思想,解决了将SPLADE应用于LLMs时的注意力相关挑战。然而,这些工作主要停留在替换模型主干网络层面,其核心方法论与SPLADE类似,并且其在产品搜索领域的泛化性尚未得到验证。
3.3. 技术演进
信息检索领域的技术演进经历了从早期的基于词元统计的模型(如 BM25)到基于深度学习的模型。
- 统计模型阶段: 以
BM25为代表,依赖于词元频率和逆文档频率等统计量来评估文档相关性,具有高效率和可解释性,但受制于词汇不匹配问题。 - 早期神经 IR 模型阶段: 引入神经网络来学习词元权重 (
DeepCT) 或进行词元扩展 (Doc2Query),试图缓解词汇不匹配,但性能通常仍不及先进的稠密模型。 - BERT/Transformer 时代的稀疏检索:
SPLADE系列模型利用BERT的强大表示能力,通过语言模型头预测和加权词元,实现了词元扩展与加权的一体化学习,显著提升了稀疏检索的效果,使其在某些任务上达到甚至超越稠密模型。 - LLM 时代的稠密检索: 随着LLMs的兴起,研究者开始探索将LLMs作为强大的编码器用于稠密检索,以利用其更强的语义理解能力。但LLMs固有的因果注意力机制带来了新的挑战,并促使
LLM2Vec、Nv-Embed、Echo Embedding等工作进行改进。 - LLM 时代的稀疏检索(本文重点): 本文的工作正处于这一前沿,旨在将LLMs的语义优势与稀疏检索的效率和可解释性相结合。它在
SPLADE和 LLM-based 稠密检索工作的基础上,针对产品搜索场景的特殊性(短文本、高信息密度)和LLM自身的局限性(幻觉、大词汇表训练不稳定)提出了专门的解决方案。
3.4. 差异化分析
本文 PROSPER 与现有工作的主要区别和创新点体现在以下几个方面:
- 专注于产品搜索场景: 大多数
SPLADE及其LLM变体的工作主要关注传统段落检索。产品搜索场景的特点是查询和商品标题极短,信息密度极高,且对品牌、型号等字面词元的准确匹配有极高要求。PROSPER是第一个专门为解决产品搜索中LLM稀疏检索挑战而设计的框架。 - 针对“幻觉”问题的创新:
Literal Residual Network (LRN)- 现有LLM稀疏检索器(如
SPQwen-backbone、CSPLADE)虽然利用了LLM的语义能力,但并未有效解决LLM在短文本中扩展词元时产生的幻觉问题,即低估关键字面词元权重或生成不相关词元。 LRN通过其独特的残差补偿机制,显式地强化字面词元的权重,有效纠正了LLM的这一偏误,使其在保留语义扩展能力的同时,确保对用户意图核心的字面信息的关注。
- 现有LLM稀疏检索器(如
- 针对“训练初始化不稳定”问题的创新:
Lexical Focusing Window (LFW)- LLM庞大的词汇表空间使得训练初始阶段在超高维空间中学习稀疏表示变得困难且不稳定。
LFW提供了一种粗粒度到细粒度的稀疏化策略,在训练早期作为硬约束,强制模型聚焦于最重要词元,实现快速稀疏化。这与FLOPS regularization这种软约束形成了互补,共同解决了训练初始化的挑战,是现有工作未曾提出的。
- 不对称相似度计算: 在相似度计算中,
PROSPER对查询端进行 范数归一化,而商品端不进行,这种不对称处理更符合产品搜索中查询需要精确表达意图而商品需要丰富语义覆盖的特点。
4. 方法论
4.1. 方法原理
PROSPER 框架旨在将大语言模型 (LLMs) 作为稀疏检索器应用于产品搜索。它主要解决了LLM在稀疏检索中的两个关键挑战:词汇扩展幻觉和训练初始化不稳定。其核心思想是通过Literal Residual Network (LRN) (字面残差网络) 引导LLM更准确地关注关键字面词元,并通过Lexical Focusing Window (LFW) (词汇聚焦窗口) 结合粗粒度到细粒度的稀疏化策略来稳定和加速训练过程。
LRN 的直觉是,对于查询和产品标题中固有的、表征用户明确需求的字面词元(如品牌、型号),即使LLM在生成扩展词元时可能对其权重估计不足,也应通过一种补偿机制来确保这些关键信息的权重得到足够强化,从而避免幻觉和误解。
LFW 的直觉是,LLM的巨大词汇表空间在训练初期是一个负担。与其让模型在超高维空间中“自由探索”,不如在早期施加一个强硬的约束,迫使模型迅速聚焦于少数最相关的词元,建立一个“粗粒度”的稀疏基线,然后随着训练的进行,再通过更细粒度的正则化(如 FLOPS regularization)进行优化。
4.2. 核心方法详解 (逐层深入)
PROSPER 框架的整体架构如原文 Figure 1 所示,它包括基于LLM的表示生成、字面残差网络 (LRN) 的应用、词汇聚焦窗口 (LFW) 的稀疏化、相似度计算以及结合排名损失和 FLOPS 正则化的最终损失函数。
该图像是示意图,展示了PROSPER框架的模型架构及训练目标。左侧部分展示了字面残差网络的结构,包括字面项、扩展项及其权重和残差值的计算,更明确了如何通过神经网络强化字面项。右侧部分描述了整体训练目标以及训练中使用的损失函数,强调了查询表示与项表示之间的点积计算及其应用。
图表(原文 Figure 1)展示了PROSPER框架的模型架构及训练目标。左侧部分展示了字面残差网络的结构,包括字面项、扩展项及其权重和残差值的计算,更明确了如何通过神经网络强化字面项。右侧部分描述了整体训练目标以及训练中使用的损失函数,强调了查询表示与项表示之间的点积计算及其应用。
4.2.1. 基于LLM的表示 (LLM-based Representation)
PROSPER 建立在 SPLADE 的基础上,利用LLM作为其主干模型,以增强语义理解能力。
对于一个输入的查询或商品序列(在经过词元化 (tokenization) 之后):
- 提取隐藏状态: 我们从LLM的最后一层提取出隐藏状态 (hidden states) 。其中 是第 个输入词元的隐藏状态向量。
- 投影到词汇表维度: 每个隐藏表示 随后通过一个语言模型头 (language modeling head, LM head) 投影到一个词汇表大小的向量 。其中 是词汇表的大小。 表示词汇表词元 对于输入词元 的重要性,实际上是语言模型头输出的
logit值。 - ReLU 激活和对数饱和变换: 为了将这些原始的隐藏状态和
logit值转换为更适合表示重要性的形式,我们应用ReLU(Rectified Linear Unit) 激活函数和对数饱和变换 (log-saturation transformation):-
:修正线性单元激活函数,将所有负值置为零。
-
:对数饱和函数,用于平滑权重并限制其过快增长,同时保持正值。
-
: 第 个输入词元的原始隐藏状态向量。
-
: 第 个输入词元对词汇表词元 的原始
logit值。 -
: 经过
ReLU激活和对数饱和变换后的隐藏状态向量。 -
: 经过
ReLU激活和对数饱和变换后的词元重要性值。在提取了最后一层的隐藏状态 和
logit值 后,它们将被送入字面残差网络 (LRN)。
-
4.2.2. 字面残差网络 (Literal Residual Network, LRN)
LRN 的核心思想是引导LLM在扩展相关词元之前,首先关注并充分加权查询和商品中的字面词元 (literal terms),例如品牌名称和产品型号,这些词元代表着特定的用户需求。
-
末位池化 (Last-Pooling) 获取基础表示: 与
SPLADE使用max-pooling不同,由于LLM通常采用因果注意力 (causal attention) 机制(每个词元只能关注其之前的词元),因此本文采用了末位池化 (last-pooling) 策略。它通过取输入序列最后一个词元位置的表示来有效地聚合整个序列的信息。- 基础表示 : 通过对变换后的
logit值 进行末位池化得到。- :表示对所有输入词元位置 取最后一个词元位置的 值。
- : 词汇表词元 在当前序列中的基础权重。
- 池化隐藏状态 : 同样通过对变换后的隐藏状态 进行末位池化得到。
- : 经过末位池化后的序列隐藏状态表示。
- 基础表示 : 通过对变换后的
-
生成增强向量 :
LRN将池化后的隐藏状态 通过一个全连接层 (fully connected layer) 投影到词汇表维度,以生成一个增强向量 (enhancement vector) 。这个向量旨在提供对字面词元权重进行潜在增强的信息。- : 一个将隐藏维度映射到词汇表维度的全连接层。
- : 增强向量,其维度与词汇表大小相同。
-
聚合基础表示与增强向量以获得最终表示 : 在获得基础表示 和增强向量 后,我们通过以下方式将它们聚合,以得到最终的稀疏表示 :
-
: 一个指示向量 (indicator vector)。如果序列 中对应位置的词元是字面词元,则 在该词元对应的词汇表索引处取值为 1,否则为 0。
-
: 表示元素级乘法 (element-wise multiplication)。
-
: 表示增强向量 中的最大权重值。
-
: 这一项是字面残差值 (literal residual value)。它的作用是计算每个词元在增强向量中的权重与最大权重之间的差距。如果某个词元在 中的权重较低,则这个残差值会较大,提供更多的补偿。反之,如果权重已经很高,补偿则较少。
-
: 最终的稀疏表示,其中字面词元的权重通过残差补偿机制得到强化。
讨论:
LRN采用的是一种补偿加权机制 (compensatory weighting mechanism)。对于一个字面词元 ,如果其由LLM生成的基础权重 较低,表明模型对其关注不足,LRN就会通过残差值提供更多的补偿权重。反之,如果 已经很高,补偿就会减少。这种灵活的机制确保了模型能够逐渐关注对用户意图至关重要的产品品牌、型号等字面词元,有效缓解了幻觉问题。
-
4.2.3. 模型训练 (Model Training)
PROSPER 的训练目标不仅包括对比学习的排名损失,还引入了特殊的稀疏化策略和正则化项。
4.2.3.1. 粗粒度到细粒度稀疏化 (Coarse-to-fine Sparsification)
尽管 FLOPS regularization 可以控制稀疏性,但它是一种软机制,不足以在训练的早期阶段有效指导模型。作者认为稀疏化应该遵循粗粒度到细粒度的策略:
- 早期训练: 应强制快速稀疏化,使模型高效地脱离超高维空间,建立坚实的基础。
- 后期训练: 应采用渐进的细化策略,平衡检索质量和稀疏性。
4.2.3.2. 词汇聚焦窗口 (Lexical Focusing Window, LFW)
为了实现粗粒度到细粒度的稀疏化策略,本文提出了 Lexical Focusing Window (LFW)。LFW 通过一个条件 TopK 池化操作 来指导早期训练:
-
: 是 范数,表示向量 中非零元素的数量。
-
: 是词汇聚焦窗口的大小,即保留的最高权重词元的数量。
-
: 标准的
TopK函数,保留向量 中 个最大权重,并将其他权重置为零。工作协同:
LFW和FLOPS regularization协同工作: -
早期训练阶段: 当向量 的非零维度数量超过 时,
LFW作为硬约束 (hard constraint) 生效,强制模型只关注最重要的一小部分词元,从而实现快速、有目标的稀疏化。 -
后期训练阶段: 一旦表示变得自然稀疏(即非零维度数量不再超过 ),
LFW的作用便减弱,FLOPS regularization接管,提供更细粒度的调整。
4.2.3.3. 训练目标 (Training Objective)
PROSPER 的训练目标是基于对比排名损失 (contrastive ranking loss)。
-
相似度得分计算: 本文对查询表示应用 范数归一化 (normalization),作者发现在实验中这一修改能同时改善稀疏化和检索性能。查询和商品表示之间的相似度得分 如下计算:
-
: 查询 经过
LRN处理后的最终表示。 -
: 商品 经过
LRN处理后的最终表示。 -
: 分别是查询和商品表示的
LFW窗口大小。 -
: 表示 范数。
-
: 查询表示经过
LFW处理。 -
: 查询表示在经过
LFW后,再进行 范数归一化。 -
: 商品表示经过
LFW处理,但不进行 范数归一化。 -
: 表示向量点积。
讨论: 这种不对称的归一化方式(查询端归一化,商品端不归一化)被发现能更好地平衡产品搜索的需求:查询需要精确表达意图,而商品需要丰富的语义覆盖以匹配多样的查询。
-
-
排名损失 (Ranking Loss): 训练目标使用
InfoNCE损失函数 [47],并结合了批内负样本 (in-batch negatives) [30]。对于一个给定的查询表示 ,其正样本产品表示 ,以及一批次的负样本表示 (其他查询的正样本作为当前查询的负样本),排名损失计算如下:- : 查询 的表示。
- : 查询 的正样本商品 的表示。
- : 查询 的批内负样本商品 的集合的表示。
- : 上述定义的相似度得分。
-
整体训练目标 (Overall Training Objective): 最终的训练目标结合了排名损失和针对查询及商品的
FLOPS正则化项 [41]:-
: 上述定义的排名损失。
-
: 分别是查询和商品的
FLOPS正则化项。请注意,FLOPS正则化是应用于基础表示 和 的。 -
: 是超参数,用于平衡
FLOPS正则化的强度。FLOPS正则化项 的定义为: -
: 是词元 的活跃概率的连续松弛,近似表示词元 具有非零权重的可能性。
-
: 批次中的文档数量。
-
: 表示文档 中词元 的权重。
-
该正则化项惩罚的是平均词元权重较高的词元,旨在促进更均衡的索引分布,从而控制检索延迟。
-
5. 实验设置
本节详细介绍 PROSPER 框架的实验设置,包括使用的数据集、评估指标、对比基线模型和具体的实现细节。
5.1. 数据集
实验在两个数据集上进行,分别代表公开基准和真实工业应用场景。
5.1.1. Multi-CPR E-commerce
- 来源与特点:
Multi-CPR[32] 是一个公开可用的多领域中文段落检索数据集,我们使用了其中的E-commerce (电商) 子集。该子集来源于淘宝的真实搜索场景,并经过人工标注。 - 规模:
- 语料库:超过100万个段落(商品标题)。
- 训练集:100,000个查询-段落对。
- 测试集:1,000个查询。
- 相关性信号: 训练集和测试集中的每个查询都与一个单一的、人工标注的正样本商品配对,确保一对一的相关性。
5.1.2. Taobao-Internal
- 来源与特点: 为了在真实的工业环境中进一步验证方法,我们构建了一个新数据集,通过从2025年6月淘宝搜索的真实用户点击日志中采样约107万个查询-商品对。用户点击被视为相关性的真实标注 (ground truth)。
- 规模:
- 训练集:270,000个查询-商品对。
- 测试集:1,000个查询。
- 相关性信号: 与
Multi-CPR不同,Taobao-Internal数据集中一个查询可能对应1到10个点击过的相关商品,这更符合真实世界中用户点击行为的多样性。
5.1.3. 数据集词元长度统计
以下是经过 Qwen2.5-3B 分词器处理后的词元长度统计,如原文 Table 5 所示:
以下是原文 Table 5 的结果:
| Dataset | Query Length | Item Length | ||||
|---|---|---|---|---|---|---|
| Min | Avg | Max | Min | Avg | Max | |
| Multi-CPR | 1 | 5 | 23 | 2 | 25 | 92 |
| Taobao-Internal | 2 | 6 | 25 | 2 | 25 | 74 |
分析: 表格显示,查询和商品(条目)的平均长度都非常短。特别是当考虑到 Qwen2.5-3B 骨干模型的词汇表大小超过150,000时,这种短文本特性凸显了任务的极端稀疏性,也进一步强调了处理词汇不匹配和幻觉问题的挑战性。
5.2. 评估指标
我们采用针对不同数据集特点的评估指标:
5.2.1. Multi-CPR E-commerce 数据集
由于 Multi-CPR E-commerce 数据集中每个查询对应一个单一的相关商品,我们使用以下指标:
-
Hit@k (命中率@k):
- 概念定义: 衡量在前 个检索结果中是否至少包含一个相关商品。
Hit@k的百分比表示有多少比例的查询在前 个结果中找到了至少一个相关商品。 - 数学公式 (根据定义推导):
- 符号解释:
- : 查询总数。
- : 指示函数,当括号内的条件为真时取值为1,否则为0。
- : 查询 检索到的前 个商品集合。
- : 查询 的真实相关商品集合(在此数据集中通常只有一个)。
- : 商品 在查询 的检索结果中的排名。
- 使用方式:
Hit@1,Hit@10,Hit@100,Hit@1000。
- 概念定义: 衡量在前 个检索结果中是否至少包含一个相关商品。
-
MRR@10 (Mean Reciprocal Rank @10):
- 概念定义:
MRR衡量的是第一个相关商品在检索结果中的排名倒数的平均值。如果第一个相关商品出现在第 位,则其倒数排名为 。MRR@10表示只考虑前10个结果,如果前10个结果中没有相关商品,则该查询的倒数排名为0。MRR值越高,表示相关商品越早被检索到,即排名精度越高。 - 数学公式:
- 符号解释:
- : 查询总数。
- : 查询 的第一个相关商品在检索结果中的排名(如果前10个结果中存在)。
- 概念定义:
5.2.2. Taobao-Internal 数据集
由于 Taobao-Internal 数据集中一个查询可能对应多个相关商品(1到10个),我们使用以下指标:
- Recall@k (召回率@k):
- 概念定义: 衡量在前 个检索结果中,实际召回的相关商品数量占该查询所有真实相关商品总数的比例。这对于第一阶段检索至关重要,因为它直接量化了系统在给定候选集中捕获相关商品的能力。
- 数学公式 (取自原文 Appendix A): \mathrm { R e c a l l } = \frac { 1 } { | Q | } \sum _ { i = 1 } ^ { | Q | } \frac { | \mathcal { R } _ { i } \cap \mathcal { T } _ { q _ { i } } | } { | \mathcal { T } _ { q _ _ { i } } | }
- 符号解释:
- : 查询总数。
- : 查询 检索到的前 个商品集合。
- : 查询 的真实相关商品集合。
- : 查询 的检索结果中相关商品的数量。
- : 查询 的真实相关商品总数。
- 使用方式:
Recall@10,Recall@100,Recall@1000。 - 特别说明: 在产品搜索中,
Recall@1000衡量系统在更大候选集中召回相关商品的能力,这对于第一阶段检索至关重要。
5.3. 对比基线
我们对 PROSPER 进行了广泛比较,包括以下基线模型:
5.3.1. 稠密基线 (Dense Baselines)
这些模型将查询和文档编码为低维稠密向量。
- DPR [22]: 经典的双编码器稠密检索基线模型。
- BGE Series [50]: 一系列强大的稠密文本嵌入模型。我们使用了
bge-large-zh-v1.5和bge-base-zh-v1.5进行比较。
5.3.2. 稀疏基线 (Sparse Baselines)
这些模型基于词元匹配,使用稀疏向量表示。
- BM25 [44]: 经典的稀疏检索方法。我们比较了两种变体:
BM25Qwen: 使用Qwen2.5-3B的分词器。BM25BERT: 使用BERT-base-chinese的分词器。
- Doc2Query [40]: 通过使用
seq2seq模型生成文档的潜在查询来缓解词汇不匹配问题。 - DeepCT [5, 8]: 利用
BERT模型评估字面词元的重要性。 - SPLADE [13]: 本文的主要基线。我们使用了原始
SPLADE[13] 和SPLADE-v2[11],并调整了它们的训练过程以进行公平比较。 - SPQwen-backbone [54]: 通过将
SPLADE的BERT主干网络替换为Qwen2.5-3B模型实现。 - SPQwen-echoembedding [45, 52]: 在
SPQwen-backbone的基础上,通过复制输入序列来优化注意力机制,以模拟双向感受野。 - SPQwen-bidattention [4, 26, 52]: 在
SPQwen-backbone的基础上,通过修改LLM的注意力机制为双向注意力。
5.4. 模型变体 (Model Variants)
为了验证 PROSPER 各组件的有效性,我们创建了多个变体进行消融实验:
5.4.1. 核心模型设计变体
PROSPERBERT: 将默认的Qwen2.5-3B主干网络替换为BERT-base-chinese。PROSPERmax-pooling: 使用SPLADE中的max-pooling策略,而非last-pooling。PROSPERbid-attention: 使用双向注意力机制,而非因果注意力。PROSPERecho-emb: 通过复制输入序列来模拟双向感受野。
5.4.2. LRN (字面残差网络) 变体
PROSPERw/o-LRN: 完全移除LRN模块。PROSPERLRN-add: 将LRN中的残差连接替换为直接相加 ()。PROSPERLRN-q:LRN仅应用于查询表示。PROSPERLRN-d:LRN仅应用于商品表示。
5.4.3. LFW (词汇聚焦窗口) 变体
PROSPERw/o-LFW: 移除LFW模块。PROSPERLFW-dynamic: 使用动态调整窗口大小的LFW。- 不同固定窗口大小的
LFW(),用于探索最佳配置。
5.4.4. 字面词元与扩展词元贡献分析变体
PROSPERliteral: 仅使用字面词元进行训练和评估。PROSPERexpansion: 仅使用扩展词元进行训练和评估。PROSPERmask-lit: 正常训练模型,但在匹配和评估阶段屏蔽字面词元。PROSPERmask-expan: 正常训练模型,但在匹配和评估阶段屏蔽扩展词元。
5.5. 实现细节
- 主干模型: 默认使用
Qwen2.5-3B。同时实验了Qwen2.5-1.5B和Qwen2.5-7B版本。 - 词汇聚焦窗口 (LFW): 默认窗口大小为查询 和商品 。动态窗口变体对查询使用 (256, 128, 64),对商品使用 (512, 256, 128)。动态窗口策略在训练过程中自适应收缩:当超过90%的查询或商品的激活维度少于当前窗口大小时,窗口会自动收缩到序列中的下一个较小尺寸。
- 序列最大长度: 查询和商品的最大序列长度均设置为 64。
PROSPERecho-emb由于输入序列复制,其最大序列长度为 128。 - 基线模型实现: 稠密检索器使用
Tevatron[16] 库进行训练,索引和搜索由Faiss[21] 处理。稀疏检索器使用淘宝内部数据库进行存储和匹配。 - BM25 超参数: 使用标准超参数:, , 平滑参数 。
- 训练配置:
- 周期 (Epochs): 所有模型在两个数据集上均训练 5 个
epoch。 - GPU: 使用 8 块 NVIDIA H20 96GB GPU。
- 验证集: 从训练集中随机采样 500 个查询构成验证集,每
epoch后评估模型性能,选择验证集上表现最佳的模型。 - 学习率 (Learning Rate): ,采用线性
warm-up策略(约 0.3 个epoch)。 - 批大小 (Batch Size): 每个设备 64。
- 优化器 (Optimizer):
AdamW[33],权重衰减 (weight decay) 为 0.1。 - FLOPS 正则化参数: 和 从 0 开始二次方增长,最终达到目标值 和 (约在 1.5 个
epoch时达到)。
- 周期 (Epochs): 所有模型在两个数据集上均训练 5 个
- 分析性实验: 除整体性能比较外,所有分析性实验(如消融实验)均在公开的
Multi-CPR E-commerce数据集上进行,以促进复现性和直接比较。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 整体性能
以下是原文 Table 2 的结果:
| Method | Multi-CPR E-commerce | Taobao Internal | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| Hit@1 | Hit@10 | Hit@100 | Hit@1000 | MRR@10 | Recall@10 | Recall@100 | Recall@1000 | |||
| Dense Baselines | DPR | - | - | - | 92.1 | 27.04 | 42.50 | 72.61 | 91.07 | |
| BGE-base-zh-v1.5 | 26.6 | 54.1 | 80.4 | 93.7 | 34.70 | 50.83 | 75.87 | 92.93 | ||
| BGE-large-zh-v1.5 | 26.1 | 55.2 | 81.9 | 93.1 | 35.10 | 50.66 | 76.89 | 93.45 | ||
| Sparse Baselines | BM25Qwen | 14.3 | 37.1 | 62.6 | 83.7 | 20.60 | 39.80 | 65.53 | 84.68 | |
| BM25BERT | 16.5 | 40.9 | 66.9 | 85.5 | 23.48 | 41.23 | 67.84 | 86.21 | ||
| Doc2Query | - | - | - | 82.6 | 23.85 | 42.06 | 68.41 | 86.72 | ||
| DeepCT | 21.9 | 46.4 | 72.2 | 87.5 | 29.14 | 46.64 | 73.26 | 86.90 | ||
| SPLADE | 17.2 | 42.7 | 70.6 | 89.2 | 25.87 | 44.41 | 72.67 | 89.96 | ||
| SPLADE-v2 | 18.4 | 44.1 | 71.3 | 89.6 | 26.40 | 45.28 | 73.41 | 90.38 | ||
| SPQwen-backbone | 18.2 | 43.7 | 72.3 | 91.3 | 25.46 | 45.12 | 73.46 | 91.79 | ||
| SPQwen-echoembedding | 19.7 | 44.0 | 74.2 | 92.4 | 26.72 | 45.27 | 74.35 | 92.84 | ||
| SPQwen-bidattention | 19.5 | 43.8 | 73.5 | 91.8 | 26.41 | 45.39 | 73.89 | 92.10 | ||
| Ours | PROSPER | 25.3 | 50.7 | 78.1 | 93.9 | 32.85 | 50.90 | 76.20 | 94.08 | |
| PROSPERBERT | 23.6 | 49.2 | 75.8 | 91.5 | 31.83 | 50.43 | 75.97 | 93.68 | ||
| PROSPERmax-pooling | 22.6 | 49.5 | 78.3 | 93.6 | 30.85 | 48.45 | 76.33 | 93.75 | ||
| PROSPERecho-emb | 24.5 | 50.7 | 80.3 | 94.1 | 32.82 | 50.18 | 77.20 | 94.43 | ||
| PROSPERbid-attention | 22.3 | 51.4 | 78.7 | 93.6 | 30.72 | 51.06 | 76.51 | 93.80 | ||
关键发现:
PROSPER显著优于所有稀疏基线: 在Multi-CPR E-commerce和Taobao-Internal两个数据集上,PROSPER在所有评估指标上均持续且显著地超越了所有稀疏基线。- 在
Multi-CPR数据集上,PROSPER在Hit@1000指标上达到 93.9%,比BM25BERT的 85.5% 提升了 8.4个百分点,比SPLADE-v2的 89.6% 提升了 4.3个百分点。 - 在
Taobao-Internal数据集上,PROSPER在Recall@1000指标上达到 94.08%,比BM25BERT的 86.21% 提升了 7.87个百分点,比SPLADE-v2的 90.38% 提升了 3.7个百分点。 - 这证明了
PROSPER利用 LLMs 进行稀疏检索在真实世界场景中的卓越有效性。
- 在
PROSPER性能可与先进稠密检索模型媲美:- 在
Hit@1000和Recall@1000等指标上,PROSPER的表现甚至优于或与BGE系列等先进的稠密模型持平(例如,Multi-CPR Hit@1000:PROSPER93.9% vsBGE-base93.7% vsBGE-large93.1%)。 - 这表明
PROSPER在第一阶段检索中对相关商品具有更好的覆盖能力,这对于后续排序阶段的成功至关重要。 - 然而,在
Hit@1、Hit@10和MRR@10等精度指标上,BGE系列等稠密模型表现更优,这体现了稠密检索在精确排序前列目标产品方面的优势。
- 在
PROSPERBERT的表现:PROSPERBERT显著优于SPLADE-v2(例如,Multi-CPR Hit@1000: 91.5% vs 89.6%),这表明本文提出的LRN机制不仅对Qwen2.5有效,对BERT主干网络也能有效缓解词汇扩展幻觉问题。Qwen2.5作为主干网络的优势:PROSPER(使用Qwen2.5)与PROSPERBERT之间的性能差距突出了Qwen2.5作为主干网络的显著优势。- 池化策略:
PROSPER(采用last-token pooling)与PROSPERmax-pooling相比,在Hit@1和MRR@10等指标上表现更优,验证了last-token pooling策略在LLM骨干网络中的有效性。 - 注意力机制优化:
PROSPERecho-emb略微提升了性能,尤其是在Hit@1000和Recall指标上,表明重复输入序列能够更好地利用信息。但高计算成本需谨慎考虑。PROSPERbid-attention并未在因果注意力模型上实现持续改进,作者推测强制改变注意力机制可能会扰乱LLM的预训练知识。
6.1.2. LRN (字面残差网络) 的影响
为了深入评估 LRN 的有效性,我们进行了一系列变体实验。
该图像是图表,展示了不同模型在检索性能上的比较,特别是PROSPER及其变体。横坐标为不同模型,纵坐标为性能百分比,其中Hit@10、Hit@100和Hit@1000分别用红色、蓝色和黄色柱状图表示。
图表(原文 Figure 2)展示了LRN对检索性能的影响。
分析:
LRN的关键作用: 移除LRN(PROSPERw/o-LRN) 导致所有指标的性能急剧下降,这明确证实了LRN机制在提升检索性能中的关键作用。- 对查询和商品都有效:
PROSPERLRN-q和PROSPERLRN-d(LRN仅应用于查询或仅应用于商品)都实现了与无LRN基线相比的相似性能提升,这表明LRN机制对查询和商品表示都带来了益处。 - 补偿加权机制的优势: 将
PROSPER与PROSPERLRN-add(用直接相加代替残差连接)进行比较,凸显了我们提出的补偿加权机制优于更直观的直接相加方法。这表明LRN的自适应补偿能力对于精确调整字面词元权重至关重要。
6.1.3. LFW (词汇聚焦窗口) 的影响
为了评估 LFW 的有效性,我们测试了不同聚焦窗口大小配置下的 PROSPER。
以下是原文 Table 3 的结果:
| Variant | Hit@1 Hit@ 10 | Hit@ 100 | Hit@1000 |
| =1024, q=512 | 22.3 | 49.2 | 77.7 93.5 |
| =512, q=256 | 25.3 | 50.7 | 78.1 93.9 |
| =256, q=128 | 23.7 | 50.2 | 77.0 93.4 |
| =128 q=64 | 23.5 | 49.1 | 77.2 92.9 |
| =64 q=32 | 21.9 | 48.3 74.3 | 91.9 |
| PROSPERLFW-dynamic | 24.6 | 49.0 | 77.8 93.4 |
| PROSPERw/o-LFW | 13.3 | 36.2 | 65.6 87.2 |
分析:
LFW的重要性: 移除LFW(PROSPERw/o-LFW) 导致模型性能在所有指标上都急剧下降(例如,Hit@1000从 93.9% 降至 87.2%)。这证实了在训练过程中将模型注意力引导到最相关的词元对于有效训练是至关重要的。- 最佳窗口大小: 配置 (表格中写为 ,根据上下文应为 ) 取得了最佳的整体性能,在聚焦最相关词元和保持足够词汇覆盖之间取得了最佳平衡。
- 动态 LFW: 动态
LFW策略 (PROSPERLFW-dynamic) 并未超越最优的固定窗口配置。这表明一个精心选择的固定窗口大小足以实现有效的训练,而动态调整窗口大小带来的额外复杂性可能并未带来显著的收益。 - 稀疏化过程: 进一步的分析(见附录 D.1 中的 Figure 6)表明,
LFW在早期训练阶段能够实现快速的维度缩减,并更快地达到稳定状态,验证了其在粗粒度到细粒度稀疏化策略中的作用。
6.1.4. 字面词元与扩展词元的贡献
为了分析字面词元和扩展词元的具体贡献,我们比较了几个变体。
该图像是一个条形图,展示了不同方法在检索性能上的表现,包括 Hit@10、Hit@100 和 Hit@1000 指标。可以看到,PROSPER 方法在各项指标上的得分显著高于其他基准方法,尤其在 Hit@1000 指标上表现优异,达到 93.9%。
图表(原文 Figure 3)展示了字面词元和扩展词元对检索性能的影响分析。
分析:
- 字面词元的重要性: 仅使用字面词元训练的
PROSPERliteral模型,在Hit@10指标上比强大的BM25基线高出 9.5 个百分点。这证明了即使不进行扩展,模型在评估词元重要性方面的有效性。 - 字面词元对精度的优势:
PROSPERliteral和PROSPERmask-expan(在训练好的模型中屏蔽扩展词元)在Hit@10和Hit@100等指标上显著优于其仅扩展词元对应的变体 (PROSPERexpansion和PROSPERmask-lit)。这表明字面词元对于提高检索精度至关重要。 - 扩展词元对召回的补充作用:
- 当独立训练时,
PROSPERexpansion在Hit@1000上的召回率几乎与PROSPERliteral持平。 - 更具说服力的是,在评估训练好的模型时,仅保留扩展词元的变体 (
PROSPERmask-lit) 在Hit@1000上甚至超过了仅保留字面词元的变体 (PROSPERmask-expan)。
- 当独立训练时,
- 结论: 字面词元和扩展词元具有互补的优势。字面词元对于提高精度至关重要,而扩展词元则对补充召回率起着关键作用。
PROSPER成功地整合了这两个方面,从而实现了卓越的整体性能。
6.1.5. 有效性-效率权衡
工业级搜索系统的一个关键考量是检索有效性与计算效率之间的权衡。我们通过绘制模型性能 (MRR@10) 与计算成本 (# FLOPS,衡量查询和商品表示之间重叠词元的平均数量) 的关系图来评估这一权衡。我们通过调整 FLOPS 正则化强度和 LFW 大小来控制 # FLOPS。
该图像是一个图表,展示了在 Multi-CPR 电子商务环境中,PROSPER 等模型的有效性 ext{MRR}@10 ext{%} 与效率(# FLOPS)之间的权衡。图中标注了不同模型对应的平均查询长度和文档长度,显示出 PROSPER 系列方法在有效性上相较于其他基线的提升。
图表(原文 Figure 4)展示了在 Multi-CPR 电子商务环境下,有效性 MRR@10 (%) 与效率 # FLOPS 之间的权衡。
分析:
PROSPER的卓越权衡:PROSPER和SPLADE都能在低计算成本下实现较强的性能,但PROSPER始终表现出更优越的有效性-效率权衡。- 平衡效率和有效性:
PROSPER在平衡效率和有效性方面展现出巨大潜力。与BM25相比,PROSPERliteral和PROSPERmask-expan在可比的计算成本下实现了检索质量的显著提升。 - 模型大小缩放: 进一步研究模型大小缩放发现,使用更大的模型并没有带来显著的性能提升(参见附录 D.3 中的 Figure 7)。因此,为了在有效性和部署成本之间取得最佳平衡,线上实验选择了
Qwen2.5-1.5B模型作为主干网络。
6.1.6. 归一化策略的影响 (附录 D.2)
以下是原文 Table 6 的结果:
| Variant | Hit@1 | Hit@10 | Hit@100 | Hit@ 1000 |
| PROSPER | 25.3 | 50.7 | 78.1 | 93.9 |
| PROSPER1-norm | 15.8 | 39.9 | 68.0 | 90.0 |
| PROSPERw/o-norm | 17.0 | 40.9 | 68.0 | 90.0 |
| PROSPERall-norm | 17.1 | 39.7 | 67.2 | 87.2 |
| PROSPERd-norm | 16.1 | 42.3 | 71.7 | 91.1 |
分析:
- 不对称归一化 (Asymmetric Normalization) 的重要性: 表格揭示了相似度函数在产品搜索中的关键作用。产品搜索需要一种不对称的方法:查询需要精确的词元表达以捕捉用户意图,而商品需要丰富的语义覆盖以匹配多样化的查询。
PROSPER的方法 (查询端 归一化): 仅对查询表示应用 范数归一化,完美地实现了这种平衡,它强调了查询词元的相对重要性,同时保留了商品词元的绝对权重。这种不对称方法显著优于所有其他变体。- 其他归一化方法的不足:
- 标准点积 (
PROSPERw/o-norm) 和余弦相似度 (PROSPERall-norm) 未能解决这种根本性不对称问题。 - 范数归一化 (
PROSPERl1-norm) 通过强制权重和为1,导致过度稀疏化。 - 仅对商品表示进行归一化 (
PROSPERd-norm) 也表现不佳,证实了保留商品绝对权重的重要性。
- 标准点积 (
6.2. 线上实验结果与分析
6.2.1. 系统部署
该图像是 Taobao 搜索引擎架构的示意图,展示了引入的稀疏检索模型 PROSPER 的流程。图中包含了用户查询的重写、索引、混合检索系统和候选产品集的生成,以及与排名系统的交互。
图表(原文 Figure 5)展示了Taobao搜索引擎的架构概览,其中包含了PROSPER稀疏检索模型。
部署流程:
- 离线推理:
PROSPER对产品语料库进行离线推理,将产品与相应的词元倒排列表关联,并存储权重以构建倒排索引 (inverted index)。 - 查询处理: 用户查询输入到
PROSPER模型以获取其表示词元。 - 检索: 通过倒排索引查找相关商品。
- 效率优化: 该过程利用
Block-Max Maxscore[10, 29, 36] 算法优化效率。 - 候选集生成: 最终,获得一个高度相关的候选文档集,用于后续的排序阶段。
6.2.2. 线上 A/B 测试结果
以下是原文 Table 4 的结果:
| Metric | TG-GMV | DG-GMV | UV | CVR |
| Improvement | +0.64% | +0.28% | +0.19% | +0.22% |
分析:
- 经过10天的 A/B 测试,部署了
PROSPER的实验组相较于基线组在多项关键指标上表现出显著提升。 TG-GMV(Total Guided Gross Merchandise Volume): 总引导商品交易总额增长 +0.64%。DG-GMV(Direct Guided Gross Merchandise Volume): 直接引导商品交易总额增长 +0.28%。UV(Unique Visitor): 独立访客数增长 +0.19%。CVR(Conversion Rate): 转化率增长 +0.22%。- 此外,其他指标也呈现积极趋势,重要的是,对其他阶段(如排序、广告、推荐)的指标没有产生负面影响,实现了优秀的在线增量效益。
6.2.3. 线上案例研究 (附录 E.2)
通过对在线环境中 PROSPER 召回的商品案例进行分析,发现 PROSPER 独占召回了大量其他检索方法未能召回但经淘宝内部查询-商品相关性分析模型评估为相关的商品。
以下是原文 Table 9 的结果:
| Query | Exclusive Product Recalled by PROSPER | Products Recalled by Other Channels |
|---|---|---|
| Query: ul a | D:824464234850012033 92293510527:50012033 SHOES 0 qztrecall_ypes:4r2.0 rs_score rerank_score ha3_score360 rs_scorererank_scoreha3_score360 recal lpe: 516 r: 20 √158.00 4581144 961.0 0102 : 24 : 50 : 14 | ... |
| Query: Un 2025 * | rs_score rerank_score ha3_score60 rs_scorererank_scoreha3_score 60 qzt | ... |
| Query: A curved, fitted shirt with a lower hem VERD MODA Sicily \$:7993196995017 ATM 0 D:70741508414 :50000671 (T | 274SR I recall_types: 128r: 1.0 55.00¥55.00 M098O V305.00 ¥549.00 151668 :47 156 29 | ... |
| Query: Pilates dedicated vest size lre rocal yo:2:202 | 171 rocal les: 1m:20 | ... |
| Query: Mao la is a specialty of Kaili, Guizhou | T5189R 4100 ## | ... |
| Query: Eucalyptus leaves are everlasting flowers D:9219426470124496004 ( 86013352677124496004 :7395376497:124496004 ( 4 64 86 ) 954 ) To.seore rak core hg score 360 138.00 V138.00 58282141 1124 | ... | ... |
(注:原文表格中Exclusive Product Recalled by PROSPER和Products Recalled by Other Channels列的内容格式不规范,包含了大量非产品描述文本。此处仅根据原文内容进行转录,但实际分析时应聚焦于其所指代的产品相关性。)
分析:
- 即使对于其他渠道已表现出强大召回性能的常见查询,它们仍可能遗漏一些相关商品。
PROSPER有效填补了这一空白,召回了这些缺失的商品。- 这确保了第一阶段检索更全面地满足用户需求,从而提升了淘宝搜索引擎的整体性能,并为平台贡献了增量在线收入。
6.3. 补充实验结果
6.3.1. 稀疏化策略分析 (附录 D.1)
该图像是图表,展示了在训练过程中词汇聚焦窗口(LFW)对查询和产品稀疏化的影响。图中显示了激活维度在查询和产品表示中如何随着训练轮次的不同而变化,蓝线代表有LFW的情况,红线则为没有LFW的情况。
图表(原文 Figure 6)展示了词汇聚焦窗口对训练过程中稀疏化的影响。该图显示了查询和商品表示中激活维度数量如何随训练轮次的变化而变化,对比了有LFW和无LFW的情况。
分析:
- 图表详细分析了
LFW如何影响训练过程中的稀疏化。 - 加速维度缩减: 与没有
LFW的模型相比,LFW在早期训练阶段能够实现查询和商品表示维度的快速缩减。 - 更快稳定: 带有
LFW的模型能够更快地达到稀疏化稳定状态。 - 粗粒度到细粒度方法: 这种粗粒度到细粒度的方法允许
FLOPS正则化在初始维度缩减后处理细粒度调整,从而产生更集中的稀疏表示,这些表示在保持高语义质量的同时降低了计算开销。
6.3.2. 参数缩放分析 (附录 D.3)
该图像是一个性能比较图,展示了不同模型大小的 PROSPER 在 Multi-CPR 测试集上的表现。横轴为评估指标 Hit@1、Hit@10 和 Hit@100,纵轴为性能百分比。红色线条代表 Qwen2.5-1.5B,蓝色线条代表 Qwen2.5-3B,紫色三角形代表 Qwen2.5-7B。可以观察到随着指标提升,性能均有所增加。
图表(原文 Figure 7)展示了PROSPER在Multi-CPR测试集上不同模型大小的性能比较。
分析:
- 为了研究模型大小的影响,我们使用
Qwen2.5不同规模(1.5B、3B、7B)作为PROSPER的主干网络进行实验。 - 无明显缩放定律: 实验结果显示,对于本文的任务,并没有明显的缩放定律 (scaling law)。虽然更大的模型带来了一些性能提升,但在关键的
Hit@1000召回指标上,所有模型规模的性能大致相当。 - 线上部署选择: 因此,为了在有效性和部署成本之间实现最佳权衡,在后续的大规模在线实验中,我们选择
Qwen2.5-1.5B模型作为主干网络。
7. 总结与思考
7.1. 结论总结
本文深入探讨了将大语言模型 (LLMs) 应用于产品搜索中学习型稀疏检索 (learned sparse retrieval) 的可能性。通过提出 PROSPER 框架,作者有效应对了将LLMs直接用于该任务所面临的两大核心挑战:词汇扩展幻觉 (lexical expansion hallucination) 和训练初始化困难 (training initialization challenges)。
PROSPER 的主要贡献在于引入了:
-
字面残差网络 (Literal Residual Network, LRN): 解决了LLM在短文本中可能低估品牌、型号等关键字面词元权重的问题,通过补偿加权机制强化了这些关键信息,有效缓解了幻觉。
-
词汇聚焦窗口 (Lexical Focusing Window, LFW): 结合粗粒度到细粒度的稀疏化策略,克服了LLM庞大词汇空间带来的训练不稳定问题,在训练早期强制模型快速聚焦于最重要词元,并与
FLOPS正则化协同,实现了高效且有目标的稀疏化。实验结果强有力地验证了
PROSPER的有效性。在离线实验中,PROSPER显著超越了所有稀疏基线,并在第一阶段检索关键的Hit@1000和Recall@1000指标上取得了与先进稠密检索器相当甚至更优的性能。更重要的是,在淘宝搜索引擎的在线 A/B 测试中,PROSPER成功实现了GMV0.64% 的增长以及其他关键业务指标的积极提升,同时对现有系统无负面影响。这表明PROSPER能够有效补充其他召回渠道,满足用户多样化的需求。
7.2. 局限性与未来工作
尽管 PROSPER 取得了良好的性能,但作者也指出了其当前方法的局限性,并提出了未来的研究方向:
- 噪声词元问题: 目前
PROSPER直接利用模型logits(对数几率) 进行词元扩展和加权,这仍然可能不可避免地引入一些噪声词元。 - 未来工作方向:
- 结合
CoT(Chain-of-Thought) 推理: 计划探索将CoT[49] 推理机制融入模型,以更智能地过滤和精炼扩展词元,进一步减少噪声。 - 学习型稀疏检索在排名阶段的应用: 计划研究如何将学习型稀疏表示应用于产品搜索流水线的后续排名阶段,探索稀疏表示如何增强多阶段检索架构。
- 结合
7.3. 个人启发与批判
7.3.1. 个人启发
- LLMs在传统IR任务中的巨大潜力: 这篇论文进一步证实了LLMs不仅在生成任务中表现出色,在传统的信息检索任务中,即使是短文本场景,也能通过精心设计发挥其强大的语义理解能力。它为将LLMs融入现有搜索系统提供了一个可解释、高效且有效的新范式。
- 稀疏检索的“第二春”: 在稠密检索日益流行的背景下,这篇论文通过结合LLMs,为稀疏检索注入了新的活力。它证明了稀疏检索在可解释性、存储效率和工业部署友好性方面的优势,并能通过语义增强弥补其词汇不匹配的短板,使其在第一阶段检索中依然具有不可替代的价值。
- 针对特定场景的定制化设计: 产品搜索与通用段落检索存在显著差异(如短文本、对品牌/型号等字面信息的敏感性)。
PROSPER没有简单地套用现有框架,而是针对这些特点设计了LRN和LFW,这强调了在应用先进模型时,理解并解决领域特定挑战的重要性。 - 方法组件的巧妙性:
LRN的补偿加权机制非常巧妙,它没有粗暴地强制提高字面词元权重,而是通过残差项进行自适应补偿,这既能确保关键信息的权重,又给予模型一定的灵活性进行语义扩展。LFW的粗粒度到细粒度稀疏化策略,特别是其在训练早期作为硬约束的设定,有效地解决了LLM大词汇表带来的训练初始化稳定性问题,这是对现有FLOPS正则化等软约束的有力补充。
- 不对称相似度计算的价值: 对查询端进行归一化而商品端不进行,这种不对称处理方式深刻理解了产品搜索中查询和商品的不同匹配需求,为后续的检索模型设计提供了新的思路。
7.3.2. 批判与潜在改进
- “幻觉”问题的根本性解决仍有空间: 尽管
LRN缓解了幻觉,但如作者所承认,直接利用logits仍可能引入噪声。未来的研究可以探索更深层次的语义理解和推理机制,例如通过知识图谱或更复杂的文本生成策略来辅助扩展,确保扩展词元不仅相关,而且准确无误。结合CoT推理是一个有前景的方向,但如何高效地将其融入第一阶段检索的延迟约束下,将是技术挑战。 - 对LLM内部机制的探索不够深入: 论文主要将LLM视为一个强大的特征提取器和词元加权/扩展工具。虽然
last-pooling和注意力机制的探索 (PROSPERbid-attention) 提到了LLM架构的特性,但并未深入探讨如何更根本地修改或利用LLM的内部结构(例如,修改Transformer层本身)来优化稀疏表示的生成,而不是仅仅在输出层进行处理。 - 计算成本的进一步优化: 尽管
PROSPER在效率-有效性权衡方面表现出色,但相比BM25这样的纯统计模型,LLM作为主干网络仍然引入了更高的计算开销。如何在保持LLM强大语义能力的同时,进一步优化其推理速度和索引构建时间,是其在更大数据规模下部署的关键。例如,探索更轻量级的LLM架构,或结合剪枝 (pruning)、量化 (quantization) 等模型压缩技术。 - 对长尾查询和新产品的适应性: 产品搜索中存在大量长尾查询和不断更新的新产品。
PROSPER的语义扩展能力应该有助于处理长尾查询的词汇不匹配,但对于全新产品(特别是标题信息有限的)的适应性,以及如何快速捕捉新趋势和新术语,仍需进一步验证和优化。 - 泛化性评估的拓展: 尽管在两个数据集上进行了评估,但
Taobao-Internal数据集是通过用户点击日志构建的,其相关性信号可能包含用户偏好、平台推荐等非纯语义因素。在更多样化的电商平台或不同语种的场景下进行验证,将有助于评估其泛化能力。 - GMV 增长的绝对值: 0.64% 的
TG-GMV增长对于一个大型电商平台而言已是巨大成功,但从模型性能提升的绝对值来看,这可能也反映了第一阶段检索对整体 GMV 的贡献是有上限的,或者模型仍有进一步提升的空间。未来的工作可以探索与其他阶段(如排序、推荐)更紧密的协同优化,以实现更大的系统级收益。
相似论文推荐
基于向量语义检索推荐的相关论文。