论文状态：已完成

LLM-Aligned Geographic Item Tokenization for Local-Life Recommendation

发表：2025/11/18

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

随着大型语言模型的进步，文本推荐的语义泛化能力得以增强。本文提出了LGSID框架，通过强化学习的地理LLM对齐和分层地理项目词元化，捕获项目间真实的空间关系。大量实验表明，LGSID在本地生活推荐中优于现有模型，展示了其有效性。

摘要

Recent advances in Large Language Models (LLMs) have enhanced text-based recommendation by enriching traditional ID-based methods with semantic generalization capabilities. Text-based methods typically encode item textual information via prompt design and generate discrete semantic IDs through item tokenization. However, in domain-specific tasks such as local-life services, simply injecting location information into prompts fails to capture fine-grained spatial characteristics and real-world distance awareness among items. To address this, we propose LGSID, an LLM-Aligned Geographic Item Tokenization Framework for Local-life Recommendation. This framework consists of two key components: (1) RL-based Geographic LLM Alignment, and (2) Hierarchical Geographic Item Tokenization. In the RL-based alignment module, we initially train a list-wise reward model to capture real-world spatial relationships among items. We then introduce a novel G-DPO algorithm that uses pre-trained reward model to inject generalized spatial knowledge and collaborative signals into LLMs while preserving their semantic understanding. Furthermore, we propose a hierarchical geographic item tokenization strategy, where primary tokens are derived from discrete spatial and content attributes, and residual tokens are refined using the aligned LLM's geographic representation vectors. Extensive experiments on real-world Kuaishou industry datasets show that LGSID consistently outperforms state-of-the-art discriminative and generative recommendation models. Ablation studies, visualizations, and case studies further validate its effectiveness.

思维导图

论文精读

中文精读约 39 分钟读完 · 24,327 字

1. 论文基本信息

1.1. 标题

LLM-Aligned Geographic Item Tokenization for Local-Life Recommendation （LLM对齐的本地生活推荐地理项目词元化）

1.2. 作者

Hao Jiang, Guoquan Wang, Donglin Zhou, Sheng Vu, Yang Zeng, Wencong Zeng, Kun Gai, Guorui Zhou

隶属机构：

Kuaishou Technology, Beijing, China (快手科技，北京，中国)
Independent Researcher (独立研究员)

1.3. 发表期刊/会议

arXiv preprint

1.4. 发表年份

2025年（论文发布于2025-11-18T07:54:32.000Z）

1.5. 摘要

随着大型语言模型 (LLMs) 的进步，通过语义泛化能力增强文本推荐已成为可能。传统的文本推荐方法通常通过提示词 (prompt) 设计编码项目文本信息，并通过项目词元化 (item tokenization) 生成离散的语义ID (semantic ID, SID)。然而，在本地生活服务等特定领域任务中，简单地将位置信息注入提示词中，无法捕获项目之间细粒度的空间特征和真实的距离感知。为了解决这个问题，本文提出了 LGSID，一个用于本地生活推荐的 LLM-Aligned Geographic Item Tokenization Framework （LLM对齐的地理项目词元化框架）。该框架包含两个关键组件：(1) RL-based Geographic LLM Alignment （基于强化学习的地理LLM对齐）和 (2) Hierarchical Geographic Item Tokenization （分层地理项目词元化）。在基于强化学习的对齐模块中，首先训练一个列表式奖励模型 (list-wise reward model) 来捕获项目之间真实的 spatial relationships （空间关系）。然后，引入了一种新颖的 G-DPO 算法，该算法利用预训练的奖励模型将广义空间知识和协同信号注入到 LLMs 中，同时保留其语义理解能力。此外，还提出了一种分层地理项目词元化策略，其中主词元 (primary tokens) 从离散的空间和内容属性中导出，残差词元 (residual tokens) 则使用对齐后的 LLM 的地理表示向量进行细化。在真实的快手行业数据集上的大量实验表明，LGSID 始终优于最先进的判别式 (discriminative) 和生成式 (generative) 推荐模型。消融研究 (ablation studies)、可视化和案例研究进一步验证了其有效性。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2511.14221
PDF 链接: https://arxiv.org/pdf/2511.14221v1.pdf
发布状态: 预印本 (arXiv preprint)

2. 整体概括

2.1. 研究背景与动机

随着本地生活服务（如快手、美团等平台）的快速发展，推荐系统在满足用户日常需求方面变得至关重要。传统的基于ID的推荐方法，虽然广泛使用协同过滤 (collaborative filtering)，但存在以下局限性：

无法捕捉真实世界空间特性和距离感知： 在本地生活场景中，地理位置是关键因素，传统方法难以有效建模。
长尾问题与曝光不公： 许多本地项目互动机会有限，导致曝光不足。
性能瓶颈： 随着候选项目池的增长，传统方法的固有性能瓶颈日益凸显。

近期，大型语言模型 (LLMs) 的发展为解决这些问题提供了新思路，通过其强大的语义理解能力增强了文本推荐。现有的文本推荐方法通常将项目文本信息通过提示词 (prompt) 编码，然后通过项目词元化 (item tokenization) 将 LLM 生成的语义表示量化为离散的语义ID (SID)。然而，作者指出这些方法在本地生活推荐场景中仍面临两大挑战：
领域特定知识适应性不足： 现有方法常将 LLMs 视为单纯的文本编码器，将重点放在量化模型的创新上，以适应下游任务。但作者认为，上游 LLMs 的质量和领域感知能力从根本上决定了项目词元化性能的上限。
领域知识与语义理解整合薄弱： 简单地将领域特定信号和内容属性结合到提示词中，LLMs 可能无法平衡它们的重要性。例如，LLMs 倾向于优先考虑内容相关性而非地理接近性，可能向北京的用户推荐上海的餐厅（如 Figure 1 所示），这凸显了将项目属性和高维表示与语义理解和地理意识更好地融合的必要性。

下图（原文 Figure 1）展示了文本基础方法在本地生活推荐中的挑战：

该图像是一个示意图，展示了文本基础方法在本地生活推荐中的挑战。图中显示了用户项序列和预测项，强调了地理信息对推荐结果的重要性。我们的方案通过引入地理意识，提高了推荐的相关性与准确性。

2.2. 核心贡献/主要发现

为了解决上述挑战，本文提出了 LGSID 框架，其核心贡献包括：

识别并强调现有 LLM-driven item tokenization 方法的局限性： 特别是在本地生活这种空间受限场景中，缺乏地理意识是其主要缺陷，并强调了对齐 LLMs 与领域特定知识的重要性。
提出 LGSID，一个两阶段的项目词元化框架： 专为空间受限场景设计，包含 RL-based LLM alignment （基于强化学习的LLM对齐）和 Hierarchical Geographic Item Tokenization （分层地理项目词元化）两大模块。
- RL-based Geographic LLM Alignment： 引入列表式奖励模型和新颖的 G-DPO 算法，将地理空间知识和协同过滤信号注入到 LLMs 中，同时保持其语义理解能力。
- Hierarchical Geographic Item Tokenization： 提出分层量化策略，首先基于空间和内容属性生成主词元，然后利用对齐后的 LLM 的地理表示向量细化残差词元，实现高效的压缩和重建。
在真实工业数据集上进行全面的实验： 实验结果表明 LGSID 在判别式和生成式推荐模型中均显著提升了性能，并通过消融研究、可视化和案例研究进一步验证了其有效性。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 LGSID 框架，初学者需要了解以下基础概念：

大型语言模型 (Large Language Models, LLMs)： 这类模型是基于海量文本数据进行预训练的深度神经网络，能够理解、生成和处理人类语言。在推荐系统中，LLMs 可以将项目描述等文本信息编码成高质量的语义表示向量。
项目词元化 (Item Tokenization)： 这是一个将项目（如商品、电影、餐厅）的表示（通常是连续的向量）转化为离散的、可管理的“词元”或“ID”的过程。这些词元可以看作是项目的语义类别或离散的编码。例如，RQ-VAE 和 VQ-VAE 是常见的词元化技术，它们通过量化过程将连续向量映射到离散编码本中的词元。
语义ID (Semantic ID, SID)： 通过项目词元化得到的离散 ID，它们携带着项目的语义信息。SID 可以用于推荐系统，替代传统的基于唯一 ID 的表示，从而提供更好的泛化能力和语义理解。
强化学习 (Reinforcement Learning, RL)： 一种机器学习范式，智能体 (agent) 通过与环境的交互学习最优行为策略，以最大化累积奖励。在本文中，RL 被用于对齐 LLM 的行为，使其更好地理解地理信息。
奖励模型 (Reward Model, RM)： 在强化学习中，奖励模型用于评估智能体生成输出的质量。在本论文中，它被训练来评估 LLM 表示的项目内容和其地理位置之间的相关性，从而捕获真实的地理空间关系。
直接偏好优化 (Direct Preference Optimization, DPO)： 一种用于对齐大型语言模型的新型强化学习算法。它直接优化策略模型以匹配人类偏好，而无需显式训练一个单独的奖励模型。然而，本文提出了 G-DPO，它利用一个预训练的奖励模型。
判别式推荐 (Discriminative Recommendation)： 这类推荐模型通常学习用户和项目之间的匹配函数，直接预测用户对某个项目的偏好得分（如点击率、评分），然后根据得分进行排序推荐。例如，DIN、DIEN 等都属于判别式模型。
生成式推荐 (Generative Recommendation)： 这类推荐模型不直接预测分数，而是生成下一个可能被用户喜欢的项目或其对应的 SID。它们通常将推荐任务视为序列生成问题。例如，TIGER 和 OneRec 属于生成式模型。
地理空间关系 (Geographic Spatial Relationships)： 指的是不同地理实体之间的位置、距离、邻近、包含等关系。在本地生活推荐中，理解这些关系对于准确推荐至关重要，例如，餐厅与用户之间的距离。
哈弗辛距离 (Haversine Distance)： 一种计算地球表面两点之间大圆距离的公式，适用于经纬度坐标。在本文中用于量化项目之间的地理距离。

3.2. 前人工作

论文在“Related Work”部分详细回顾了两类相关工作：Item Tokenization （项目词元化）和 LLM Alignment for Recommendation （用于推荐的LLM对齐）。

3.2.1. 项目词元化 (Item Tokenization)

项目词元化是文本推荐领域的关键技术，旨在将 LLM 的连续表示量化为离散的语义ID。

两阶段方法 (Two-stage methods)：
- LC-Rec (Zheng et al. 2024)：引入语义对齐以整合推荐信号。
- LETTER (Wang et al. 2024a)：联合对齐语义空间和协同空间。
- QARM (Luo et al. 2024)：使用 Res-Kmeans 并由用户互动分布引导来学习语义ID。
- EAGER (Wang et al. 2024c)：采用双流编码本 (two-stream codebooks) 建模语义和协同信号。
- UTGRec (Zheng et al. 2025a)：将多模态语义与共现模式整合到通用代码中。
- $SC (Li et al. 2025)$ ：通过预训练的协同过滤模型中的 ID 嵌入来正则化语义编码器。
端到端方法 (End-to-end methods)：
- UnifiedSID (Lin et al. 2025)：使用 RQ-VAE 结合余弦距离和欧几里得距离来整合语义和 ID 词元。
- ETEGRec (Liu et al. 2025a)：引入序列项目对齐和偏好语义对齐目标，通过生成模型进行训练。
  
  局限性分析： 这些方法大多忽略了领域特定的约束，例如在本地生活推荐中，用户只与有限地理半径内的项目互动。缺乏地理意识的 SID 可能会推荐用户感兴趣但距离过远的项目，从而降低系统效率。

3.2.2. 用于推荐的LLM对齐 (LLM Alignment for Recommendation)

将 LLMs 应用于推荐系统的关键挑战在于融入任务特定的感知。现有方法分为两类：

设计 LLMs 任务以激发真实世界知识和推理 (Task Design)：
- LGHRec (Luo et al. 2025)：利用 chain-of-thought （思维链）推理将项目描述提炼为语义 ID，并与普通 ID 融合用于图神经网络 (GNN)。
- GNPR-SID (Wang et al. 2025)：将位置信息等领域属性纳入提示词中以捕获下游信号。
- SIIT (Chen et al. 2024)：通过自我改进迭代地优化词元化。
微调 LLMs (Fine-tuning LLMs)：
- NoteLLM (Zhang et al. 2024a) 和 NoteLLM-2 (Zhang et al. 2024b)：通过提示词压缩项目，并通过监督微调整合协同信号。
- AlignRec (Liu et al. 2024)：引入多模态和用户-项目一致性对齐目标。
- LLMEmb (Liu et al. 2025b)：使用监督对比微调将 LLM 嵌入与协同数据对齐。
- LARM (Liu et al. 2025c)：将开源 LLM 知识蒸馏到更小的模型中。
- $Lu et al. (Lu et al. 2024)$ ：加强 LLMs 与推荐指令的对齐。
  
  局限性分析： 这些方法侧重于语义对齐，但 LLMs 需要在准确捕捉用户基于项目内容的真实偏好的同时，平衡领域特定的约束（如地理位置）。

3.3. 技术演进与差异化分析

本文 LGSID 的工作处于 LLM-driven recommendation 和 item tokenization 的交叉点。它在现有工作的基础上，针对本地生活推荐的特定需求，引入了地理意识。

技术演进：

传统 ID-based CF： 仅依赖用户-项目交互，难以泛化，不具备语义和地理感知。
LLM as Text Encoder： 将 LLM 用于生成项目语义表示，提高泛化能力，并通过 item tokenization 产生 SID。这是当前的主流范式。
LLM Alignment for Recommendation： 通过任务设计或微调，使 LLM 更好地适应推荐任务。

差异化分析： LGSID 与现有方法的核心区别在于：

焦点转移： 现有方法更多关注 SID 的量化模型本身，而 LGSID 则将重点放在上游 LLMs 的对齐上，使其具备领域特定的地理空间知识。它认为 LLM 输出表示的质量和领域感知能力是 SID 性能的上限。
地理知识的深度整合： LGSID 不仅仅是将位置信息简单注入提示词，而是通过 RL-based alignment （基于强化学习的对齐）和 G-DPO 算法，以一种更系统、更精细的方式将真实的地理空间关系、距离感知和协同信号融入到 LLM 的表示中。这解决了现有方法中 LLMs 倾向于内容相关性而忽略地理接近性的问题。
分层地理词元化： 提出了结合空间和内容属性的分层词元化策略，进一步增强了 SID 的地理意识和表示效率，解决了粗粒度空间信息不足的问题。

通过这种方式，LGSID 旨在提供一个既能利用 LLM 强大语义理解能力，又能精确满足本地生活服务场景中地理约束的推荐框架。

4. 方法论

本文提出的 LGSID 框架是一个 LLM-Aligned Geographic Item Tokenization （LLM对齐的地理项目词元化）框架，用于本地生活推荐。它包含两个主要模块：RL-based Geographic LLM Alignment （基于强化学习的地理LLM对齐）和 Hierarchical Geographic Item Tokenization （分层地理项目词元化）。

下图（原文 Figure 2）展示了 LGSID 框架的整体架构：

上半部分是 RL-based Geographic LLM Alignment 模块，它通过基于强化学习的后训练策略，使 LLM 具备真实世界的空间感知能力，同时保留其语义理解能力。
下半部分是 Hierarchical Geographic Item Tokenization 模块的流程，它将空间和离散内容特征与来自 LLM 的丰富语义表示融合，以更好地平衡项目语义和领域特定特征。

该图像是一个示意图，展示了LLM对齐的地理项目标记化框架的两个阶段，包括基于RL的地理LLM对齐和分层地理项目标记化。在公式中，G-DPO算法与RL相结合，通过奖励评分进行更新，强调内容和地理信息的对齐，用户序列展示了最终生成的项目嵌入。

4.1. 地理提示词设计 (Geography Prompt Design)

为了从 LLMs 中获取项目的语义表示，本文设计了一个提示词，将项目的文本描述 $\mathbf{T}_i$ （例如，名称、品牌、类别、价格）与地理属性（例如，省份、城市、城镇）结合起来。具体而言，项目首先被编码成语义表示 $\mathbf{E}_i$ ，然后量化为离散的语义 ID $S_i$ 。

下图（原文 Figure 6）展示了提示词设计的细节：用户提供的查询包含项目名称、品牌、类别和价格等文本信息，以及省份、城市、区县等地理信息。LLM 将这些信息编码成一个 LLM Embedding。

Figure 6: Illustration of our prompt design. 该图像是示意图，展示了短视频推荐系统中的内容理解嵌入生成过程。输入包括项目名称、位置、类别层级、品牌和商品信息，最后生成 LLM 嵌入。该系统根据位置等信息生成个性化推荐。

4.2. 基于强化学习的地理LLM对齐 (RL-based Geographic LLM Alignment)

现有方法通常将领域特定信息注入提示词以增强 LLMs 的感知能力。然而，LLMs 主要依赖语义相似性，只能从文本相关性中捕获粗略的空间关系，难以区分文本相似但地理位置不同的地点（例如，“安徽苏州”与“江苏苏州”）。为了解决这个问题，本文提出了一种基于强化学习的后训练策略，以使 LLMs 与真实世界地理知识对齐。

4.2.1. 地理感知奖励模型训练 (Geography-aware Reward Model Training)

在具有大型动态候选池的真实世界推荐系统中，手动标注项目对以进行强化学习是不切实际的。为了克服这一挑战，本文首先训练了一个列表式奖励模型 (list-wise reward model) $\mathcal{R}(i)$ 。该模型根据项目内容及其对应位置的 LLM 表示来预测地理相关性得分。这使得模型能够通过神经网络内化可泛化的空间知识。

具体步骤如下：

距离计算与负采样： 首先使用项目的经纬度计算项目之间的 pairwise geodesic distance （成对测地距离，即哈弗辛距离）。然后，采用 density-aware hard negative sampling （密度感知硬负采样）策略，根据空间距离选择 $K$ 个负样本。
提示词序列构建： 通过固定项目内容，并将位置替换为每个负样本的位置，构建提示词序列。这被称为 prompt mismatching strategy （提示词不匹配策略）。原始论文中给出的公式为： $P_i = [ P_{\mathrm{content}}, P_{\mathrm{location}}^{i} ], \quad P_i^{j^-} = [ P_{\mathrm{content}}, P_{\mathrm{location}}^{j^-} ]$ 其中， $P_{\mathrm{content}}$ $P_{content}$ 是项目文本属性， $P_{\mathrm{location}}^{i}$ $P_{location}^{i}$ 是真实位置， $P_{\mathrm{location}}^{j^-}$ $P_{location}^{j^{-}}$ 是从采样项目中选取的负位置。这会生成一个提示词序列 $P_i = [ P_i, P_i^1, \dots, P_i^k ]$ $P_{i} = [P_{i}, P_{i}^{1}, \dots, P_{i}^{k}]$ 。 符号解释：
- $P_i$ : 第 $i$ 个项目的原始提示词，包含其真实内容和真实位置。
- $P_{\mathrm{content}}$ : 项目的文本内容属性部分。
- $P_{\mathrm{location}}^{i}$ : 第 $i$ 个项目的真实地理位置信息。
- $P_i^{j^-}$ : 第 $i$ 个项目与第 $j$ 个负样本位置组合而成的提示词，内容不变，位置被替换为负样本位置。
- $P_{\mathrm{location}}^{j^-}$ : 从其他项目采样得到的第 $j$ 个负样本的地理位置信息。
- $[ \cdot, \dots, \cdot ]$ : 表示提示词的拼接组合。
LLM 编码与奖励预测： 将上述提示词序列通过 LLM 编码成嵌入 (embeddings) $\mathbf{E} = [ \bar{\mathbf{E}}^i, \mathbf{E}_1^{\bar{i}}, \dots, \mathbf{E}_k^i ]$ $E = [\overset{ˉ}{E}^{i}, E_{1}^{\overset{ˉ}{i}}, \dots, E_{k}^{i}]$ ，其中 $\mathbf{\Delta E}_j^i \in \mathbb{R}^d$ $ΔE_{j}^{i} \in R^{d}$ ， $d$ $d$ 表示嵌入维度。然后，对于每个与提示词不匹配的采样项目，模型将其 LLM 表示 $\mathbf{E}_j^i$ $E_{j}^{i}$ 输入到多层感知机 (MLP) 中，以预测一个奖励分数 $r_{i,j}$ $r_{i, j}$ 。该分数量化了目标项目内容与位置 $j$ $j$ 之间的关系。原始论文中给出的公式为： $r_{i,j} = \mathrm{MLP}(\mathbf{E}_j^i)$ 符号解释：
- $r_{i,j}$ : 第 $i$ 个目标项目和第 $j$ 个样本项目之间的奖励分数，表示其地理相关性。
- $\mathrm{MLP}(\cdot)$ : 多层感知机函数。
- $\mathbf{E}_j^i$ : LLM 对结合了第 $i$ 个项目内容和第 $j$ 个位置的提示词编码得到的嵌入。
基于距离的软标签生成： 根据项目间的距离定义软标签 $p_{i,j}$ $p_{i, j}$ 。给定一个根据与目标项目距离从近到远排序的 $K$ $K$ 个提示词序列候选列表，软标签定义为：原始论文中给出的公式为： $p_{i,j} = K - \mathrm{Rank}(\mathrm{dis}_{i,j}) + 1$ 符号解释：
- $p_{i,j}$ : 第 $i$ 个目标项目和第 $j$ 个样本项目之间的软标签，值越大表示地理相关性越高。
- $K$ : 候选列表中负样本的数量。
- $\mathrm{Rank}(\mathrm{dis}_{i,j})$ : 项目 $i$ 和 $j$ 之间哈弗辛距离 $\mathrm{dis}_{i,j}$ 在排序列表中的排名。距离越近，排名越靠前（数值越小）。
- $\mathrm{dis}_{i,j}$ : 项目 $i$ 和 $j$ 之间的哈弗辛距离。这种基于距离的标签策略鼓励模型优先考虑地理上更接近目标的项目。
奖励模型训练损失： 奖励模型使用加权二元交叉熵损失 (weighted binary cross-entropy loss) 进行训练。原始论文中给出的公式为： $\mathcal{L}_{\mathrm{RM}} = - \frac{1}{N} \sum_{i=1}^{N} \sum_j p_{i,j} \log \sigma(r_{i,j})$ 符号解释：
- $\mathcal{L}_{\mathrm{RM}}$ : 奖励模型的训练损失。
- $N$ : 批次大小 (batch size)。
- $p_{i,j}$ : 第 $i$ 个目标项目和第 $j$ 个样本项目之间的软标签。
- $\sigma(\cdot)$ : Sigmoid 激活函数，将奖励分数 $r_{i,j}$ 映射到 $(0,1)$ 之间。
- $r_{i,j}$ : 预测的奖励分数。

4.2.2. 基于奖励模型的 G-DPO 算法 (G-DPO Algorithm with RM)

在预训练的奖励模型基础上，本文提出了 G-DPO 算法，灵感来源于 Direct Preference Optimization (DPO) （直接偏好优化）。

领域混合采样策略： G-DPO 引入了 domain-mixed sampling strategy （领域混合采样策略） $\mathcal{D}_{\mathrm{mix}} = \mathcal{D}_{\mathrm{dc}} \cup \mathcal{D}_{\mathrm{gc}}$ 。该数据集结合了两种数据类型：domain collaborative pairs （领域协同对）和 geography constrained pairs （地理约束对）。
- 领域协同对 $\mathcal{D}_{\mathrm{dc}}$ ： 利用用户历史行为来增强协同信号感知。用户经常共同互动的项目往往在语义和地理上都具有相似性。共现得分定义为：原始论文中给出的公式为： $s_{i_a, i_b} = \sum_{u=1}^{U} \mathbb{I} \big[ i_a \in H_u \land i_b \in H_u \big]$ 符号解释：
  - $s_{i_a, i_b}$ : 项目 $i_a$ 和 $i_b$ 的共现得分。
  - $U$ : 用户总数。
  - $\mathbb{I}[\cdot]$ : 指示函数，如果条件为真则返回 1，否则返回 0。
  - $H_u$ : 用户 $u$ 的点击历史。保留共现得分 $s_{i_a, i_b} > s_{\mathrm{th}}$ 的项目对 $(i_a, i_b)$ 作为领域协同样本对，其中 $s_{\mathrm{th}}$ 是一个阈值。
- 地理约束对 $\mathcal{D}_{\mathrm{gc}}$ ： 随机从目标项目位置之外采样项目，形成项目对 $(i_a, \bar{i}_r)$ ，以确保在百万级候选池中的多样性和效率。
对齐损失 (Alignment Loss)： G-DPO 使用领域混合样本对 $(i^+, i^-) \in \mathcal{D}_{\mathrm{mix}}$ 将策略模型 $\pi_\theta$ 与参考模型 $\pi_{\mathrm{ref}}$ 对齐。每个项目对由预训练的奖励模型 $\mathcal{R}$ 评分，该模型接收来自策略模型或参考模型的嵌入，并输出一个基于距离的得分。 G-DPO 中的对齐损失为：原始论文中给出的公式为： $\mathcal{L}_{\mathrm{align}} = - \mathbb{E}_{(i^+, i^-)} \log \sigma \Big( \beta \Big( \mathcal{R} \big( \mathbf{E}_{\pi_\theta} (i^+) \big) - \mathcal{R} \big( E_{\pi_\theta} (i^-) \big) - \mathcal{R} \big( \mathbf{E}_{\pi_{\mathrm{ref}}} (i^+) \big) + \mathcal{R} \big( \mathbf{E}_{\pi_{\mathrm{ref}}} (i^-) \big) \Big) \Big)$ 符号解释：
- $\mathcal{L}_{\mathrm{align}}$ : G-DPO 的对齐损失。
- $\mathbb{E}_{(i^+, i^-)}$ : 对领域混合样本对 $(i^+, i^-)$ 求期望。
- $i^+$ : 偏好的项目（例如，地理上更接近的或与用户历史行为更相关的）。
- $i^-$ : 不偏好的项目。
- $\sigma(\cdot)$ : Sigmoid 函数。
- $\beta$ : 控制对齐锐度 (alignment sharpness) 的超参数。
- $\mathcal{R}(\cdot)$ : 预训练的奖励模型。
- $\mathbf{E}_{\pi_\theta}(i)$ : 策略模型 $\pi_\theta$ 对项目 $i$ 编码得到的嵌入。
- $\mathbf{E}_{\pi_{\mathrm{ref}}}(i)$ : 参考模型 $\pi_{\mathrm{ref}}$ 对项目 $i$ 编码得到的嵌入。该损失函数旨在让策略模型 $\pi_\theta$ 生成的嵌入在奖励模型中的得分，使得偏好项目 $i^+$ 的得分高于不偏好项目 $i^-$ 的得分，并且这种偏好差距与参考模型的偏好差距相符。
相似性正则化 (Similarity Regularization)： 为了在 G-DPO 更新过程中保留 LLMs 的语义表示，引入了一个 in-batch contrastive loss （批内对比损失）作为相似性正则化项。原始论文中给出的公式为： $\begin{array}{rl} & \mathcal{L}_{\mathrm{sim}} = \mathbb{E}_{i \in \mathcal{B}} \Big[ \| E_{\pi_\theta} (i) - E_{\pi_{\mathrm{ref}}} (i) \|_2^2 \\ & \qquad - \displaystyle \frac{1}{|\mathcal{B}| - 1} \sum_{j \neq i} \| E_{\pi_\theta} (i) - E_{\pi_{\mathrm{ref}}} (j) \|_2^2 \Big] \end{array}$ 符号解释：
- $\mathcal{L}_{\mathrm{sim}}$ : 相似性正则化损失。
- $\mathbb{E}_{i \in \mathcal{B}}$ : 对批次 $\mathcal{B}$ 中每个实例 $i$ 求期望。
- $\| \cdot \|_2^2$ : 欧几里得距离的平方。
- $E_{\pi_\theta} (i)$ : 策略模型 $\pi_\theta$ 对项目 $i$ 编码得到的嵌入。
- $E_{\pi_{\mathrm{ref}}} (i)$ : 参考模型 $\pi_{\mathrm{ref}}$ 对项目 $i$ 编码得到的嵌入。
- $|\mathcal{B}|$ : 批次 $\mathcal{B}$ 中的项目数量。
- $\sum_{j \neq i}$ : 对批次中所有除 $i$ 之外的项目 $j$ 求和。对于批次 $\mathcal{B}$ 中的每个实例 $i$ ，该损失旨在将其策略模型嵌入 $E_{\pi_\theta}(i)$ 拉近到参考模型嵌入 $E_{\pi_{\mathrm{ref}}}(i)$ ，同时将其推远与其他参考嵌入 $E_{\pi_{\mathrm{ref}}}(j)$ 。这有助于保持 LLM 的语义一致性。
G-DPO 总损失： 将对比损失和 DPO 损失结合起来，并通过权重 $\lambda$ 进行平衡。原始论文中给出的公式为： $\mathcal{L}_{\mathrm{G-DPO}} = \mathcal{L}_{\mathrm{align}} + \lambda \mathcal{L}_{\mathrm{sim}}$ 符号解释：
- $\mathcal{L}_{\mathrm{G-DPO}}$ : G-DPO 算法的总训练损失。
- $\mathcal{L}_{\mathrm{align}}$ : 对齐损失。
- $\lambda$ : 相似性正则化项的权重，控制语义准确性和地理感知之间的平衡。
- $\mathcal{L}_{\mathrm{sim}}$ : 相似性正则化损失。

4.3. 分层地理项目词元化 (Hierarchical Geographic Item Tokenization)

本文在对齐后的 LLM 语义表示之上，引入了 Hierarchical Geographic Item Tokenization （分层地理项目词元化）模块。

4.3.1. 第一层词元 (First Layer Token)

第一层词元化旨在构建一个多维特征，融合不同类型的属性以进行地理感知的词元初始化。为了缓解高维 one-hot encoding （独热编码）的低效率问题，采用了复合嵌入 (composite embeddings) 来处理离散类别特征。

特征向量构建：
- geography-aware codes $f_{\mathrm{geo}}$ ：由经纬度构成。
- administrative codes $f_{\mathrm{admin}}$ ：由省份 ID、城市 ID 和区县 ID 确定的固定比例因子，用于归一化。
- category codes $f_{\mathrm{cat}}$ ：由主类别和次类别确定的固定比例因子。
- brand codes $f_{\mathrm{brand}}$ ：由品牌 ID 确定的固定比例因子。最终的聚类特征向量 $\mathbf{F}$ 通过所有组件的加权拼接构建：原始论文中给出的公式为： $\mathbf{F} = [ w_{\mathrm{admin}} \cdot f_{\mathrm{admin}}, ~ w_{\mathrm{geo}} \cdot f_{\mathrm{geo}}, ~ w_{\mathrm{cat}} \cdot f_{\mathrm{cat}}, ~ w_{\mathrm{brand}} \cdot f_{\mathrm{brand}} ]$ 符号解释：
- $\mathbf{F}$ : 最终的聚类特征向量。
- $w_{\mathrm{admin}}, w_{\mathrm{geo}}, w_{\mathrm{cat}}, w_{\mathrm{brand}}$ : 经验选择的系数，反映了每种特征类型在 $F$ 中相对重要性。
- $f_{\mathrm{admin}}, f_{\mathrm{geo}}, f_{\mathrm{cat}}, f_{\mathrm{brand}}$ : 分别是行政、地理、类别和品牌代码。
- $[ \cdot, \dots, \cdot ]$ : 表示向量的拼接。
第一层地理词元生成： 使用聚类特征向量 $\mathbf{F}$ ，应用 MiniBatch K-Means 算法生成第一层地理词元的词汇表。聚类表示被计算为每个词元组内 LLM 嵌入的平均值，从而产生第一层聚类中心 $\mu^{(1)}$ 。

4.3.2. 残差层 (Residual Layers)

对于残差层（ $l \geq 2$ ），采用可学习的聚类中心和基于欧几里得距离的分配。

聚类中心选择： 输入的残差向量 $\mathbf{R}^{(l-1)}$ $R^{(l - 1)}$ 被分配到最近的聚类中心。原始论文中给出的公式为： $\mathbf{z}^{(l)} = \arg \min_k \| \mathbf{R}^{(l-1)} - {\pmb{\mu}}^{(l)} \|_2^2$ 符号解释：
- $\mathbf{z}^{(l)}$ : 第 $l$ 层的码本索引向量，表示每个残差向量被分配到哪个聚类中心。
- $\mathbf{R}^{(l-1)}$ : 前一层（第 l-1 层）的残差向量。
- ${\pmb{\mu}}^{(l)}$ : 第 $l$ 层的聚类中心（码本）。
- $\arg \min_k$ : 选择使得欧几里得距离最小的聚类中心索引 $k$ 。
- $\| \cdot \|_2^2$ : 欧几里得距离的平方。
量化表示： 根据选择的聚类中心索引，获取对应的量化表示。原始论文中给出的公式为： $\mathbf{Q}^{(l)} = {\pmb{\mu}}^{(l)} [ {\mathbf{z}}^{(l)} ]$ 符号解释：
- $\mathbf{Q}^{(l)}$ : 第 $l$ 层的量化表示，是从码本 ${\pmb{\mu}}^{(l)}$ 中根据索引 ${\mathbf{z}}^{(l)}$ 查找得到的向量。
残差更新： 从前一层的残差中减去当前层的量化表示，得到新的残差，用于下一层。原始论文中给出的公式为： $\mathbf{R}^{(l)} = \mathbf{R}^{(l-1)} - \mathbf{Q}^{(l)}$ 符号解释：
- $\mathbf{R}^{(l)}$ : 第 $l$ 层更新后的残差向量。

4.3.3. 训练目标 (Training Objective)

主要目标是最小化原始嵌入与其量化表示之间的重建损失。

重建损失： 对于输入嵌入 $\mathbf{X}$ $X$ ，应用绝对重建损失：原始论文中给出的公式为： $\mathcal{L}_{\mathrm{recon}} = \| \mathbf{X} - \sum_{l=1}^{L} \mathbf{Q}^{(l)} \|_2^2$ 符号解释：
- $\mathcal{L}_{\mathrm{recon}}$ : 重建损失。
- $\mathbf{X}$ : 原始输入嵌入（来自对齐后的 LLM）。
- $L$ : 总的层数。
- $\mathbf{Q}^{(l)}$ : 第 $l$ 层的量化表示。
- $\sum_{l=1}^{L} \mathbf{Q}^{(l)}$ : 所有层量化表示的总和，即重构后的嵌入。
熵正则化 (Entropy-based Regularization)： 为了促进学习到的聚类的均衡使用并防止聚类坍塌 (cluster collapse)，引入了基于熵的正则化项。对于每一层 $l$ $l$ ，聚类使用分布计算为：原始论文中给出的公式为： $p_k^{(l)} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I} [ \mathbf{z}_i^{(l)} = k ]$ 符号解释：
- $p_k^{(l)}$ : 第 $l$ 层中第 $k$ 个聚类被使用的频率。
- $N$ : 样本总数。
- $\mathbb{I} [ \cdot ]$ : 指示函数，如果条件为真则返回 1，否则返回 0。
- $\mathbf{z}_i^{(l)}$ : 第 $i$ 个样本在第 $l$ 层被分配到的聚类索引。正则化损失通过 KL divergence （KL散度）鼓励均匀的聚类使用：原始论文中给出的公式为： $\mathcal{L}_{\mathrm{reg}}^{(l)} = \mathrm{KL} \left( p^{(l)} \| \mathbf{u} \right) = \sum_{k=1}^{K_l} p_k^{(l)} \log \frac{p_k^{(l)}}{1 / K_l}$ 符号解释：
- $\mathcal{L}_{\mathrm{reg}}^{(l)}$ : 第 $l$ 层的正则化损失。
- $\mathrm{KL}(\cdot \| \cdot)$ : KL 散度函数。
- $p^{(l)}$ : 第 $l$ 层的聚类使用分布向量。
- $\mathbf{u}$ : 均匀分布向量，每个元素的概率为 $1/K_l$ 。
- $K_l$ : 第 $l$ 层的聚类数量。
完整训练目标： 完整的训练目标结合了重建损失和聚类使用正则化。原始论文中给出的公式为： $\mathcal{L}_{\mathrm{HGIT}} = \mathcal{L}_{\mathrm{recon}} + \lambda_{\mathrm{reg}} \sum_{l=2}^{L} \mathcal{L}_{\mathrm{reg}}^{(l)}$ 符号解释：
- $\mathcal{L}_{\mathrm{HGIT}}$ : 分层地理项目词元化的总训练损失。
- $\lambda_{\mathrm{reg}}$ : 正则化强度系数。
- 注意：正则化只应用于可学习的层 ( $l \geq 2$ )，因为第一层使用预计算的地理聚类。

5. 实验设置

5.1. 数据集

实验在来自快手 App 本地生活场景的真实工业数据集上进行。

以下是原文 Table 4 的统计数据：

Kuaishou Industry Datasets
# Samples	50,000,000	# Users	19,080,888
# Items	2,325,266	# Brands	19,408
# Categories	818

数据集特点：

包含项目的地理信息和文本信息。
规模庞大，包含 50,000,000 个样本、19,080,888 个用户和 2,325,266 个项目。
作者指出，满足送货距离限制并包含详细项目文本和地理位置信息的公开数据集稀缺，因此在本次研究中只使用了工业数据集。未来计划发布该数据集以支持 LBS-like （基于位置服务）推荐场景的研究。

5.2. 评估指标

根据任务类型，采用了不同的评估指标：

5.2.1. 判别式推荐 (Discriminative Recommendation)

数据预处理： 所有正样本被保留，负样本以下采样比例 1:4 进行处理。
评估指标： AUC (Area Under the Receiver Operating Characteristic Curve) （受试者工作特征曲线下面积）。
1. 概念定义： AUC 用于衡量二分类模型性能的指标。它表示随机选择一个正样本和一个负样本时，模型将正样本排在负样本之前的概率。AUC 值越高，模型的分类性能越好。在推荐系统中，它衡量模型区分用户喜欢和不喜欢项目的能力。
2. 数学公式： AUC 的计算通常基于 ROC 曲线，其数学定义是 ROC 曲线下方的面积。ROC 曲线是通过将分类器的判别阈值从高到低移动，绘制 True Positive Rate (TPR) （真阳性率）与 False Positive Rate (FPR) （假阳性率）之间的关系图。 $\mathrm{AUC} = \int_0^1 \mathrm{TPR}(\mathrm{FPR}^{-1}(x)) dx$
3. 符号解释：
  - $\mathrm{TPR}$ : 真阳性率，表示正确预测为正例的比例，即 $\mathrm{TPR} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN}}$ 。
  - $\mathrm{FPR}$ : 假阳性率，表示错误预测为正例的比例，即 $\mathrm{FPR} = \frac{\mathrm{FP}}{\mathrm{FP} + \mathrm{TN}}$ 。
  - $\mathrm{TP}$ : 真阳性 (True Positive)，实际为正例且预测为正例。
  - $\mathrm{FN}$ : 假阴性 (False Negative)，实际为正例但预测为负例。
  - $\mathrm{FP}$ : 假阳性 (False Positive)，实际为负例但预测为正例。
  - $\mathrm{TN}$ : 真阴性 (True Negative)，实际为负例且预测为负例。

5.2.2. 生成式推荐 (Generative Recommendation)

数据预处理： 保持下采样结果，并遵循 leave-one-out （留一法）分割策略：最后一个项目用于测试，倒数第二个项目用于验证，其余用于训练。
评估指标： NDCG@K (Normalized Discounted Cumulative Gain at K) （K值归一化折损累积增益）和 Hit@K (Hit Rate at K) （K值命中率）。
1. NDCG@K
  - 概念定义： NDCG@K 是衡量推荐系统排序质量的指标，尤其关注推荐列表顶部的相关性。它考虑了项目在列表中的位置（位置越靠前，权重越大）以及项目的相关性得分。NDCG 值越高，说明推荐列表的排序越好。
  - 数学公式： 首先计算 DCG@K (Discounted Cumulative Gain at K)： $\mathrm{DCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)}$ 然后计算 IDCG@K (Ideal Discounted Cumulative Gain at K)，即理想排序下的 DCG@K： $\mathrm{IDCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_{i_{ideal}}} - 1}{\log_2(i+1)}$ 最后计算 NDCG@K： $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$
  - 符号解释：
    - $K$ : 推荐列表的长度。
    - $\mathrm{rel}_i$ : 推荐列表中第 $i$ 个项目的相关性得分（通常为 0 或 1，如果相关则为 1，不相关则为 0；也可以是多级相关性得分）。
    - $\mathrm{rel}_{i_{ideal}}$ : 理想排序（即相关性最高的项目排在最前面）中第 $i$ 个项目的相关性得分。
    - $\log_2(i+1)$ : 折扣因子，随着项目位置 $i$ 的增加，折扣因子也增加，使得靠后位置的项目对总分数贡献减少。
2. Hit@K
  - 概念定义： Hit@K 衡量在推荐列表的前 $K$ 个项目中，目标项目是否被命中。如果目标项目出现在前 $K$ 个推荐中，则记为一次命中。它是一个简单的二元指标，不考虑项目在列表中的具体位置。
  - 数学公式： $\mathrm{Hit@K} = \frac{\text{Number of users for whom the target item is in the top K recommendations}}{\text{Total number of users}}$ 或者，对于单个用户： $\mathrm{Hit@K} = \mathbb{I}(\text{target item is in top K recommendations})$
  - 符号解释：
    - $K$ : 推荐列表的长度。
    - $\mathbb{I}(\cdot)$ : 指示函数，如果条件为真则返回 1，否则返回 0。

5.3. 对比基线

本文将 LGSID 与以下代表性基线模型进行了比较：

5.3.1. 判别式推荐模型 (Discriminative Recommendation Models)

这些模型专注于学习有效的用户-项目交互表示，并在工业应用中广泛采用。

DIN (Deep Interest Network) (Zhou et al. 2018)：一个深度兴趣网络，通过注意力机制捕捉用户多样化的兴趣。
DIEN (Deep Interest Evolution Network) (Zhou et al. 2019)：在 DIN 的基础上，进一步引入兴趣演化网络，建模用户兴趣的动态变化。
ETA (End-to-end user behavior retrieval in click-through rate prediction model) (Chen et al. 2021)：一个端到端的用户行为检索模型，用于点击率预测。
SIM (Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction) (Pi et al. 2020)：一个基于搜索的用户兴趣建模模型，利用终身序列行为数据进行点击率预测。
TWIN (Twin v2: Scaling ultra-long user behavior sequence modeling for enhanced ctr prediction at kuaishou) (Si et al. 2024)：一个用于快手点击率预测的超长用户行为序列建模模型。

5.3.2. 生成式推荐模型 (Generative Recommendation Models)

这些模型旨在生成下一个可能被用户喜欢的项目。

TIGER (Recommender systems with generative retrieval) (Rajput et al. 2023)：一个带有生成式检索的推荐系统。
OneRec (Unifying retrieve and rank with generative recommender and iterative preference alignment) (Deng et al. 2025)：一个通过生成式推荐器和迭代偏好对齐统一检索和排序的模型。

5.4. 微调设置 (Finetune Settings)

骨干模型 (Backbone)： 使用 BGE (Xiao et al. 2023) 作为骨干模型，这是一个最先进的多语言文本理解模型，适用于工业推荐场景，无需复杂指令。
提示词长度和嵌入大小： 提示词长度设置为 512 词元 (tokens)，嵌入大小设置为 1024。使用最后一个词元 (token) 的隐藏状态来表示整个文本。
G-DPO 算法：
- 每个正样本与 15 个负样本配对，以构建奖励模型的列表式输入。
- 奖励模型由一个带有 Sigmoid 激活函数的两层 MLP 组成。
- LLM 微调采用 LoRA (Low-rank adaptation of large language models) (Hu et al. 2022)，秩 (rank) 为 8， dropout 率为 0.05，仅微调键 (key) 和值 (value) 层以保留语义理解。
- DPO 损失中， $\beta = 0.9$ 。
- 相似性约束使用欧几里得距离，权重 $\lambda = 155$ ，并采用批内对比学习 (in-batch contrastive learning)。
- 领域混合 DPO 偏好对的构建：使用共现得分阈值 1200 过滤样本，并为每个样本随机选择一个负项目来构建训练对。

5.5. 参数设置 (Parameters Settings)

批次大小 (Batch Size)： 10,240。
嵌入维度 (Embedding Dimension)： 每个特征的嵌入维度设置为 8。
预测 MLP 塔维度： 配置为 [32, 16, 1]。
优化器 (Optimizer)： AdamW。
学习率 (Learning Rate)： 0.1。
学习率调度器 (Scheduler)： steplr，每 500 步将学习率衰减 0.9 倍。
硬件： 所有实验在两块 GPU 上进行，每块配备 48GB 内存。
训练流程： 首先训练奖励模型，然后使用 G-DPO 算法执行 LLM 对齐，最后训练量化模型。

6. 实验结果与分析

6.1. 整体性能 (RQ1)

本节评估 LGSID 在最先进的判别式和生成式模型上改进现有词元化方法的性能。

6.1.1. 判别式推荐结果

以下是原文 Table 1 的结果，展示了在快手本地生活数据集上，当 DIN、DIEN、ETA、SIM 和 TWIN 等模型结合不同项目词元化方案时的 AUC 离线性能。

Method	DIN	DIEN	SIM	TWIN	ETA
Origin	0.5859	0.6255	0.5884	0.5898	0.5903
+ Res-KMeans (Luo et al. 2024)	0.6100↑+0.0241	0.6369↑+0.0114	0.6063↑+0.0179	0.6087↑+0.0189	0.6077↑+0.0174
+ RQ-VAE (Rajput et al. 2023)	0.6185↑+0.0326	0.6364↑+0.0109	0.6111↑+0.0227	0.6153↑+0.0255	0.6153↑+0.0250
+ Lin et al. (Lin et al. 2025)	0.6161↑+0.0302	0.6368↑+0.0113	0.6107↑+0.0223	0.6148↑+0.0250	0.6148↑+0.0245
+ RQ-VAE-ngram (Zheng et al. 2025b)	0.6163↑+0.0304	0.6354↑+0.0099	0.6116↑+0.0232	0.6129↑+0.0231	0.6145↑+0.0242
+ LGSID (Ours)	0.6276↑+0.0417	0.6484↑+0.0229	0.6224↑+0.0340	0.6263↑+0.0365	0.6274↑+0.0371

分析：

LGSID 在所有判别式模型上都取得了最大的绝对增益，表明其显著优于现有的项目词元化方案。
对于基于注意力机制的模型（如 DIN、DIEN 和 SIM），传统的扁平项目 ID 限制了空间接近性对注意力分数的影响粒度。LGSID 通过 G-DPO 阶段注入对齐的 LLM 空间知识，使每个 ID 成为一个地理感知嵌入，编码真实世界的空间距离和邻里共访模式，从而带来了显著提升。
对于 TWIN 和 ETA 等对延迟有严格要求的模型，紧凑而信息丰富的代码至关重要。LGSID 的分层量化首先将地理文本属性压缩为粗粒度的主词元，然后通过地理上下文逐步细化残差，从而在不增加嵌入表大小的情况下提供了更丰富的表示。这使得 TWIN 提升了 $3.65\%$ ，ETA 提升了 $3.71\%$ 。

6.1.2. 生成式推荐结果

以下是原文 Table 2 的结果，展示了 TIGER 和 OneRec 两种生成式推荐模型在不同量化方法下的性能对比。

Method	TIGER				OneRec
Method	Hit@5	Hit@10	NDCG@5	NDCG@10	Hit@5	Hit@10	NDCG@5	NDCG@10
RQ-VAE (Rajput et al. 2023)	0.3087	0.3880	0.2255	0.2512	0.3739	0.4534	0.2798	0.3056
Lin et al. (Lin et al. 2025)	0.1767	0.2067	0.1335	0.1432	0.2950	0.3346	0.2272	0.2401
RQ-VAE-ngram (Zheng et al. 2025b)	0.2991	0.3769	0.2158	0.2411	0.3626	0.4358	0.2720	0.2957
LGSID (Ours)	0.3921	0.5077	0.2817	0.3191	0.4435	0.5537	0.3304	0.3661
IMP	27.01%	30.83%	24.94%	27.05%	18.63%	22.13%	18.09%	19.79%

分析：

$Lin et al. (Lin et al. 2025)$ 的性能最差，可能因为其在不同层级的码字中使用了不同的距离函数，导致收敛困难和模型优化挑战。
RQ-VAE (Rajput et al. 2023) 和 RQ-VAE-ngram (Zheng et al. 2025b) 在 TIGER 和 OneRec 上表现相似。然而，这些量化方法没有考虑地理约束，导致在本地生活推荐场景中性能不佳。
LGSID 引入了 RL-based Alignment （基于强化学习的对齐）来生成地理感知表示，并通过分层地理项目词元化将这些表示转换为语义 ID，在 TIGER 和 OneRec 上均取得了显著的性能提升。例如，在 TIGER 上，Hit@5 提升了 $27.01\%$ ，NDCG@5 提升了 $24.94\%$ 。在 OneRec 上，Hit@5 提升了 $18.63\%$ ，NDCG@5 提升了 $18.09\%$ 。这表明 LGSID 在生成式推荐任务中也表现出色。

6.2. 基于RL的LLM对齐分析 (RQ2)

该实验通过衡量微调前后模型的改进来验证 RL-based LLM Alignment 的有效性。定义了两个指标：

语义相似度： 通过检索到的项目的语义相似度来衡量。

地理感知度： 通过检索到的项目与目标项目共享相同省份、城市和城镇的覆盖率来衡量。

以下是原文 Table 3 的结果，展示了 G-DPO 不同变体的详细评估，包括相似度以及省份、城市和城镇覆盖率指标， $K$ 值设置为 $\{5, 10, 100\}$ 。

Method	Similarity			Province Coverage (P@K)			City Coverage (C@K)			Town Coverage (T@K)
	Top@5	Top@10	Top@100	P@5	P@10	P@100	C@5	C@10	C@100	T@5	T@10	T@100
Origin	0.9204	0.9133	0.8833	0.8716	0.8410	0.6681	0.7342	0.6827	0.4372	0.1601	0.1328	0.0552
DPO-PR	0.71	0.8679	0.8286	0.9001	0.8752	0.747	0.7478	0.713	0.5064	0.1452	0.1167	0.0445
DPO-LR	0.7595	0.7478	0.7088	0.8995	0.8648	0.6560	0.8681	0.8254	0.5783	0.5584	0.4966	0.2480
DPO-LRD	0.7411	0.7288	0.6876	0.8715	0.8302	0.6012	0.8277	0.7755	0.5043	0.6114	0.5435	0.2620
DPO-LRDM	0.8107	0.7954	0.7401	0.9047	0.8773	0.7261	0.7812	0.7329	0.5218	0.1816	0.1481	0.0625
DPO-LRDMS	0.8856	0.8754	0.8283	0.9960	0.9936	0.9662	0.9548	0.9352	0.8130	0.4030	0.3525	0.2260
G-DPO (Ours)	0.8977	0.8892	0.8504	0.9905	0.9852	0.9307	0.9173	0.8858	0.7065	0.294	0.2432	0.1290
IMP	-2.47%	-2.64%	-3.72%	+13.64%	+17.15%	+39.31%	+24.94%	+29.75%	+61.60%	+83.64%	+83.13%	+133.70%

变体说明：

Origin：原始 LLM，未进行任何对齐。
DPO-PR：DPO 结合 pairwise reward （成对奖励），即最简单的奖励模型。
DPO-LR：DPO 结合 list-wise reward （列表式奖励）。
DPO-LRD：DPO 结合 list-wise reward + density-aware sampling （密度感知采样）。
DPO-LRDM：DPO 结合 list-wise reward + density-aware sampling + domain mixed preference pairs （领域混合偏好对）。
DPO-LRDMS：DPO 结合 list-wise reward + density-aware sampling + domain mixed preference pairs + similarity regularization （相似性正则化）。
G-DPO (Ours)：本文提出的完整 G-DPO 算法，等同于 DPO-LRDMS 的最佳配置。

分析结论：

纯语义理解不足以应对地理感知： 原始 LLM 在语义相似度（Top@5 0.9204）方面表现良好，但在城镇覆盖率（T@5 0.1601）方面非常低。这表明文本相似性能够捕获词语，但无法捕捉真实的地理距离。
奖励模型有效传递地理知识： 列表式奖励模型（DPO-LR）显著提升了地理感知度，例如城镇覆盖率 T@5 从 0.1601 提高到 0.5584。这表明奖励模型有效地将地理知识压缩并传递给了 LLM。
密度感知列表式建模增强近距离敏感性： 结合密度感知列表式建模（DPO-LRD）进一步提升了 T@5 到 0.6114，增强了模型对近距离的敏感性。但代价是语义理解略有下降。
混合采样缓解语义-地理权衡： 引入领域混合采样（DPO-LRDM）通过改善样本区分并整合协同信号，缓解了语义理解和地理感知之间的权衡。
语义正则化达到最佳平衡： 仅强调地理感知并不能保证下游性能更优。因此，引入文本相似性正则化（DPO-LRDMS，即 G-DPO）来保持语义，同时实现了最优结果。G-DPO 在保持较高语义相似度（Top@5 0.8977）的同时，大幅提升了省份、城市和城镇的覆盖率，相对原始模型在城镇覆盖率 T@5 上提升了 $83.64\%$ 。

6.3. 可视化分析 (RQ3)

本节通过可视化分析项目表示和量化 ID 如何反映真实世界地理接近性。

6.3.1. T-SNE 可视化

下图（原文 Figure 3）展示了不同词元化方法下，围绕聚类中心的项目 T-SNE 可视化。

Figure 3: T-SNE visualization of items around cluster centroids across tokenization methods.

分析：

经过 RL-based Geographic LLM Alignment （基于强化学习的地理LLM对齐）后，省份、城市和区县的聚类中心显著更接近。
NMI (Normalized Mutual Information) （归一化互信息）定量衡量了模型发现的聚类分区与真实地理标签之间的一致性，其值从 0.0137-0.0845 跃升到 0.6430-0.8644。
这种改进的关键在于 G-DPO 首先利用距离感知的列表式奖励将真实世界的空间关系注入到 LLM 中，从而使其词元嵌入带有内在的地理先验知识。

6.3.2. 词元分位数百分比

下图（原文 Figure 4）展示了本地生活项目在不同层级下词元分位数百分比的雷达图。较大的面积表示在整个分布范围内具有优越的覆盖性能，较高的分位数表示词元可以代表更多的实例。

Figure 4: Token quantile percentiles across hierarchical levels for local-life items.

分析：

Level-1 (第一层)： LGSID 方法在对齐和未对齐设置之间表现出显著的一致性，观察到相同的覆盖模式。在 $90\%$ 分位数，LGSID 保持了 11k 的覆盖率，而 RQ-VAE 衰减到 8k。
Level-2 和 Level-3 (更细粒度层)： 随着粒度变得更细（Level-2 和 Level-3），LGSID 的优势变得更加明显。在雷达图中，其面积是所有方法中最大的。
这表明 LGSID 的分层量化策略，特别是其 RL-based alignment 模块，能够有效地为不同粒度的地理信息提供稳定和全面的覆盖。

6.4. 案例研究 (RQ4)

本节通过案例研究，对比了 LGSID 相较于其他 SID 方法的地理感知优势。

下图（原文 Figure 5）展示了 LGSID 分层量化器在有无 RL-based G-DPO alignment 情况下，三层离散词元（SID 前缀）的分配情况。

Figure 5: Hierarchical categoryfrequenc distribution of LGSID for different SID prefixes (Aligned vs Unalned)

分析：

由于第一层使用了预计算的地理聚类，因此 Figure 5(a)（对齐）和 Figure 5(d)（未对齐）中类别的分布是相似的。
对齐后 (Figure 5(b))： RL-based alignment 后，第一层词元 $[350, 93, *]$ 将整个 BBQ & Grilled （烧烤）分支清晰地归为一类粗粒度标识符。这表明对齐后的 LLM 嵌入能够更好地捕捉地理上的邻近关系和类别聚合。
未对齐时 (Figure 5(e))： 相同层级未对齐时，相同的餐厅却分散在 $[199, 20, *]$ 、 $[443, 20, *]$ 和 $[350, 17, *]$ 等不同的词元中。这是因为 LLM 嵌入在未经过 G-DPO 后训练以尊重距离感知奖励时，无法有效聚合这些地理上相关的项目。
结论： 未对齐的 Level-1 词元失去了类别凝聚力；分层量化器无法再依赖共享的根来细化后续层级的子类别。这突出强调了上游 LLMs 及其嵌入质量的重要性。G-DPO 有效地引导 LLM 嵌入在地理空间上形成有意义的聚类，为后续的分层词元化提供了坚实的基础。

以下是原文附录 C 中的一些可视化分析，进一步支持了 LGSID 的有效性：下图（原文 Figure 7）展示了 Res-KMeans 分层量化器在有无 G-DPO 对齐下，Level-1、Level-2 和 Level-3 词元分配情况。

该图像是图表，展示了不同级别 Res-KMeans 算法下各类美食的推荐结果。通过对比不同水平（Level 1、Level 2、Level 3）及未对齐版本，可以观察到每种美食类别的推荐分布和频率变化，为理解推荐系统效果提供了直观参考。

分析：

预计算的地理聚类仍然主导这一层，因此总体菜系分布（如本地菜、特色菜、海鲜等）与未对齐版本在视觉上相似。
关键在于，对齐后的词元 $[269, *, *]$ 统一了整个本地菜系分支，而 $[461, *, *]$ 则清晰地聚集了特色菜系，为 Level-2 提供了一个单一、连贯的根，从中可以细化子类别。这说明距离感知奖励保留了类别凝聚力。

下图（原文 Figure 8）展示了 RQ-VAE 分层量化器在有无 G-DPO 对齐下，不同 SD 前缀的层次类别频率分布。

分析：
与 Res-KMeans 类似，RQ-VAE 在 G-DPO 对齐后，Level-1 词元 $[162, *, *]$ 清晰地捕获了整个本地菜系区域，而 $[31, *, *]$ 则用于特色菜系，这使得量化器能够将一个同质的根传递给下一层。这种凝聚力是基于 RL 的奖励直接结果，鼓励距离感知的分组。

下图（原文 Figure 9）展示了 Lin et al. 分层量化器在有无 G-DPO 对齐下，Level-1、Level-2 和 Level-3 词元分配情况。

分析：
尽管依赖相同的粗粒度聚类，对齐系统将 $[449, *, *]$ 分配给整个本地菜系区域，将 $[412, *, *]$ 分配给日本菜系，消除了未对齐情况下的分散。这种单一根的分配证明 G-DPO 引导 LLM 尊重基于距离的奖励，确保下游层接收到明确的父词元。

下图（原文 Figure 10）展示了 RQ-VAE-ngram 变体在 G-DPO 对齐下，Level-1 词元分配情况。

分析：
与之前的对齐结果类似，本地菜系由 $[162, *, *]$ 捕获，特色菜系由 $[31, *, *]$ 捕获，其他菜系也保持紧密分组。没有碎片化表明，一旦对齐，ngram-aware 嵌入仍然遵循地理凝聚力，为量化器的更深层提供了稳定的基础。

6.5. 鲁棒性分析 (Robustness Analysis)

以下是原文 Table 5 的结果，比较了原始基线和 $+LGSID$ 在五个骨干模型上的性能。报告了平均 AUC（6 个随机种子）及其 95% 置信区间 (CI) 和中位数 (IQR)。* 表示 $+LGSID$ 显著优于相应的原始基线（Wilcoxon 符号秩检验， $p < 0.05$ ）。

	mean±SD		95% CI	median (IQR)
	origin	+LGSID	+LGSID	+LGSID
DIN	0.5859	0.6259±.0013*	[0.6248, 0.6269]	0.6261(0.0020)
DIEN	0.6255	0.6482±.0019*	[0.6462, 0.6502]	0.6483(0.0022)
SIM	0.5884	0.6259±.0022*	[0.6236, 0.6282]	0.6269(0.0035)
TWIN	0.5898	0.6272±.0022*	[0.6250, 0.6295]	0.6276(0.0030)
ETA	0.5903	0.6272±.0010*	[0.6261, 0.6283]	0.6274(0.0011)

分析：

性能提升： 所有骨干模型在 $+LGSID$ 后都显示出显著的 AUC 提升。例如，DIN 从 0.5859 上升到 0.6259，绝对增益为 0.0400，相对提升 $6.8\%$ 。
稳定性：
- 标准差 (SD) 保持在较小范围（0.0010 到 0.0022），表明 $+LGSID$ 在不同随机种子下具有高度稳定性。
- 95% 置信区间 (CI) 宽度较窄（最大不超过 0.005），进一步证实了结果的可靠性。
- 中位数和均值几乎完全一致，且四分位距 (IQR) 较小，表明数据分布紧凑，对极端种子不敏感。
统计显著性： Wilcoxon 符号秩检验（所有 $p=0.031 < 0.05$ ）一致确认 $+LGSID$ 相较于原始基线具有统计学上的显著优势。
总结： 实验结果有力地证明 LGSID 不仅普遍提升了性能，而且赋予了每个骨干模型对抗随机种子的稳定性，显示出卓越的鲁棒性。

6.6. 参数敏感性分析 (Parameters Sensitivity)

以下是原文 Table 6 的结果，详细评估了 G-DPO 中不同相似性约束权重 $\lambda$ 对相似度和地理覆盖率指标（在 Top@K 层级）的影响。

Similarity
λ	Top@5	Top@10	Top@100
1.0	0.8856	0.8754	0.8283
1.5	0.8920	0.8828	0.8395
1.8	0.8977	0.8892	0.8504
Province Coverage (P@K)
λ	P@5	P@10	P@100
1.0	0.9960	0.9936	0.9662
1.5	0.9943	0.9908	0.9556
1.8	0.9905	0.9852	0.9347
City Coverage (C@K)
λ	C@5	C@10	C@100
1.0	0.9548	0.9352	0.8130
1.5	0.9408	0.9152	0.7673
1.8	0.9173	0.8858	0.7065
Town Coverage (T@K)
λ	T@5	T@10	T@100
1.0	0.4030	0.3525	0.2260
1.5	0.3431	0.2910	0.1688
1.8	0.2924	0.2432	0.1290

分析：

语义理解与地理感知之间的权衡： 调整相似性约束权重 $\lambda$ $λ$ 可以在语义理解和地理感知之间进行有效权衡。
- $\lambda$ 越大，语义相似度越高： 随着 $\lambda$ 从 1.0 增加到 1.8，相似度指标（Top@5, Top@10, Top@100）持续上升，例如 Top@5 从 0.8856 增加到 0.8977。这表明较高的 $\lambda$ 值促使 LLM 更多地关注保持原始的文本语义特征。
- $\lambda$ 越大，地理覆盖率越低： 与此同时，地理覆盖率指标（Province Coverage、City Coverage、Town Coverage）则普遍下降。例如，Town Coverage T@5 从 0.4030 降至 0.2924。这说明当模型更强调语义时，对细粒度地理信息的关注度会有所降低。
结论： 这种现象验证了方法的通用性，即通过调整 textual similarity weight $\lambda$ ，可以灵活控制 LLM 在内容理解和空间感知之间的平衡，从而实现针对特定任务的适应性调整。

7. 总结与思考

7.1. 结论总结

本文提出了 LGSID，一个针对本地生活推荐的 LLM-Aligned Geographic Item Tokenization 框架。该框架旨在为语义 ID 赋予真实世界的空间感知能力，克服了现有 LLM-driven 推荐方法在处理细粒度地理特征和距离感知方面的不足。LGSID 的核心在于其两阶段方法：

基于强化学习的地理 LLM 对齐： 通过训练一个 density-aware negative sampling （密度感知负采样）的列表式奖励模型来捕捉相对空间距离，并引入新颖的 G-DPO 算法，将地理知识和协同信号注入到 LLM 中，同时保持其语义理解。
分层地理项目词元化： 生成一系列空间感知的离散词元，首先基于空间和内容属性生成主词元，然后利用对齐后的 LLM 的地理表示向量细化残差词元，实现了高效的压缩和重建。在真实快手工业数据集上进行的大量实验表明，LGSID 在判别式和生成式推荐模型上均显著优于最先进的基线模型，并在不同粒度上展示了更高的地理感知能力。消融研究、可视化和参数敏感性分析进一步验证了其有效性和鲁棒性。

7.2. 局限性与未来工作

论文中明确提到了一项关于数据集的局限性：

数据集可用性： 目前用于本研究的数据集是快手的真实工业数据集，作者指出“满足送货距离限制并包含详细项目文本和地理位置信息的公开数据集稀缺”。

针对这项局限性，作者提出了未来工作方向：
发布数据集： 计划在未来发布所使用的工业数据集，以支持 LBS-like （基于位置服务）推荐场景的算法研究。

除了作者提及的，我们还可以思考一些潜在的局限性：
地理概念的复杂性： 论文主要关注经纬度距离和行政区划，但真实的地理概念可能更复杂，例如交通路况、区域人流密度、不同区域的文化偏好等。目前的地理特征可能未能完全捕捉这些细微之处。
计算资源消耗： LLM alignment 和 RL-based training 通常需要大量的计算资源和时间。对于资源有限的机构或个人，部署和维护这样的系统可能是一个挑战。
泛化能力： 虽然在快手工业数据集上表现良好，但其在不同文化背景、不同城市规模或不同本地生活服务类型（例如，旅游景点推荐与餐饮推荐）上的泛化能力，可能需要进一步验证。
用户隐私： 涉及到用户的地理位置和行为数据，隐私保护是一个重要考量。虽然论文没有深入探讨，但在实际应用中需要严格遵守相关法规。
模型可解释性： LLM 模型的内在工作机制本身就具有一定的黑箱性质，再加上强化学习和分层量化，可能进一步增加了模型决策的可解释性难度，这在推荐系统中对于信任和调试可能是一个挑战。

7.3. 个人启发与批判

启发：
- 领域知识与 LLM 的深度融合： 本文最主要的启发在于，并非简单地将领域信息作为 LLM 的输入，而是通过 RL-based alignment 这种更复杂、更精巧的机制，将领域特定的“偏好”和“约束”内化到 LLM 的表示中。这提示我们，在特定领域应用 LLM 时，可能需要更深层次的对齐策略，而不仅仅是提示词工程。
- 奖励模型的设计： 列表式奖励模型和密度感知负采样在捕获复杂空间关系方面的设计非常巧妙，为其他具有复杂结构化偏好（例如，时间、社交关系）的推荐任务提供了借鉴。
- 分层词元化： Hierarchical Geographic Item Tokenization 结合离散属性和连续表示的优势，既保留了语义丰富性，又实现了高效压缩和地理结构化。这种思想可以推广到其他需要多粒度表示的任务。
- 平衡语义与特定领域知识： G-DPO 中引入的相似性正则化项是关键。它强调了在对齐 LLM 时，既要注入新知识，又要防止其“遗忘”原有强大语义理解能力的必要性，这对于保持模型的通用性和泛化能力至关重要。
批判：
- 奖励函数的复杂性： 奖励模型的构建依赖于哈弗辛距离和共现得分，虽然有效，但这种奖励函数可能仍然过于简化了人类对本地生活服务的复杂偏好。例如，人们可能愿意为某个特色餐厅走更远的路，或者在某些情况下，近距离但口碑不佳的餐厅仍不被偏好。未来的工作可以探索更复杂、更个性化的奖励函数。
- 计算成本和效率： 尽管 LoRA 被用于微调以减少参数量，但 LLM 本身的推理成本仍然较高。在工业级实时推荐场景中，如何进一步优化推理效率，尤其是在处理超长用户序列时，仍是一个挑战。
- “城市”与“城镇”的定义：论文中的地理覆盖率指标区分了省份、城市、城镇。然而，在一些特大城市中，“城镇”的概念可能非常模糊，而“商圈”、“社区”等概念可能更具实际意义。这些细粒度地理概念的定义和建模精度值得进一步探讨。
- 静态地理特征： 论文中的地理特征主要是静态的经纬度和行政区划。在动态的本地生活场景中，交通拥堵、天气、特定时段的活动等动态地理因素也可能对用户决策产生重要影响。当前模型可能未完全捕捉这些动态信息。
- 冷启动问题： 对于新用户或新商家，由于缺乏历史交互数据，G-DPO 中的协同信号和奖励模型训练可能面临冷启动问题。如何在这种情况下有效利用 LLM 的泛化能力和地理感知，是一个重要的实际问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。