论文状态：已完成

HiD-VAE: Interpretable Generative Recommendation via Hierarchical and Disentangled Semantic IDs

发表：2025/08/07

原文链接 PDF 下载

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

推荐系统在现代在线平台中不可或缺。本文提出的HiD-VAE框架通过分层解缠结物品表示，利用分层监督量化和唯一性损失机制，解决传统生成式推荐方法的扁平性和表示纠缠问题，从而提高推荐的准确性和多样性。

摘要

Recommender systems are indispensable for helping users navigate the immense item catalogs of modern online platforms. Recently, generative recommendation has emerged as a promising paradigm, unifying the conventional retrieve-and-rank pipeline into an end-to-end model capable of dynamic generation. However, existing generative methods are fundamentally constrained by their unsupervised tokenization, which generates semantic IDs suffering from two critical flaws: (1) they are semantically flat and uninterpretable, lacking a coherent hierarchy, and (2) they are prone to representation entanglement (i.e., ``ID collisions''), which harms recommendation accuracy and diversity. To overcome these limitations, we propose HiD-VAE, a novel framework that learns hierarchically disentangled item representations through two core innovations. First, HiD-VAE pioneers a hierarchically-supervised quantization process that aligns discrete codes with multi-level item tags, yielding more uniform and disentangled IDs. Crucially, the trained codebooks can predict hierarchical tags, providing a traceable and interpretable semantic path for each recommendation. Second, to combat representation entanglement, HiD-VAE incorporates a novel uniqueness loss that directly penalizes latent space overlap. This mechanism not only resolves the critical ID collision problem but also promotes recommendation diversity by ensuring a more comprehensive utilization of the item representation space. These high-quality, disentangled IDs provide a powerful foundation for downstream generative models. Extensive experiments on three public benchmarks validate HiD-VAE's superior performance against state-of-the-art methods. The code is available at https://anonymous.4open.science/r/HiD-VAE-84B2.

思维导图

论文精读

中文精读约 46 分钟读完 · 29,293 字

1. 论文基本信息

1.1. 标题

HiD-VAE: 通过分层和解缠结语义 ID 实现可解释的生成式推荐 (HiD-VAE: Interpretable Generative Recommendation via Hierarchical and Disentangled Semantic IDs)

1.2. 作者

Dengzhao Fang (Jilin University, Changchun, China)
Jingtong Gao (City University of Hong Kong, Hong Kong, China)
Chengcheng Zhu (Nanjing University, Nanjing, China)
Yu Li (Jilin University, Changchun, China)
Xiangyu Zhao (City University of Hong Kong, Hong Kong, China)
Yi Chang (Jilin University, Changchun, China)

1.3. 发表期刊/会议

本文作为预印本 (pre-print) 发布在 arXiv 上。虽然在摘要中提到了 Published at (UTC)：2025-08-06T16:45:05.000Z，这通常表示计划或预计的发表时间，但目前状态仍为 arXiv 预印本。

1.4. 发表年份

2025年 (根据摘要中的 Published at (UTC) 日期)

1.5. 摘要

推荐系统 (Recommender systems) 对于帮助用户浏览现代在线平台中海量的物品目录至关重要。近年来，生成式推荐 (generative recommendation) 作为一种有前景的新范式出现，它将传统的检索-排序 (retrieve-and-rank) 流水线统一为一个能够动态生成推荐的端到端模型。然而，现有的生成式方法受到其无监督分词 (unsupervised tokenization) 的根本限制，所生成的语义 ID (semantic IDs) 存在两个关键缺陷：(1) 它们在语义上是扁平且不可解释的 (semantically flat and uninterpretable)，缺乏连贯的层次结构；(2) 它们容易产生表示纠缠 (representation entanglement)（即“ID 冲突”），这损害了推荐的准确性和多样性。

为了克服这些局限性，本文提出了 HiD-VAE，一个通过两项核心创新学习分层解缠结物品表示 (hierarchically disentangled item representations) 的新型框架。首先，HiD-VAE 开创了一种分层监督量化 (hierarchically-supervised quantization) 过程，将离散代码与多级物品标签对齐，从而产生更统一和解缠结的 ID。至关重要的是，训练好的码本 (codebooks) 可以预测分层标签，为每次推荐提供可追溯和可解释的语义路径。其次，为了对抗表示纠缠，HiD-VAE 引入了一种新颖的唯一性损失 (uniqueness loss)，直接惩罚潜在空间 (latent space) 的重叠。这一机制不仅解决了关键的 ID 冲突问题，还通过确保更全面地利用物品表示空间来促进推荐多样性。这些高质量、解缠结的 ID 为下游生成模型提供了强大的基础。在三个公共基准上进行的广泛实验验证了 HiD-VAE 相对于最先进方法的卓越性能。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2508.04618
PDF 链接: https://arxiv.org/pdf/2508.04618v2.pdf

2. 整体概括

2.1. 研究背景与动机

推荐系统在当今信息爆炸的时代扮演着至关重要的角色，尤其在电子商务、媒体内容分发等领域，帮助用户从海量物品中发现感兴趣的内容。在众多推荐范式中，序列推荐 (sequential recommendation) 尤其关注用户动态偏好的捕捉。近年来，推荐领域经历了一场范式转变，从传统的检索-排序 (retrieve-and-rank) 流程转向生成式推荐 (generative recommendation)。生成式推荐旨在通过直接生成物品标识符 (item identifiers) 来统一整个推荐流程，实现端到端的模型。

然而，现有的生成式推荐方法（如 TIGER 等）在生成语义 ID (semantic IDs) 方面存在两个主要挑战：

语义扁平且不可解释 (Semantically Flat and Uninterpretable)：现有的 ID 生成方法（通常基于无监督的向量量化 (Vector Quantization, VQ)）产生的语义 ID 缺乏明确的层次结构。这意味着模型学习到的物品表示是“黑箱”式的，无法提供可解释的语义路径，使得推荐结果难以被用户理解或追溯其原因。
表示纠缠和 ID 冲突 (Representation Entanglement and ID Collisions)：无监督量化容易导致不同的物品被映射到相同的离散标识符，即发生“ID 冲突”。这种纠缠不仅损害了推荐的准确性，因为模型无法区分本应不同的物品，也限制了推荐的多样性，因为表示空间的利用不充分。尽管有些方法尝试通过事后修复 (post-hoc fixes) 来处理 ID 冲突，但这些方法往往治标不治本，甚至可能引入非语义信息，进一步混淆下游模型。

这些挑战限制了当前生成式推荐模型的潜力和实用性。因此，迫切需要一种能够学习到高质量、可解释且解缠结的物品语义 ID 的方法，以作为生成式推荐的强大基础。

2.2. 核心贡献/主要发现

本文提出的 HiD-VAE 框架，旨在解决现有生成式推荐中语义 ID 的扁平化和纠缠问题，其核心贡献和主要发现如下：

提出 HiD-VAE 框架：引入了一个新颖的框架 HiD-VAE，专门设计用于学习分层结构且解缠结的物品表示 (hierarchically structured and disentangled representations)，以满足生成式推荐的需求。
分层监督量化过程：HiD-VAE 开创性地引入了分层监督量化 (hierarchically-supervised quantization) 过程。通过结合 标签对齐损失 (Tag Alignment Loss) 和 标签预测损失 (Tag Prediction Loss)，显式地指导 VAE 的每个层级学习特定层次的类别语义。这不仅确保了生成的语义 ID 具有可解释的层次结构，还使得模型能够提供可追溯的语义路径，增强了推荐的可解释性。
唯一性损失实现表示解缠结：为了解决 ID 冲突问题，HiD-VAE 设计了一种新颖的 唯一性损失 (Uniqueness Loss)。该损失直接惩罚不同物品之间潜在表示空间的重叠，从而在源头上防止了 ID 冲突，强制实现了表示解缠结 (representation disentanglement)。这显著提升了推荐的准确性和多样性。
基于 LLM 的分层标签生成：针对现实世界数据集中可能缺乏高质量分层标签的问题，HiD-VAE 提出了一种实用的、基于大型语言模型 (Large Language Model, LLM) 的两阶段工作流，用于自动生成高质量的分层标签。该方法通过“检索-分类 (retrieval-then-classification)”范式，有效缓解了 LLM 幻觉 (hallucinations) 问题，确保了框架的广泛适用性。
卓越的性能和可解释性：在 Beauty、Sports 和 KuaiRand 三个公共基准数据集上进行的广泛实验表明，HiD-VAE 在推荐准确性方面显著优于最先进的传统判别式 (discriminative) 和生成式推荐模型。同时，定性分析也验证了 HiD-VAE 成功学习到了可解释的语义结构和解缠结的潜在空间。

综上所述，HiD-VAE 不仅提升了生成式推荐的性能，还通过其分层和解缠结的设计，为推荐系统带来了急需的可解释性和可靠性，为未来生成式推荐模型的发展奠定了坚实基础。

3. 预备知识与相关工作

3.1. 基础概念

理解 HiD-VAE 框架需要掌握以下几个基础概念：

3.1.1. 变分自编码器 (Variational Autoencoder, VAE)

概念定义: 变分自编码器 (VAE) 是一种生成模型 (generative model)，它结合了神经网络和概率图模型 (probabilistic graphical models)。VAE 的核心思想是学习数据的一种低维、连续的潜在表示 (latent representation)，并且能够从这个潜在空间中生成新的数据。与传统自编码器 (Autoencoder) 仅仅学习一个编码-解码映射不同，VAE 对潜在空间施加了约束，使其符合某个预定义的概率分布（通常是标准正态分布），从而使得潜在空间更具有结构性和可生成性。

结构: 一个典型的 VAE 包含两个主要部分：

编码器 (Encoder)：将输入数据 $x$ 映射到一个潜在空间的概率分布（通常是高斯分布的均值 $\mu$ 和方差 $\sigma^2$ ）。然后，通过重参数化技巧 (reparameterization trick) 从这个分布中采样得到一个潜在向量 $z$ 。
解码器 (Decoder)：将潜在向量 $z$ 映射回原始数据空间，生成重构数据 $\hat{x}$ 。

优化目标: VAE 的优化目标是最大化数据的对数似然 (log-likelihood)，这通常通过最小化一个包含两项的损失函数来实现：

重构损失 (Reconstruction Loss)：衡量解码器生成的 $\hat{x}$ 与原始输入 $x$ 之间的相似度，确保模型能够忠实地重构输入。
KL 散度 (Kullback-Leibler Divergence) 损失：衡量编码器输出的潜在分布与预设先验分布（如标准正态分布）之间的差异，作为正则化项，确保潜在空间具有良好的结构。

3.1.2. 向量量化 (Vector Quantization, VQ)

概念定义: 向量量化 (VQ) 是一种将连续向量映射到离散代码的技术。它将一个连续的向量空间划分为一组有限的、离散的“码字” (codewords) 或“原型” (prototypes)，这些码字存储在一个称为“码本” (codebook) 的查找表中。当一个连续向量需要被量化时，它会被替换为码本中与其距离最近的码字。

量化函数: 给定一个连续潜在向量 $z$ 和一个有限的、可学习的码本 $C = \{c_k\}_{k=1}^K$ ，其中每个码字 $c_k \in \mathbb{R}^d$ ，VQ 的量化函数如下：

$q(z) = c_{k^{*}}\quad \mathrm{where}\quad k^{*} = \arg \min_j\| z - c_j\| _2 \quad (1)$

$z$ : 连续潜在向量。
$C$ : 码本，包含 $K$ 个码字。
$c_j$ : 码本中的第 $j$ 个码字。
$k^*$ : 码本中与 $z$ 距离最近的码字的索引。
q(z): 量化后的离散码字。
$\| \cdot \|_2$ : 欧几里得范数，表示向量之间的距离。

VQ-VAE: 将 VAE 与 VQ 结合，形成 VQ-VAE (Vector Quantized-Variational Autoencoder)。在 VQ-VAE 中，编码器不再直接输出连续的潜在向量，而是输出一个连续向量，该向量随后通过 VQ 过程被量化为码本中的一个离散码字。这个离散码字再传递给解码器进行重构。这种离散瓶颈使得模型能够学习到离散的、符号化的表示。

3.1.3. 残差量化 VAE (Residual-Quantized VAE, RQ-VAE)

概念定义: 残差量化 VAE (RQ-VAE) 是 VQ-VAE 的增强版本，它通过使用一系列级联的量化器 (cascaded quantizers) 来实现更精细和高效的离散表示。与一次性量化整个潜在向量不同，RQ-VAE 的每个后续量化器都对前一个阶段的“残差误差” (residual error) 进行量化。这允许模型逐步捕捉更精细的细节，并生成多层级的离散代码序列。

工作原理: 假设有 $L$ 个量化器。

第一个量化器对原始潜在向量进行量化。
计算原始向量与第一个量化器输出之间的残差。
第二个量化器对这个残差进行量化。
这个过程重复进行 $L$ 次，每次都对前一个阶段的残差进行量化。

累计量化嵌入: 在层级 $l$ 处的累计量化嵌入 (cumulative quantized embedding) 定义为前 $l$ 个量化器选择的码字之和： $z_{q}^{(l)} = \sum_{j = 1}^{l} e^{(j)}$

$z_{q}^{(l)}$ : 在层级 $l$ 处的累计量化嵌入。
$e^{(j)}$ : 第 $j$ 个量化器选择的码字。

RQ-VAE 产生的离散 ID 序列具有自然的层次结构，例如 $(y^{(1)}, y^{(2)}, \ldots, y^{(L)})$ ，其中 $y^{(l)}$ 是第 $l$ 层的码字索引。这使得它成为学习分层语义 ID 的一个良好基础。

3.2. 前人工作

本节概述了推荐系统领域，特别是序列推荐和生成式推荐的关键前人工作，并强调了它们与本文研究的关联及局限性。

3.2.1. 序列推荐模型

序列推荐旨在捕捉用户交互行为的动态性，预测用户下一步可能感兴趣的物品。

传统序列模型 (Traditional Sequential Models)：
- GRU4Rec [13]: 最早将循环神经网络 (Recurrent Neural Networks, RNN) 应用于会话推荐的开创性工作之一，使用门控循环单元 (Gated Recurrent Units, GRU) 捕捉用户会话中的顺序模式。
- Caser [35]: 引入卷积神经网络 (Convolutional Neural Networks, CNN) 来将用户序列视为“图像”，捕捉局部顺序模式。
- HGN [26]: 利用分层门控网络 (Hierarchical Gating Network) 整合用户的长期和短期兴趣。
- NextItNet [45]: 采用堆叠的扩张卷积层 (dilated convolutional layers) 来有效捕捉用户序列中的长距离依赖关系。
基于 Transformer 的模型 (Transformer-based Models)：
- SASRec [19]: 首次将 Transformer 架构中的自注意力机制 (self-attention mechanism) 应用于序列推荐，显著提升了建模复杂依赖关系的能力。
- BERT4Rec [34]: 受自然语言处理领域 BERT 模型的启发，采用双向训练目标（如掩码语言建模，Masked Language Modeling）来学习用户行为表示。
- S3-Rec [49]: 通过结合复杂的自监督预训练任务，进一步提升了 Transformer 模型的表示质量。
  
  局限性：这些模型本质上是判别式 (discriminative) 的。它们学习物品嵌入 (item embeddings)，然后依赖外部的近似最近邻 (Approximate Nearest Neighbor, ANN) 搜索索引（如 Faiss [5]）来从大规模物品库中检索和排序候选物品。这种表示学习与检索/排序过程的分离可能导致潜在的“脱节”，并且通常需要单独的排序阶段。

3.2.2. 生成式推荐模型

生成式推荐将推荐任务重新定义为自回归序列生成 (autoregressive sequence generation) 任务，模型直接生成物品标识符，而非对候选物品进行评分。

TIGER [31]: 这一领域的开创性工作，它使用分层 RQ-VAE (Hierarchical RQ-VAE) 从物品内容特征中学习“语义 ID”——离散的物品表示。然后，一个基于 Transformer 的序列模型被训练来预测下一个物品的语义 ID。
LC-Rec [48]: 同样利用基于 RQ-VAE 的标识符，但其重点在于对齐语言语义和协同语义 (collaborative semantics)，以增强 ID 的质量。
LETTER [39]: 专注于通过将协同信号注入分词 (tokenization) 过程来增强语义 ID 的学习。
VQ-Rec [14]: 使用产品量化 (Product Quantization, PQ) 生成物品的语义 ID，并用于可迁移的序列推荐。

局限性：尽管生成式模型前景广阔，但它们面临两个关键限制：

语义扁平且不可解释 [32]: 这些模型学习到的语义空间通常是“扁平的”，缺乏明确的层次结构。物品 ID 的层次性只是量化过程的隐式副产品，而非显式监督的结果，导致模型成为“黑箱”，难以解释 [50]。
表示纠缠和 ID 冲突 [8]: 普遍存在“ID 冲突”问题 [31, 44]，即不同的物品被映射到相同的标识符。这严重损害了推荐的多样性和准确性。现有的一些解决方案通常是事后修复 (post-hoc fixes) [31]，未能从根本上解决潜在空间中的纠缠问题。例如，TIGER 采用在 ID 冲突时附加一个递增整数的方法，但这会破坏 ID 的语义完整性。

3.3. 技术演进

推荐系统领域的技术演进经历了从协同过滤、矩阵分解到深度学习模型的变革。在深度学习时代，序列推荐模型从早期的 RNN (如 GRU4Rec) 和 CNN (如 Caser) 演进到更强大的 Transformer 架构 (如 SASRec, BERT4Rec)，这些模型在捕捉用户序列依赖方面表现出色。然而，这些判别式模型通常需要独立的检索和排序阶段，并且依赖于物品嵌入的质量。

生成式推荐代表了最新的范式转变，旨在通过直接生成物品 ID 来统一整个推荐流程，从而绕过检索/排序的“脱节”问题。TIGER 等模型展示了生成式方法的潜力，但其核心挑战在于如何生成高质量、有意义的语义 ID。现有的生成方法主要采用无监督的向量量化 (如 RQ-VAE)，这导致了语义扁平化和 ID 冲突问题。

3.4. 差异化分析

HiD-VAE 与现有生成式推荐方法（尤其是 TIGER 和 LC-Rec 等基于 RQ-VAE 的模型）的关键区别和创新点在于：

显式分层监督 (Explicit Hierarchical Supervision)：
- 现有方法：RQ-VAE 产生的层次性是隐式的、无监督的，容易导致语义漂移 (semantic drift) 和不可解释性。
- HiD-VAE：通过引入 标签对齐损失 (Tag Alignment Loss) 和 标签预测损失 (Tag Prediction Loss)，显式地将每个量化层与多级物品标签对齐。这确保了每个 ID 层都捕捉到有意义的类别语义，使得语义 ID 具有可解释的层次结构。
唯一性损失实现解缠结 (Uniqueness Loss for Disentanglement)：
- 现有方法：严重依赖无监督量化，容易产生“ID 冲突”，且事后修复（如 TIGER 的附加整数）会破坏语义完整性。
- HiD-VAE：引入 唯一性损失，直接在连续潜在空间中惩罚不同物品间的表示重叠，从而从根源上解决 ID 冲突问题，强制实现表示解缠结。这避免了事后修复带来的语义噪声。
LLM 辅助的分层标签生成 (LLM-assisted Hierarchical Tag Generation)：
- 现有方法：通常假定数据集已提供高质量的分层标签，或依赖于人工标注，适用性受限。
- HiD-VAE：提出了一个“检索-分类”的 LLM 工作流，解决了真实世界数据集中标签缺失的问题，扩展了框架的适用范围，同时避免了 LLM 的幻觉问题。
  
  简而言之，HiD-VAE 不仅继承了生成式推荐的优势，更通过其独特的显式监督的分层结构和内在的解缠结机制，生成了更具解释性、更准确且更可靠的语义 ID，从而为下游生成模型提供了更强大的基础。

4. 方法论

HiD-VAE 框架将物品表示学习和序列推荐分为两个独立的阶段，确保每个阶段都能专注于其特定的优化目标。

4.1. 方法原理

HiD-VAE 的核心思想是克服现有生成式推荐模型中语义 ID 扁平化和表示纠缠的问题。它通过以下两个主要创新来实现：

分层监督量化：通过引入 标签对齐损失 和 标签预测损失，将 RQ-VAE 的多层级量化过程与物品的多级语义标签显式地对齐。这使得每个量化层都能捕捉到特定粒度的语义信息，从而生成具有可解释层次结构的语义 ID。
唯一性损失：为了解决“ID 冲突”问题，HiD-VAE 设计了一种 唯一性损失，直接惩罚不同物品在连续潜在空间中的表示重叠。这促进了表示的解缠结，确保每个物品都能获得唯一的、有意义的语义 ID。

整个框架分为两个阶段：

阶段 1: 离线分层 ID 学习：训练 HiD-VAE 模型，学习物品的独特、可解释且解缠结的语义 ID。
阶段 2: 在线可解释推荐：使用预训练的 HiD-VAE 作为物品分词器，将用户历史转化为语义 ID 序列，然后训练一个 Transformer 模型进行自回归预测。

4.2. 核心方法详解

4.2.1. 阶段 1: 离线分层 ID 学习 (Offline Hierarchical ID Learning)

此阶段的目标是训练 HiD-VAE 模型，为每个物品学习一个独特的、可解释且解缠结的语义 ID。

4.2.1.1. 分层标签生成 (Hierarchical Tag Generation)

为了确保 HiD-VAE 能够适用于缺乏现成分层标签的数据集（如 KuaiRand），作者提出了一种基于大型语言模型 (LLM) 的两阶段工作流，用于自动生成分层标签。这个过程将任务重构为“检索-分类 (retrieval-then-classification)”范式，以利用 LLM 的能力同时避免其幻觉问题。

1. 候选标签检索 (Candidate Tag Retrieval)

这一步旨在为每个层次级别缩小标签候选项的范围。

首先，为每个层次级别 $l$ 构建一个标签池 $\mathcal{T}^{(l)}$ ，其中包含现有标签和人工标注。
对于具有内容文本 $\boldsymbol{x}_{\mathrm{text}}$ 的物品，使用预训练的句子编码器 $\mathcal{E}_{\mathrm{sent}}(\cdot)$ 计算其语义嵌入 $\boldsymbol{o} = \mathcal{E}_{\mathrm{sent}}(\boldsymbol{x}_{\mathrm{text}})$ 。
然后，对于每个级别 $l$ ，通过计算 $\boldsymbol{o}$ 与 $\mathcal{T}^{(l)}$ 中预计算的标签嵌入之间的语义相似度 $\mathrm{sim}(\cdot, \cdot)$ ，检索出 $K$ 个最相似的标签作为候选集 $C_{\mathrm{cand}}^{(l)}$ 。

$C_{\mathrm{cand}}^{(l)} = \mathrm{Top - K}_{\bar{t}\in \mathcal{T}^{(l)}}(\mathrm{sim}(\boldsymbol{o} ,\mathcal{E}_{\mathrm{sent}}(t))) \quad (3)$
$\boldsymbol{o}$ : 物品文本内容的语义嵌入。
$\mathcal{E}_{\mathrm{sent}}(\cdot)$ : 预训练的句子编码器，用于将文本转换为语义嵌入。
$\bar{t}$ : 标签池 $\mathcal{T}^{(l)}$ 中的一个标签。
$\mathrm{sim}(\cdot, \cdot)$ : 相似度函数，通常是余弦相似度。
$C_{\mathrm{cand}}^{(l)}$ : 为当前层级 $l$ 检索到的候选标签集。
$\mathrm{Top-K}$ : 选择相似度最高的 $K$ 个标签。

2. 基于 LLM 的标签分类 (LLM-based Tag Classification)

在有了小范围的候选标签集后，LLM 被用来选择最合适的标签。

任务被重新定义为分类问题，LLM 被提示从候选列表中选择最合适的标签。
提示 (prompt) 中包含物品的内容 $\boldsymbol{x}_{\mathrm{text}}$ 、之前已确定的高级别标签 $\{t^{(j)}\}_{j=1}^{l-1}$ 以及候选集 $C_{\mathrm{cand}}^{(l)}$ 。

$t^{(l)*} = \underset {t\in C_{\mathrm{cand}}^{(l)}}{\arg \max}P_{\mathrm{LLM}}\left(t\mid \boldsymbol{x}_{\mathrm{text}},\{t^{(j)}\}_{j = 1}^{l - 1},C_{\mathrm{cand}}^{(l)}\right) \quad (4)$
$t^{(l)*}$ : LLM 为当前层级 $l$ 预测的最可能标签。
$P_{\mathrm{LLM}}(\cdot \mid \cdot)$ : LLM 的概率分布，表示在给定上下文（物品文本、前序标签、候选集）下选择特定标签 $t$ 的概率。
$\boldsymbol{x}_{\mathrm{text}}$ : 物品的文本内容。
$\{t^{(j)}\}_{j=1}^{l-1}$ : 物品在更高层级（1 到 l-1）已确定的标签。
$C_{\mathrm{cand}}^{(l)}$ : 当前层级 $l$ 的候选标签集。

这种方法确保了生成的标签始终是有效的，并且基于 LLM 的深层上下文理解，为框架扩展到更广泛的数据集提供了鲁棒的解决方案。

4.2.1.2. 分层表示学习 (Hierarchical Representation Learning)

这一部分利用 RQ-VAE 的级联量化架构，并引入显式的分层监督，以确保码本 (codebook) 学习到有意义的语义。

给定物品的特征向量 $\boldsymbol{X}$ 和真实的分层类别标签索引 $\{c^{(l)}\}_{l=1}^{L}$ 及其嵌入 $\{\boldsymbol{t}^{(l)}\}_{l=1}^{L}$ 。
物品特征首先通过编码器 $E(\cdot)$ 产生初始潜在表示 z_0 = E(\boldsymbol{X})。
RQ-VAE 启动分层量化过程。在每个层级 $l \in \{1, \ldots, L\}$ $l \in {1, \dots, L}$ ：
- 量化器 $q_l$ 接收来自前一层的残差 $r_{l-1}$ （其中 $r_0 = z_0$ ）。
- 它从码本 $C^{(l)}$ 中识别出最近的码字 $\boldsymbol{e}^{(l)} = q_l(r_{l-1})$ 。
- 为下一层计算残差 $r_l = r_{l-1} - \boldsymbol{e}^{(l)}$ 。

1. 标签对齐损失 (Tag Alignment Loss)

为了确保每个层级 $l$ 学习到的码本能够捕捉到类别层次结构的第 $l$ 级语义，引入了一个对比性的 标签对齐损失。

将真实标签嵌入 $\boldsymbol{t}^{(l)}$ 投影到物品的潜在空间，使用层级特定的投影器 $P_l(\cdot)$ 。
该损失旨在拉近累计量化嵌入 $z_q^{(l)}$ 与其对应的投影标签嵌入 $P_l(\boldsymbol{t}^{(l)})$ ，同时将其推远同批次 (mini-batch) 中其他标签的嵌入。

$\mathcal{L}_{\mathrm{align}}^{(l)} = -\log \frac{\exp(\operatorname{sim}(z_q^{(l)},P_l(\boldsymbol{t}^{(l)})) / \tau)}{\sum_{j = 1}^{B}\exp(\operatorname{sim}(z_q^{(l)},P_l(\boldsymbol{t}^{(j)})) / \tau)} \quad (5)$
$\mathcal{L}_{\mathrm{align}}^{(l)}$ : 第 $l$ 层的标签对齐损失。
$\operatorname{sim}(\cdot, \cdot)$ : 余弦相似度 (cosine similarity)。
$z_q^{(l)}$ : 第 $l$ 层的累计量化嵌入， $z_{q}^{(l)} = \sum_{j = 1}^{l} e^{(j)}$ 。
$P_l(\cdot)$ : 第 $l$ 层的投影器，将标签嵌入投影到潜在空间。
$\boldsymbol{t}^{(l)}$ : 第 $l$ 层的真实类别标签嵌入。
$\boldsymbol{t}^{(j)}$ : 批次中其他物品的第 $l$ 层标签嵌入。
$\tau$ : 温度超参数 (temperature hyperparameter)。
$B$ : 批次大小 (batch size)。

2. 标签预测损失 (Tag Prediction Loss)

为了处理不同语义深度和类别数量的标签，每个层级都使用一个定制的分类器 $C_l$ 。

分类器 $C_l$ 的结构会根据层级深度进行调整：更深的层级使用更大的隐藏维度 (hidden dimensions) 和更高的 dropout 率，以处理维度更高、信息更复杂的累计量化嵌入 $z_q^{(l)}$ 。
损失使用交叉熵 (Cross-Entropy) 计算：

$\mathcal{L}_{\mathrm{pred}}^{\left(l\right)} = \mathrm{CrossEntropy}(C_{l}(z_{q}^{(l)}),c^{(l)}) \quad (6)$
$\mathcal{L}_{\mathrm{pred}}^{\left(l\right)}$ : 第 $l$ 层的标签预测损失。
$\mathrm{CrossEntropy}(\cdot, \cdot)$ : 交叉熵损失函数。
$C_l(\cdot)$ : 第 $l$ 层的分类器，接收累计量化嵌入 $z_q^{(l)}$ 作为输入。
$c^{(l)}$ : 第 $l$ 层的真实类别标签索引。
可选地，对于类别不平衡的情况，可以使用 Focal Loss（文中设置为 $\gamma = 2.0$ ）。

4.2.1.3. 通过唯一性损失实现解缠结 (Disentanglement via Uniqueness Loss)

为了解决“ID 冲突”这一生成式推荐中的关键挑战，本文引入了一个 唯一性损失，该损失直接作用于连续的、量化前的潜在向量。

该损失惩罚训练批次中被分配了相同语义 ID 序列的不同物品对之间的表示重叠。
令 $\boldsymbol{x}_i$ 和 $\boldsymbol{x}_j$ 是批次中两个不同的物品，它们的初始潜在表示分别为 $\boldsymbol{z}_{0,i}$ 和 $\boldsymbol{z}_{0,j}$ 。
如果它们的完整语义 ID 序列发生冲突（即 $y_i = y_j$ ），则应用基于边距 (margin-based) 的惩罚：

$\mathcal{L}_{\mathrm{unique}} = \frac{1}{|\mathcal{P}|}\sum_{(i,j)\in \mathcal{P}}\max \left(0,\frac{\boldsymbol{z}_{0,i}\cdot \boldsymbol{z}_{0,j}}{\|\boldsymbol{z}_{0,i}\|_2\|\boldsymbol{z}_{0,j}\|_2} -m\right) \quad (7)$
$\mathcal{L}_{\mathrm{unique}}$ : 唯一性损失。
$\mathcal{P} = \{(i,j)\mid i\neq j,y_{i} = y_{j}\}$ : 批次中所有具有冲突 ID 的不同物品对的集合。
$\boldsymbol{z}_{0,i}$ 和 $\boldsymbol{z}_{0,j}$ : 物品 $i$ 和 $j$ 的初始（量化前）连续潜在表示。
$\frac{\boldsymbol{z}_{0,i}\cdot \boldsymbol{z}_{0,j}}{\|\boldsymbol{z}_{0,i}\|_2\|\boldsymbol{z}_{0,j}\|_2}$ : 物品 $i$ 和 $j$ 的潜在表示之间的余弦相似度。
$m$ : 边距超参数 (margin hyperparameter)。

这个损失通过直接鼓励物品到 ID 的映射是单射 (injective) 的，从而减轻了表示纠缠。

4.2.1.4. 阶段 1 优化 (Optimization for Stage 1)

HiD-VAE 在阶段 1 中通过最小化一个复合损失函数进行端到端训练：

$\begin{array}{rl} & {\mathcal{L}_{\mathrm{H i d - V A E}} = \mathcal{L}_{\mathrm{r e c o n}} + \beta_{\mathrm{commit}}\mathcal{L}_{\mathrm{co m m i t}}}\\ & {\qquad +\beta_{\mathrm{sup}}\sum_{l = 1}^{L}(\mathcal{L}_{\mathrm{align}}^{(l)} + \mathcal{L}_{\mathrm{p r e d}}^{(l)}) + \beta_{\mathrm{unique}}\mathcal{L}_{\mathrm{unique}}} \end{array} \quad (8)$

$\mathcal{L}_{\mathrm{H i d - V A E}}$ : HiD-VAE 的总损失函数。
$\mathcal{L}_{\mathrm{r e c o n}}$ : 重构损失 (reconstruction loss)。它确保模型能够忠实地重构原始输入 $x$ 。文中采用均方误差 (Mean Squared Error, MSE)：

$\mathcal{L}_{\mathrm{recon}} = ||x - \hat{x} ||_2^2 \quad (10)$
- $x$ : 原始输入物品特征。
- $\hat{x}$ : 解码器 $D(z_q^{(L)})$ 的输出，即重构物品特征。
$\mathcal{L}_{\mathrm{commi t}}$ : 向量量化承诺损失 (commitment loss)。它正则化编码器的输出空间，鼓励编码器的连续输出 $z_e(x)$ 靠近其选择的码字 $\tilde{\boldsymbol{Z}}_q(x)$ 。通过 stop-gradient (sg) 操作符隔离梯度流，只更新编码器。此损失累积所有 $L$ 个量化阶段：

$\mathcal{L}_{\mathrm{commit}} = ||z_e(x) - \mathrm{sg}[z_q(x)]||_2^2 \quad (11)$
- $z_e(x)$ : 编码器输出的连续表示。
- $\mathrm{sg}[\cdot]$ : stop-gradient 操作，阻止梯度通过此处传播。
- $z_q(x)$ : 量化后的码字。
$\beta_{\mathrm{commit}}$ , $\beta_{\mathrm{sup}}$ , $\beta_{\mathrm{unique}}$ : 平衡不同损失分量的超参数。
$\sum_{l=1}^{L}(\mathcal{L}_{\mathrm{align}}^{(l)} + \mathcal{L}_{\mathrm{p r e d}}^{(l)})$ : 结合了所有层级的标签对齐损失和标签预测损失，体现了分层监督。
$\mathcal{L}_{\mathrm{unique}}$ : 唯一性损失。

4.2.2. 阶段 2: 在线可解释推荐 (Online Interpretable Recommendation)

在阶段 1 训练得到高质量 ID 后，阶段 2 利用这些 ID 进行序列推荐。

4.2.2.1. 层次感知语义嵌入 (Hierarchy-Aware Semantic Embeddings)

为了保留语义 ID 的结构化语义并增强可解释性，作者设计了一个自定义嵌入层。

物品的语义 ID 中的每个词元 (token) 首先被映射到其对应的标签文本。
这些标签文本随后使用预训练的嵌入模型编码成语义向量。
这些语义向量与可学习的 ID 嵌入 (learnable ID embeddings) 以及特定于每个层次级别 ( $l \in \{1, \ldots, L\}$ ) 的类型嵌入 (type embeddings) 进行拼接。
这种方法通过整合显式语义信息来丰富特征表示，使模型能够捕捉 ID 中编码的从粗到细 (coarse-to-fine) 的语义路径，同时提高可解释性。

4.2.2.2. 受约束解码实现有效性 (Constrained Decoding for Validity)

为了确保生成的 ID 对应真实的物品，推理期间采用了受约束解码 (constrained decoding) 策略。

所有有效的语义 ID 前缀预先计算并存储在高效的数据结构中（例如 Trie 树）。
在逐词元 (token-by-token) 生成过程中，模型的输出词汇表会动态掩码 (dynamically masked)，只允许生成形成有效且现有前缀的词元。
这种剪枝机制保证了生成的输出始终对应物品库中的真实物品。

4.2.2.3. 阶段 2 优化 (Optimization for Stage 2)

HiD-VAE 的参数被冻结后，基于 Transformer 的推荐器使用交叉熵损失 (cross-entropy loss) 进行下一个词元预测 (next-token prediction) 训练。

对于用户历史序列 $\mathcal{S}_u$ 及其 ID 序列 $(\boldsymbol{y}_1, \ldots, \boldsymbol{y}_T)$ ，目标是最大化下一个物品 ID 序列的似然。

$\mathcal{L}_{\mathrm{rec}} = -\sum_{u\in \mathcal{U}}\sum_{t = 1}^{|S_{u}| - 1}\log p(\boldsymbol{y}_{t + 1}|\boldsymbol{y}_1,\ldots ,\boldsymbol{y}_t) \quad (9)$
$\mathcal{L}_{\mathrm{rec}}$ : 推荐器的损失函数。
$\mathcal{U}$ : 用户集合。
$|S_u|$ : 用户 $u$ 的交互序列长度。
$\boldsymbol{y}_{t+1}$ : 下一个物品的 ID 序列。
$p(\boldsymbol{y}_{t+1}|\boldsymbol{y}_1,\ldots,\boldsymbol{y}_t)$ : 在给定历史 ID 序列的情况下，下一个物品 ID 序列的概率。

此两阶段方法首先建立一个可解释且解缠结的表示空间，然后利用它有效地建模用户的序列行为。

4.3. 算法概览 (Algorithm Overview)

以下是 HiD-VAE 框架的伪代码，它整合了分层标签生成、表示学习和序列推荐的端到端过程。

Algorithm 1 HiD-VAE Framework
Require: Item features {x_i}_{i∈I}, optional tags {{c_i^(l)}_{l=1}^L}_{i∈I}, user sequences {s_u}_{u∈U}
Ensure: Predicted next items for each user

// Stage 0: Hierarchical Tag Generation (If needed for datasets without native tags)
1: for each item i ∈ I do
2:    v ← E_sent(x_i,text)   // Semantic embedding using pre-trained sentence encoder
3:    for l = 1 to L do
4:        C_cand^(l) ← Top-K retrieval from T^(l) via sim(v, E_sent(t)) // Candidate tags for level l
5:        t^(l)* ← arg max_{t∈C_cand^(l)} P_LLM(t | x_i,text, {t^(j)}_{j=1}^{l-1}, C_cand^(l)) // LLM classification
6:    end for
7:    Store generated hierarchical tags {t^(l)*} for item i
8: end for

// Stage 1: HiD-VAE Training (Offline Hierarchical ID Learning)
9: Initialize encoder E, decoder D, codebooks {C^(l)}_{l=1}^{L}, projectors {P_l}_{l=1}^{L}, classifiers {C_l}_{l=1}^{L}
10: while not converged do
11:    Sample batch {x_b, {t_b^(l)}_{l=1}^L}_{b=1}^B
12:    z_0 ← E(x_b) // Batch-wise initial latent representation
13:    r_0 ← z_0
14:    for l = 1 to L do
15:        // Quantize residual and select codeword
16:        e^(l), c^(l) ← q_l(r_{l-1}) // e^(l) is codeword, c^(l) is index
17:        r_l ← r_{l-1} - e^(l) // Compute residual for next layer
18:        z_q^(l) ← sum_{i=1 to l} e^(i) // Cumulative quantized embedding
19:        Compute L_align^(l), L_pred^(l) (Eq 5, 6)
20:    end for
21:    x_hat ← D(z_q^(L)) // Reconstruct input from final cumulative quantized embedding
22:    Compute L_recon (Eq 10), L_commit (Eq 11), L_unique (Eq 7, on colliding pairs)
23:    Update parameters via L_HiD-VAE (Eq 8)
24: end while
25: Freeze HiD-VAE; map all items to IDs {y_i}_{i∈I} // Pre-compute semantic IDs for all items

// Stage 2: Recommender Training (Online Interpretable Recommendation)
26: Initialize Transformer with hierarchy-aware embeddings
27: while not converged do
28:    Sample user batch {S_u}
29:    Map items in S_u to their pre-computed ID sequences { (y_1, ..., y_T) }
30:    Enrich embeddings with tag semantics and level types (as described in Sec 3.7)
31:    Compute L_rec (Eq 9) via autoregressive cross-entropy
32:    Update Transformer parameters
33: end while

// Inference
34: for each test sequence (y_1, ..., y_T) do
35:    Autoregressively generate y_{T+1} with constrained decoding (mask invalid prefixes)
36:    Map generated y_{T+1} to item via pre-computed ID-to-item index
37: end for

Stage 0: 分层标签生成：此步骤是可选的，仅当数据集没有原生分层标签时才执行。它使用预训练的句子编码器和 LLM 来生成每个物品的多级标签。
Stage 1: HiD-VAE 训练：
- 初始化编码器 $E$ 、解码器 $D$ 、码本 $\{C^{(l)}\}_{l=1}^{L}$ 、投影器 $\{P_l\}_{l=1}^{L}$ 和分类器 $\{C_l\}_{l=1}^{L}$ 。
- 在训练循环中，采样批次数据。
- 编码器 $E$ 将物品 $x_b$ 编码为初始潜在表示 $z_0$ 。
- 进行 $L$ 层的残差量化，每层计算码字 $e^{(l)}$ 和残差 $r_l$ 。
- 同时，计算分层监督损失：标签对齐损失 $\mathcal{L}_{\mathrm{align}}^{(l)}$ (Eq 5) 和 标签预测损失 $\mathcal{L}_{\mathrm{pred}}^{(l)}$ (Eq 6)。
- 解码器 $D$ 从最终的累计量化嵌入 $z_q^{(L)}$ 重构输入 $\hat{x}$ 。
- 计算 重构损失 $\mathcal{L}_{\mathrm{recon}}$ (Eq 10)、承诺损失 $\mathcal{L}_{\mathrm{commit}}$ (Eq 11) 和 唯一性损失 $\mathcal{L}_{\mathrm{unique}}$ (Eq 7)。
- 通过总损失 $\mathcal{L}_{\mathrm{H i d - V A E}}$ (Eq 8) 更新所有参数。
- HiD-VAE 训练完成后，冻结其参数，并为所有物品预计算其语义 ID。
Stage 2: 推荐器训练：
- 初始化一个基于 Transformer 的推荐器，其嵌入层设计为层次感知 (hierarchy-aware)。
- 在训练循环中，采样用户批次。
- 将用户历史中的物品映射到其预计算的语义 ID 序列。
- 通过整合标签语义和层级类型来丰富嵌入。
- 计算 推荐损失 $\mathcal{L}_{\mathrm{rec}}$ (Eq 9)，通过自回归交叉熵进行下一个词元预测。
- 更新 Transformer 的参数。
推理 (Inference)：
- 对于每个测试序列，使用受约束解码策略自回归地生成下一个物品的语义 ID。
- 通过预计算的 ID 到物品的索引，将生成的 ID 映射回具体的物品。

4.3.1. 实施细节

超参数：例如 $\beta$ 项、层数 $L$ 和码本大小 $K_l$ 等，通过在验证集上进行网格搜索 (grid search) 进行调优。典型的值为 $\tau = 0.07$ ， $m = 0.9$ ，阶段 1 的批次大小为 512。
受约束解码：在推理阶段，受约束解码利用基于 Trie 树 (trie-based prefix tree) 的前缀树结构实现高效的词汇表掩码 (vocabulary masking)。这确保了不会生成无效的 ID，同时每个词元的生成时间复杂度为 $\mathcal{O}(L \log K)$ (其中 $K = \max K_l$ )。这个结构是离线从所有有效物品 ID 构建的，支持大规模物品目录。

5. 实验设置

5.1. 数据集

本文在三个广泛使用的公共基准数据集上评估 HiD-VAE，以确保对其能力进行全面评估。遵循标准实践 [19, 34]，采用 5-core 设置，即过滤掉所有交互次数少于五次的用户和物品。

以下是实验所用数据集的详细信息：

Beauty：
- 来源：Amazon Review Data 项目 [12]。
- 特点：一个流行且相对密集的基准数据集，用于推荐研究。
Sports and Outdoors：
- 来源：Amazon Review Data 项目 [12]。
- 特点：与 Beauty 相比，这是一个更大且显著更稀疏的数据集，用于评估模型在更具挑战性数据分布下的鲁棒性。
KuaiRand-1K [9]：
- 来源：快手短视频平台的大规模公共数据集。
- 特点：包含用户与丰富侧信息 (side information) 的交互。它代表了一个独特的领域，用于测试方法的可推广性。
  
  数据集统计信息：以下是原文 Table 4 的结果：

Dataset	# Users	# Items	# Interactions	# Seq.Length
Beauty	22,363	12,101	198,360	8.87
Sports	35,598	18,557	296,175	8.32
KuaiRand	983	29,983	953,166	19.83

分层标签生成：对于 KuaiRand 等原生不提供结构化层次的数据集，作者采用了基于 LLM 的预处理流水线。具体做法是：

使用物品的标题和原始类别字符串作为提示 (prompt) 输入给大型语言模型。
LLM 被要求生成一个干净、一致的 $L$ 级类别层次。
这确保了每个物品都具有完整的类别路径，以便进行监督训练。详细信息在附录 B 中描述，LLM 选择的是 Qwen3-235B-A22B-Instruct-2507 [1]，采用“检索-分类”范式，并对提示进行了精心设计。

5.2. 评估指标

本文采用标准的留一法 (leave-one-out) [7] 评估协议。对于每个用户的交互历史，最后一个物品用于测试，倒数第二个物品用于验证，其余物品用于训练。性能通过两个 Top-K 排序指标进行报告：Recall@K 和 Normalized Discounted Cumulative Gain (NDCG)@K，其中 $K$ 设置为 5 和 10。

5.2.1. 召回率 (Recall@K)

概念定义: 召回率 (Recall@K) 衡量的是在推荐列表的前 K 个物品中，有多少比例的用户实际交互过的目标物品被成功推荐。它关注的是模型“找回”相关物品的能力，即在所有真实相关的物品中，模型找到了多少。

数学公式: $\mathrm{Recall}@K = \frac{1}{|\mathcal{U}|} \sum_{u \in \mathcal{U}} \mathbb{I}(i_u \in \mathrm{TopK}(R_u))$

符号解释:

$|\mathcal{U}|$ : 测试集中用户的总数。
$u$ : 测试集中的某个用户。
$i_u$ : 用户 $u$ 在测试集中实际交互的下一个物品（真值）。
$\mathrm{TopK}(R_u)$ : 为用户 $u$ 生成的 Top-K 推荐物品列表。
$\mathbb{I}(\cdot)$ : 指示函数，如果括号中的条件为真，则返回 1；否则返回 0。

5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)

概念定义: NDCG@K 是一种考虑推荐列表位置的评估指标。它不仅关注推荐的相关性，还考虑了相关物品在列表中的位置：排名越靠前的相关物品，其对整体得分的贡献越大。通过折损 (discounting) 机制，后续位置的相关物品权重递减。归一化 (Normalized) 是为了使不同查询或推荐列表长度之间的 NDCG 值具有可比性，通过除以理想情况下的 DCG (IDCG) 实现。

数学公式: 首先定义累计增益 (Cumulative Gain, CG)： $\mathrm{CG}_K = \sum_{j=1}^K \mathrm{rel}_j$ 其中 $\mathrm{rel}_j$ 是位置 $j$ 处物品的相关性得分（二元相关性通常为 1 或 0）。

接着是折损累计增益 (Discounted Cumulative Gain, DCG)： $\mathrm{DCG}_K = \sum_{j=1}^K \frac{\mathrm{rel}_j}{\log_2(j+1)}$ 理想折损累计增益 (Ideal Discounted Cumulative Gain, IDCG) 是将所有相关物品按最高相关性从高到低排序后得到的 DCG 值： $\mathrm{IDCG}_K = \sum_{j=1}^K \frac{\mathrm{rel}_{j, \mathrm{ideal}}}{\log_2(j+1)}$ 最终，归一化折损累计增益 (NDCG) 为： $\mathrm{NDCG}@K = \frac{\mathrm{DCG}_K}{\mathrm{IDCG}_K}$

符号解释:

$K$ : 推荐列表的长度。
$\mathrm{rel}_j$ : 推荐列表中第 $j$ 个物品的相关性得分。在推荐任务中，通常如果预测的物品是真值，则 $\mathrm{rel}_j=1$ ，否则为 0。
$\mathrm{rel}_{j, \mathrm{ideal}}$ : 理想排序下第 $j$ 个物品的相关性得分。
$\log_2(j+1)$ : 位置 $j$ 的折损因子，随着 $j$ 增大，折损因子也增大，导致相关性得分的贡献降低。

5.3. 对比基线

本文将 HiD-VAE 与广泛的先进模型进行比较，这些模型分为三类：

传统序列模型 (Traditional Sequential Models)：
- GRU4Rec [13]: 使用 GRU 捕捉会话模式。
- Caser [35]: 使用 CNN 捕捉局部序列模式。
- HGN [26]: 采用分层门控网络整合长短期兴趣。
- NextItNet [45]: 利用扩张卷积层捕捉长距离依赖。
基于 Transformer 的模型 (Transformer-based Models)：
- SASRec [19]: 首个将自注意力机制应用于序列推荐的模型。
- BERT4Rec [34]: 采用 BERT 风格的双向预训练范式。
生成式推荐模型 (Generative Recommendation Models)：
- TIGER [31]: 使用分层 RQ-VAE 学习语义 ID，由 Transformer 进行预测。
- LC-Rec [48]: 利用 RQ-VAE 基础 ID，侧重于语言和协同语义的对齐。
- VQ-Rec [14]: 本文将其改编为生成式框架，通过在由产品量化 (Product Quantization) 生成的语义 ID 上训练 Transformer 来进行对比（原始 VQ-Rec 并非生成式）。

5.4. 实施细节

框架与硬件：使用 PyTorch 实现，结合 Hugging Face transformers 和 accelerate 库进行混合精度 (FP16) 训练，运行在 NVIDIA 4060 GPU 上。
阶段 1: 表示学习 (HiD-VAE)：
- 编码器/解码器：一个 3 层 MLP (Multi-Layer Perceptron) 编码器和解码器，激活函数为 GELU。
- 输入：768 维的 SentenceTransformer 嵌入。
- 量化层： $L = 3$ 个量化层，每个码本大小 $K = 256$ 。码本通过对第一个批次进行 K-Means 初始化。
- 优化器：AdamW，学习率 $3 \times 10^{-4}$ ，批次大小 128。
- 损失超参数：
  - $\beta_{\mathrm{commit}} = 0.25$
  - $\beta_{\mathrm{sup}} = 1.0$
  - $\beta_{\mathrm{unique}} = 2.0$
- 其他：标签预测 使用 Focal Loss，对齐温度 $\tau = 0.07$ ，唯一性边距 $m = 0.9$ 。
阶段 2: 推荐器训练：
- 分词器：冻结的 HiD-VAE 作为物品分词器，使用预计算的语义 ID。
- 序列模型：一个 6 层 Transformer 编码器-解码器，具有 8 个注意力头 (attention heads) 和 512 维隐藏层维度。
- 优化器：AdamW，学习率 $1 \times 10^{-4}$ ，批次大小 256，采用 warmup 调度。
- 推理：采用自回归生成和受约束解码，通过与语料库缓存 (corpus cache) 匹配来剪枝 (prune) 无效的 ID 前缀。
- 嵌入增强：语义 ID 中的每个词元映射到其对应的标签文本，编码为语义向量，然后与可学习的 ID 嵌入和层级类型嵌入拼接，以丰富表示。
基线实现：传统基线模型使用 RecBole [47] 框架实现。LC-Rec 基线为公平比较，使用 T5-base 变体作为其骨干语言模型 [30]。

6. 实验结果与分析

6.1. 核心结果分析 (RQ1)

本文对 HiD-VAE 与一系列强大的基线模型进行了全面的性能比较。评估结果（见 Table 1）在三个不同数据集上揭示了几个关键见解：

6.1.1. HiD-VAE 在所有数据集上取得了显著提升

HiD-VAE 在每个数据集和每个指标上都显著优于所有基线模型。性能提升尤为显著；例如，在 Beauty 数据集上，HiD-VAE 在 Recall@5 上实现了比最强基线 LC-Rec 高 35.07% 的相对提升，在 NDCG@5 上实现了 33.08% 的提升。在 Sports 数据集上，NDCG@5 提升了 32.27%；在 KuaiRand 数据集上，NDCG@5 提升了 18.86%。这些显著的性能提升归因于 HiD-VAE 在第一阶段学习到的高质量物品 ID。通过结合显式分层监督和新颖的解缠结机制，HiD-VAE 产生的物品表示不仅语义丰富、可解释，而且独一无二，为下游生成式推荐器提供了更强大的基础。

6.1.2. 结构化表示提升了生成模型的效率

尽管生成式方法代表了当前的前沿，但 HiD-VAE 以显著优势超越了所有这些方法。在生成模型家族内部，也出现了清晰的性能等级，这突显了标识符结构的重要性。

VQ-Rec（本文适配为生成任务）的性能始终低于 TIGER 和 LC-Rec。这表明其非分层标识符不太适合自回归解码，因为 Transformer 必须预测一系列独立的码，而没有从粗到细的语义结构，这可能导致更大的误差传播。
TIGER 和 LC-Rec 基于 RQ-VAE 的分层码在 VQ-Rec 的基础上有所改进，但它们仍然受到其无监督性质的限制，容易发生语义漂移 (semantic drift) 和 ID 冲突。
HiD-VAE 在此方面表现出色。其 分层监督 (HS) 过程确保了 ID 的每个层级都与有意义的类别对齐，而 通过唯一性损失实现解缠结 (DUL) 则积极最小化冲突。这导致了一个更鲁棒和解缠结的表示空间，使得后续的 Transformer 模型更容易建模，从而产生更精确和相关的推荐。

6.1.3. 生成范式优于判别式方法

一个更广泛的观察是，生成式模型 (HiD-VAE, LC-REC, TIGER) 在总体上优于依赖判别式评分的传统和基于 Transformer 的序列模型。这一趋势表明，直接生成物品标识符而非评分预选候选集的范式，是一种更强大的方法。它规避了表示学习与依赖近似最近邻搜索的方法中固有的检索/排序过程之间的潜在脱节。通过直接建模整个物品宇宙（由离散 ID 表示）的概率分布，HiD-VAE 能够捕捉更复杂和细致的用户偏好模式，证实了本文提出的“先学习再生成”两阶段方法的优势。

6.1.4. 数据呈现 (Table 1)

以下是原文 Table 1 的结果：

Dataset	Metric	Traditional				Transformer-based		Generative			Improv.
Dataset	Metric	GRU4Rec	Caser	HGN	NextItNet	SASRec	BERT4Rec	VQ-Rec	TIGER	LC-REC	Improv.	HiD-VAE
Beauty	R@5	0.0216	0.0093	0.0312	0.0143	0.0363	0.0116	0.0285	0.0312	0.0402	0.0543	+35.07%
	R@10	0.0293	0.0146	0.0358	0.0221	0.0498	0.0174	0.0431	0.0457	0.0563	0.0698	+23.98%
	N@5	0.0154	0.0058	0.0217	0.0090	0.0269	0.0082	0.0182	0.0209	0.0257	0.0358	+33.08%
	N@10	0.0180	0.0075	0.0256	0.0115	0.0301	0.0100	0.0225	0.0253	0.0366	0.0421	+15.03%
Sports	R@5	0.0097	0.0047	0.0162	0.0081	0.0202	0.0057	0.0291	0.0325	0.0385	0.0435	+12.99%
	R@10	0.0150	0.0080	0.0235	0.0130	0.0290	0.0089	0.0415	0.0474	0.0493	0.0632	+28.19%
	N@5	0.0065	0.0030	0.0111	0.0052	0.0118	0.0037	0.0199	0.0222	0.0251	0.0332	+32.27%
	N@10	0.0082	0.0040	0.0134	0.0067	0.0146	0.0047	0.0238	0.0270	0.0284	0.0397	+39.79%
KuaiRand	R@5	0.0298	0.0074	0.0297	0.0276	0.0332	0.0185	0.0513	0.0557	0.0622	0.0668	+7.40%
	R@10	0.0383	0.0118	0.0354	0.0327	0.0405	0.0217	0.0589	0.0624	0.0684	0.0785	+14.77%
	N@5	0.0217	0.0068	0.0169	0.0216	0.0338	0.0196	0.0354	0.0383	0.0403	0.0479	+18.86%
	N@10	0.0245	0.0095	0.0219	0.0278	0.0372	0.0236	0.0412	0.0445	0.0497	0.0586	+17.91%

6.2. 消融实验 (RQ2)

为了精确分离并量化 HiD-VAE 框架中每个核心组件的贡献，作者进行了一项细致的消融研究 (ablation study)。通过系统地停用关键机制来评估以下模型变体：

HiD-VAE (Full Model)：完整的模型，包含全部的 分层监督 (HS) 机制（标签对齐损失和标签预测损失）以及 通过唯一性损失实现解缠结 (DUL)。
w/o Tag Align：移除对比性的 标签对齐损失 ( $\mathcal{L}_{\text{align}}$ )，但保留了标签预测的直接分类信号和唯一性约束。
w/o Tag Pred：移除 标签预测损失 ( $\mathcal{L}_{\text{pred}}$ )。模型此时只能依靠对比对齐损失来构建其分层潜在空间。

w/o DUL：在没有 唯一性损失 ( $\mathcal{L}_{\text{unique}}$ ) 的情况下训练。为了处理可能发生的 ID 冲突 并确保下游推荐器有唯一的标识符，该变体采用了 TIGER [31] 的解决策略，即在任何冲突的语义 ID 末尾附加一个顺序递增的整数。

以下是原文 Table 2 的结果：

Methods	Beauty		KuaiRand
Methods	R@10	N@10	R@10	N@10
HiD-VAE	0.0698	0.0421	0.0785	0.0586
w/o Tag Align	0.0651	0.0392	0.0742	0.0541
w/o Tag Pred	0.0633	0.0378	0.0725	0.0529
w/o DUL	0.0524	0.0301	0.0668	0.0483

分析结果：

分层监督对语义接地至关重要：移除 HS 机制的任何组件都会导致性能显著下降。具体来说，移除 标签预测损失 (w/o Tag Pred) 导致的性能下降比移除 标签对齐损失 (w/o Tag Align) 更大。这表明，尽管两者都至关重要，但 $\mathcal{L}_{\text{pred}}$ 的直接分类信号作为更强的语义锚点，迫使每个代码映射到具体的类别。而对比性的 $\mathcal{L}_{\text{align}}$ 则对于优化潜在空间的几何结构至关重要，确保语义相似的类别在表示上接近。这两种损失的协同作用是学习鲁棒且有意义的层次结构的关键。
解缠结至关重要；避免 ID 冲突是核心：最显著的性能下降发生在 w/o DUL 变体中。这一发现至关重要。虽然采用 TIGER 式的事后修复（附加一个整数）技术上解决了 ID 冲突并避免了评估错误，但这付出了巨大的语义代价。这种策略将非语义的、任意的信息注入到物品标识符的最后一层。例如，一个纯粹代表“面膜”的 ID 可能会变成 [beauty, skincare, mask, 1]。这个附加的整数扰乱了学习到的语义序列，有效地引入了噪声，混淆了下游生成模型，并阻碍了其对物品真实属性的推理能力。这个结果有力地验证了作者的核心动机：在表示学习阶段实现内在解缠结远优于依赖破坏学习标识符语义完整性的肤浅后处理修复。

6.3. 定性洞察与分析 (RQ3)

为了更深入地了解所学习标识符的特性，作者首先提供了定量解缠结分析，然后进行了学习到的分层语义的定性探索。

6.3.1. 解缠结的有效性 (Effectiveness of Disentanglement)

ID 冲突是基于码本的标识符面临的主要挑战，即多个不同物品被映射到相同的离散 ID 序列。为了严格评估模型缓解此问题的能力，作者通过确定共享非唯一 ID 的物品占总物品的百分比来计算 ID 冲突率。较低的冲突率是高度理想的，因为它表示物品与其学习标识符之间更鲁棒的一对一映射，这对于推荐准确性和评估完整性至关重要。

以下是原文 Table 3 的结果：

Methods	Beauty	Sports	KuaiRand
VQ-Rec	21.2%	22.5%	20.3%
RQ-VAE	18.7%	19.5%	17.8%
HiD-VAE (Full)	2.1%	2.8%	1.9%
w/o DUL	17.5%	18.2%	16.9%
w/o HS	5.8%	6.5%	5.2%

分析结果：

无监督分词方法固有高冲突率：两个基线方法都表现出显著的 ID 冲突，其中 VQ-Rec 的扁平量化方案表现最差（在 Sports 上高达 22.5%）。这突出显示了现有无监督方法的根本弱点，其中缺乏显式约束导致显著的表示纠缠。
HiD-VAE 大幅降低冲突率：与此形成鲜明对比的是，完整的 HiD-VAE 模型将冲突率降低到可以忽略不计的水平（例如，Sports 上为 2.8%），与最强基线 (VQ-Rec) 相比，相对减少了惊人的 87.6%。这直接提供了定量证据，表明 HiD-VAE 框架实现了几乎单射的映射。
唯一性损失 (DUL) 是成功的主要驱动力：w/o DUL 变体缺乏 $\mathcal{L}_{\mathrm{unique}}$ 目标，其性能仅比 RQ-VAE 略好。这明确表明，显式的解缠结机制对于防止困扰标准 VQ-based 分词方案的表示崩溃至关重要。
分层监督 (HS) 间接有助于解缠结：一个有趣的发现是，w/o HS 变体虽然由于 DUL 的存在而显著优于基线，但其冲突率仍高于完整的 HiD-VAE 模型。这表明，通过标签对齐和预测在潜在空间上施加强大的、语义上有意义的结构，HS 损失自然地鼓励了物品表示的更好分离。这个预结构化的空间随后允许 DUL 更有效地运作，进一步增强了最终标识符的唯一性。

总之，结果证实，HiD-VAE 通过解缠结和结构化语义监督的协同组合，有效解决了 VQ 和 RQ 无监督分词方法中固有的关键 ID 冲突问题。

6.3.2. 解缠结效果的可视化 (Visualization of the Disentanglement Effect)

为了提供唯一性损失功效的直接定性证据，作者使用 t-SNE [28] 可视化了容易发生冲突的物品的初始潜在空间 ( $\boldsymbol{z}_0$ )。

使用 w/o DUL 消融模型在 Beauty 数据集上，首先识别出 ID 冲突率最高的 11 个细粒度类别。
从这些高冲突类别中，选择最多 50 个被错误映射到共享标识符的不同物品。
提取这些选定物品的初始潜在表示——在量化之前由编码器产生的连续向量 $\boldsymbol{z}_0$ ——分别来自 w/o DUL 模型和完整的 HiD-VAE 模型，然后使用 t-SNE 投影到 2D 空间进行可视化比较。

下图 (原文 Figure 3) 展示了解缠结效果的 t-SNE 可视化：

该图像是示意图，展示了使用DUL前后数据分布的差异。左侧为未使用DUL（纠缠状态），点群分布较为稀疏且呈现纠缠现象，右侧为使用DUL（解纠缠状态），点群则更为均匀，呈现出更明显的层级结构。

图 3: 唯一性损失 (DUL) 的解缠结效果的 t-SNE 可视化。每种颜色代表来自 11 个高冲突类别之一的一组不同物品。灰色点代表来自其他随机类别的物品，作为背景以说明潜在空间的整体结构。

分析结果：

图 3(a) (w/o DUL)：显示了来自 w/o DUL 模型的纠缠潜在空间，其中来自同一组（用单一颜色表示）的物品显著坍缩成重叠的表示。这种紧密的聚类使得物品无法区分，并直观地展示了 ID 冲突的根本原因。
图 3(b) (Full HiD-VAE)：显示了完整 HiD-VAE 模型的潜在空间。这里的结构显著地分离良好，因为 DUL 有效地将每组内的物品推开，确保它们获得唯一的表示。虽然来自同一类别的物品仍然占据相似的语义邻域，但它们现在清晰可分。

这直观地证实了唯一性损失在源头上解决表示纠缠的有效性，为学习独特且有意义的标识符奠定了坚实基础。

6.3.3. 推荐可解释性案例研究 (Case Study on Recommendation Interpretability)

为了展示 HiD-VAE 框架超越聚合指标的实际优势，作者进行了一项案例研究，比较了 HiD-VAE 与标准 RQ-VAE 基线。

下图 (原文 Figure 4) 展示了案例研究的结果：

fig 4 该图像是一个示意图，展示了 HiD-VAE 和 RQ-VAE 在推荐系统中的工作原理。图中左侧展示用户历史记录，接着通过各自的模型（RQ-VAE 和 HiD-VAE）生成语义 ID，然后经过 Transformer 模型预测下一个项目 ID。同时 HiD-VAE 通过层级标签和更细致的嵌入，提高了语义嵌入质量和推荐多样性。

图 4: 案例研究比较了标准 RQ-VAE 与 HiD-VAE。对于同一个用户，HiD-VAE 学习了一个透明的语义路径（例如，“护肤 -> 护理 -> 精华”），实现了可追溯的推理。相比之下，基线的模糊代码（例如，“[17, 83, 152]”）导致黑箱逻辑，并有生成无效推荐的风险。

分析结果：

RQ-VAE 的局限性：RQ-VAE 将物品（如精华液）映射到不透明的标识符（例如，[17, 83, 152]）。这些代码的语义含义未知，使得生成过程成为依赖统计模式匹配的黑箱。
HiD-VAE 的可解释性：相比之下，HiD-VAE 生成透明、自解释的 ID（例如，[5, 12, 47]），可以直接解码为人类可读的路径：“护肤 -> 护理 -> 精华”。这使得生成过程能够遵循可追溯的推理。
层次感知语义嵌入的增强：在基于 Transformer 的推荐器中，层次感知语义嵌入 被采用，其中语义 ID 中的每个词元都被映射到来自嵌入模型的语义向量，并与可学习的 ID 嵌入和层级特定的类型嵌入拼接。这些嵌入是联合学习的，通过显式语义信息丰富了表示，以更好地捕捉从粗到细的语义路径，从而提高了整体性能。

这种根本的表示差异直接影响了最终推荐的质量和可靠性。虽然两个模型都可能推荐相关物品，但基线只能提供数字 ID 列表。更关键的是，其无约束生成可能会“幻觉”出不对应任何真实物品的无效 ID 组合。然而，HiD-VAE 提供了基于其显式语义路径的解释，增强了用户信任。此外，由于其生成受到学习到的标签层次结构的约束，它在机械上能够鲁棒地防止生成无效 ID。这种卓越的可控性和可信度对于在现实世界系统中部署生成式推荐器至关重要。

6.3.4. 标签预测器架构和各层准确性 (Tag Predictor Architecture and Per-Layer Accuracy)

每个层级的标签预测器都是一个多层感知器 (Multi-Layer Perceptron, MLP)，并带有增强的鲁棒性设计：

首先是一个自注意力机制 (self-attention mechanism) 来加权输入特征。
接着是一个特征提取层（线性投影到隐藏维度，可选的 LayerNorm，ReLU 激活函数和 dropout）。
两个残差块 (residual blocks)，每个残差块包含线性投影、中间的 LayerNorm、ReLU 和 dropout，用于特征细化。
最后一个分类头 (classification head)，包含多个线性层，带有 LayerNorm、ReLU 和降低的 dropout。关键的超参数会根据层级进行调整：隐藏维度从输入嵌入大小的两倍开始，并随层级深度增加（例如，乘以 $(l+1)$ ），而 dropout 率逐渐增加，以防止在复杂、细粒度的预测上过拟合。在整个过程中，可选地应用批次归一化 (Batch Normalization) 以实现稳定训练。

以下是原文 Table 5 的结果：

Dataset	Layer 1 (Coarse)	Layer 2 (Medium)	Layer 3 (Fine)
Beauty	96.38(7)	92.73(30)	85.61(97)
Sports	93.68(23)	87.54(70)	83.27(119)
KuaiRand	87.84(38)	83.58(97)	77.49(146)

分析结果：为了评估这些层级特定预测器的有效性，Table 5 报告了三个数据集上的各层分类准确率。括号中的数字表示每个层级的有效标签类别数量（过滤掉少于 30 个样本的极稀有类别，以缓解类别不平衡并聚焦于代表性良好的语义）。结果表明，在所有层级上都保持了持续强劲的性能，准确率从最粗粒度层（Layer 1）的 96.38% 到最细粒度层（Layer 3）在 Beauty 数据集上高达 85.61%，尽管类别粒度和数量逐渐增加。值得注意的是，即使在更深的层级，类别数量增加到 97-146——随机猜测准确率可能低至 0.68%-1.03% 的多分类问题——所实现的准确率仍然稳健并显著优于朴素基线，这突显了缩放后的分类器架构在处理复杂、分层语义区分方面的有效性。这种性能水平尤其令人满意，考虑到细粒度分类在类别多样和数量众多时的固有挑战，验证了该框架在不显著降低预测可靠性的情况下捕捉细微物品表示的能力。

6.4. 超参数敏感度 (Hyperparameter Sensitivity)

6.4.1. 对 HiD-VAE 中量化层数量的敏感度

为了进一步评估 HiD-VAE 框架的鲁棒性，作者对量化层数量 $L$ 进行了敏感度分析，这是一个决定分层语义 ID 深度 (depth) 的关键超参数。评估了 $L \in \{3, 4, 5\}$ 时的性能，重点关注 Beauty 和 KuaiRand 数据集上的 Recall@10 和 NDCG@10 指标。

排除了 $L=2$ 的结果，因为初步实验表明，两层语义 ID 存在严重的表示限制，包括高 ID 冲突率和不足的语义粒度，无法捕捉细粒度物品区分，导致学习到的表示不足以进行有效的生成式推荐。

下图 (原文 Figure 6) 展示了量化层数量 $L$ 对 Recall@10 和 NDCG@10 的敏感度分析：

该图像是一个示意图，展示了现有 ID 生成器（左侧）与我们 HiD-VAE 解决方案（右侧）的对比。在左侧的传统生成器中，存在 ID 冲突的问题，而右侧的 HiD-VAE 采用了分层且独立的语义 ID 方案，有效避免了这一问题，增强了推荐的准确性和多样性。

图 6: 量化层数量 $L$ 对 Recall@10 和 NDCG@10 的敏感度分析。性能在 $L=4$ 达到峰值，但在 $L=5$ 时下降，表明随着深度增加收益递减。

分析结果：

从图 6 中可以看出，将 $L$ 从 3 增加到 4 会带来边际改进（例如，Beauty 上 Recall@10 提升 $+4.88%$ ，KuaiRand 上 $+4.97%$ ），因为额外的层能够实现更精细的语义分解。
然而，进一步增加到 $L=5$ 导致性能下降（例如，Beauty 上 Recall@10 相对于 $L=4$ 下降 -5.86%），在某些情况下甚至低于 $L=3$ 的基线。
这种收益递减现象 (diminishing returns phenomenon) 突出表明，深度增加带来的收益与成本不成比例，更深的层次会增加训练成本（由于阶段 1 的量化开销增加和阶段 2 的序列长度增加），而性能提升并不显著，这很可能源于优化挑战，例如量化误差的传播和更困难的自回归建模。

这些发现强调了平衡层次深度与计算效率的重要性，验证了默认选择 $L=3$ 是一个最佳权衡，在不过度开销的情况下实现了强大的性能。

6.4.2. 唯一性损失参数分析

为了评估 HiD-VAE 对 唯一性损失 权重 $\beta_{\mathrm{unique}}$ 的鲁棒性，作者在固定其他参数的情况下，将其变化范围设置为 $\{0.5, 1.0, 2.0, 3.0, 4.0\}$ 。

下图 (原文 Figure 7) 展示了唯一性损失权重 $\beta_{\mathrm{unique}}$ 和唯一性边距 $m$ 对 Beauty 数据集上 Recall@10 和 NDCG@10 的敏感度分析：

fig 3 该图像是示意图，展示了使用DUL前后数据分布的差异。左侧为未使用DUL（纠缠状态），点群分布较为稀疏且呈现纠缠现象，右侧为使用DUL（解纠缠状态），点群则更为均匀，呈现出更明显的层级结构。

图 7: 唯一性损失权重 $\beta_{\mathrm{unique}}$ 和唯一性边距 $m$ 对 Beauty 数据集上 Recall@10 和 NDCG@10 的敏感度分析。性能在 $\beta_{\mathrm{unique}}=2.0$ 达到峰值，但在更高值时下降，而指标随着 $m$ 增加到 0.9 而提高，表明在平衡惩罚下实现了最佳解缠结。

分析结果：

唯一性损失权重 $\beta_{\mathrm{unique}}$ ：如图 7a 所示，在 Beauty 数据集上，性能在 $\beta_{\mathrm{unique}} = 2.0$ 达到峰值，此时 $Recall@10 = 0.0698$ 和 $NDCG@10 = 0.0421$ 。这表明在该值下，解缠结得到了充分执行，同时没有过度影响其他目标，达到了最佳平衡。较低的值由于 ID 冲突增加会导致指标略微下降，而较高的值可能会过度惩罚并扰乱潜在空间结构。
唯一性边距 $m$ ：图 7b 显示，在 Beauty 数据集上，指标随着 $m$ 的增加而提高，在 $m = 0.9$ 时达到了最佳结果（ $Recall@10 = 0.0698$ ， $NDCG@10 = 0.0421$ ）。这是因为更严格的边距能更好地分离冲突的表示。较低的边距允许更多的重叠，降低了解缠结的有效性。

7. 总结与思考

7.1. 结论总结

本文提出了 HiD-VAE，一个用于生成式推荐的新型框架，它成功解决了现有语义 ID 分词技术中的核心局限性：语义扁平化和表示纠缠。通过开创性地引入分层监督量化过程和唯一性损失，HiD-VAE 能够学习到可解释、解缠结的物品表示。这些表示不仅与多级标签对齐，而且最大限度地减少了 ID 冲突。在 Beauty、Sports 和 KuaiRand 三个公共基准数据集上进行的广泛实验表明，HiD-VAE 在推荐性能上达到了最先进的水平，显著超越了此前的判别式和生成式模型。HiD-VAE 不仅统一了推荐流水线，还增强了推荐的可追溯性和可解释性，为更稳健的现实世界部署铺平了道路。

7.2. 局限性与未来工作

作者在论文中指出了 HiD-VAE 的一些局限性，并提出了未来的研究方向：

多模态数据集成：目前 HiD-VAE 主要依赖文本内容特征。未来的工作计划将 HiD-VAE 的 ID 生成扩展到多模态语义 ID，整合图像、视频和音频与文本数据。这将通过像 CLIP 这样的编码器实现，使得离散代码能够与跨模态层次结构对齐，捕捉更丰富的细微差别（例如，时尚中的视觉风格，音乐中的听觉模式），从而在电子商务和社交网络等异构领域实现更高的准确性和可解释性。
增强生成阶段与 LLM 结合：目前的生成阶段使用了 Transformer 模型。未来计划利用大型语言模型 (LLMs) 提升生成阶段的高级序列建模能力。通过在分层 ID 上对 LLM 进行微调或提示 (prompting)，可以利用 LLM 的推理能力处理复杂的意图和依赖关系，并结合混合架构、推理或反事实分析来提升推荐的多样性和个性化。
其他未来方向：更广泛的工作还包括探索扩散模型 (diffusion models) 用于 ID 合成，以改善长尾覆盖和公平性问题，同时通过联邦学习 (federated learning) 提升隐私保护。

7.3. 个人启发与批判

7.3.1. 个人启发

HiD-VAE 提供了一个非常重要的研究方向，即如何将模型的可解释性和鲁棒性融入到深度学习推荐系统中，尤其是在生成式推荐这一新兴范式中。

可解释性是生成式推荐的关键：论文强调了生成式推荐中语义 ID 的可解释性问题，并通过显式分层监督解决了这一痛点。这启发了我，在设计复杂的深度学习模型时，不应仅仅追求性能指标，而应更多地考虑模型输出的透明度和可解释性，这对于用户信任和实际应用至关重要。将“黑箱”模型转化为能够提供“为什么推荐”理由的模型，是推荐系统走向成熟的重要一步。
解缠结的重要性超越了性能：唯一性损失 的引入不仅提升了推荐性能，更从根本上解决了 ID 冲突 这一困扰生成式推荐的顽疾。这表明，在潜在空间中追求高质量的表示（如解缠结、唯一性）本身就是一项有价值的研究，它能为下游任务提供更稳定的基础，避免事后修复带来的负面影响。这种从源头解决问题的思路，比单纯优化损失函数更具深远意义。
LLM 在数据增强中的潜力：利用 LLM 辅助生成分层标签，有效解决了真实数据标签稀缺的问题。这展示了 LLM 在数据预处理和增强方面的巨大潜力，尤其是在结构化信息缺失的场景下。通过巧妙的“检索-分类”范式，可以有效规避 LLM 幻觉问题，使其成为传统机器学习流程的强大补充。

7.3.2. 批判性思考

尽管 HiD-VAE 在可解释性和性能上取得了显著进展，但仍有一些潜在问题和可以改进的地方：

LLM 标签生成成本与质量：尽管 LLM 辅助标签生成解决了标签稀缺问题，但其生成质量仍然可能受到 LLM 自身能力、提示工程 (prompt engineering) 效果以及候选标签集质量的影响。对于超大规模的物品目录，LLM 推理的计算成本和时间成本也可能很高。此外，LLM 生成的标签是否总能完美契合人类认知的“真实”层次结构，仍需更细致的人工评估。
多层级监督的复杂性与泛化：HiD-VAE 依赖于多层级的标签体系。在某些领域或非常细粒度的层次上，定义明确且均衡的层次结构本身就是一项挑战。如果层次结构定义不佳或过于稀疏，可能会影响分层监督的有效性。此外，对于高度动态或长尾 (long-tail) 的物品，其标签可能更难以捕捉和维持。
潜在空间维度与语义粒度：论文中使用了 $L=3$ 或 $L=4$ 的量化层，以及 $K=256$ 的码本大小。这些参数的选择直接影响了语义 ID 的表达能力和粒度。如何更自适应地确定最佳层数和码本大小，以平衡语义细节和计算效率，是一个值得探讨的问题。过多的层或过大的码本可能导致过拟合或训练困难，而过少则可能无法捕捉足够的语义。
动态环境下的适应性：推荐系统往往处于动态变化的环境中，物品类别和用户偏好会随时间演变。HiD-VAE 学习的语义 ID 和码本在多大程度上能够适应这种动态性？是否需要周期性地更新或重新训练 HiD-VAE 的第一阶段，以及如何高效地进行更新，是一个实际部署中需要考虑的问题。
损失函数的权重平衡：总损失函数 $\mathcal{L}_{\mathrm{H i d - V A E}}$ 中包含多个损失项，并通过超参数 $\beta_{\mathrm{commit}}$ , $\beta_{\mathrm{sup}}$ , $\beta_{\mathrm{unique}}$ 进行加权。这些权重的选择对模型的最终性能和特性（如纠缠程度、可解释性）至关重要。虽然进行了敏感度分析，但在更复杂或不同领域的数据集上，这些权重的鲁棒性和泛化能力仍需进一步验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。