AiPaper
论文状态:已完成

Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits

发表:2024/10/20
原文链接
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文探讨了推荐系统中的曝光偏差问题,提出了一种新型的曝光感知奖励模型,专注于在线学习排序的线性级联老虎机(CB)。该模型根据物品在推荐列表中的位置调整效用,显著提高推荐的曝光公平性,同时保留推荐准确性,实验证明优于现有基线。

摘要

Exposure bias is a well-known issue in recommender systems where items and suppliers are not equally represented in the recommendation results. This bias becomes particularly problematic over time as a few items are repeatedly over-represented in recommendation lists, leading to a feedback loop that further amplifies this bias. Although extensive research has addressed this issue in model-based or neighborhood-based recommendation algorithms, less attention has been paid to online recommendation models, such as those based on top-K contextual bandits. In this paper, we study exposure bias in a class of well-known contextual bandit algorithms known as Linear Cascading Bandits. We propose an Exposure-Aware reward model that mitigates exposure bias by controlling the utility assigned to the items based on their exposure in the recommendation list. Our experiments with real-world datasets show that our proposed model improves exposure fairness while maintaining recommendation accuracy and outperforms current baselines.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits (缓解在线排序学习推荐中的曝光偏差:一种面向级联老虎机的新型奖励模型)

1.2. 作者

  • Masoud Mansoury: 代尔夫特理工大学 (Delft University of Technology), 荷兰
  • Bamshad Mobasher: 德保罗大学 (DePaul University), 美国
  • Herke van Hoof: 阿姆斯特丹大学 (University of Amsterdam), 荷兰

1.3. 发表期刊/会议

CIKM 2024: The 33rd ACM International Conference on Information and Knowledge Management. (CIKM 是信息检索、知识管理和数据库领域的顶级国际学术会议之一,具有较高的学术影响力。)

1.4. 发表年份

2024年10月20日

1.5. 摘要

推荐系统中的曝光偏差 (Exposure Bias) 是一个众所周知的问题,即少部分物品频繁出现在推荐列表中,而大多数物品则鲜有问津。这种偏差会随着时间推移形成反馈循环,进一步加剧不公平性。虽然现有研究多集中在静态推荐模型上,但对在线推荐模型(如基于 Top-KK 上下文老虎机的模型)的关注较少。本文研究了著名的线性级联老虎机 (Linear Cascading Bandits) 中的曝光偏差问题,并提出了一种曝光感知 (Exposure-Aware) 的奖励模型。该模型通过根据物品在推荐列表中的位置来控制分配给物品的效用(Utility),从而缓解曝光偏差。实验表明,该模型在保持推荐准确性的同时,显著提高了曝光的公平性。

1.6. 原文链接

/files/papers/69231c885d6d955da7ea73d3/paper.pdf (已发表于 CIKM '24)

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 推荐系统往往倾向于推荐热门物品,导致“富者越富”的马太效应,即曝光偏差。这不仅损害了长尾物品供应商的利益,也限制了用户发现新颖内容的机会。
  • 现有挑战: 目前关于曝光偏差的研究大多针对静态环境(一次性推荐)。然而,现代推荐系统通常是动态且交互式的,模型会根据用户的实时反馈不断更新。在这种在线学习场景下(特别是使用 Contextual Bandits 算法),偏差是如何随时间累积和放大的,尚缺乏深入研究。
  • 研究空白: 现有的级联老虎机 (Cascading Bandits, CB) 算法在处理用户反馈时,往往忽略了物品在推荐列表中的位置信息。例如,用户点击列表第 1 位的物品和第 10 位的物品,传统算法给予的奖励是一样的。作者认为,忽略位置信息是导致模型无法有效缓解曝光偏差的关键原因。

2.2. 核心贡献与主要发现

  • 分析与洞察: 论文首先分析了标准的线性级联老虎机算法,发现即使引入了探索机制(Exploration),它在长期运行中也无法自动缓解曝光偏差。
  • 新模型 (EACB): 提出了一种曝光感知级联老虎机 (Exposure-Aware Cascading Bandit, EACB)。其核心创新在于设计了一个新的奖励模型
    • 奖励机制: 如果用户点击了排名靠后的物品,模型会给予比点击排名靠前物品更高的奖励(因为用户费力找到了它,说明它真的很重要)。
    • 惩罚机制: 如果用户忽略了排名靠前的物品,模型会给予更重的惩罚(因为物品占据了宝贵位置却未被点击)。
  • 理论与实验: 论文证明了该方法的遗憾界(Regret Bound)具有理论保证,并在 MovieLens 和 Yahoo Music 两个真实数据集上验证了该方法在提升公平性和准确性方面均优于现有基线模型。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文,初学者需要掌握以下核心概念:

  • 推荐系统中的学习排序 (Learning to Rank): 指模型学习如何对一组物品进行排序,以便将用户最感兴趣的物品排在前面。
  • 上下文多臂老虎机 (Contextual Multi-Armed Bandits, CMAB):
    • 想象一个赌徒面对多台老虎机(Arms/Items),每台机器吐钱的概率不同。
    • 上下文 (Context): 赌徒在做决定前能看到一些特征信息(如用户画像、物品特征)。
    • 智能体 (Agent): 推荐算法本身,负责选择推哪些物品。
    • 奖励 (Reward): 用户的反馈(如点击为 1,未点击为 0)。
    • 目标是最大化长期累积奖励。算法需要在探索 (Exploration,尝试新物品)利用 (Exploitation,推已知好物品) 之间通过权衡。
  • 级联模型 (Cascade Model): 这是一种描述用户浏览行为的模型。假设用户从上到下依次浏览推荐列表:
    1. 看到第 1 个物品,感兴趣则点击并停止浏览;不感兴趣则继续看第 2 个。
    2. 以此类推,直到点击某个物品或看完列表离开。
    3. 关键假设: 点击的物品上方的所有物品都被视为“看过但不感兴趣”(负反馈),点击物品下方的物品被视为“未观察到”(无反馈)。
  • 曝光偏差 (Exposure Bias): 系统过度展示某些物品,导致曝光机会在物品间分配极不均匀。

3.2. 前人工作与技术演进

  • 离线去偏: 早期工作多关注如何在离线训练数据中去除偏差(如通过逆倾向评分 IPS)。
  • 公平性约束: 有些工作通过在优化目标中加入公平性约束(Regularization)来强制模型公平推荐。
  • 重排序 (Re-ranking): 生成推荐列表后,通过后处理步骤调整顺序以保证公平性(如本文对比的基线 EARSLinUCB)。
  • 本文定位: 本文属于在线学习 (Online Learning) 范畴。与重排序不同,它直接修改了模型从反馈中学习 (Update) 的方式,从源头上干预偏差的形成。

4. 方法论

4.1. 方法原理

标准级联老虎机认为:只要被点击,奖励就是 1;只要被观察但未被点击,奖励就是 0(或惩罚)。 本文的核心直觉 (Intuition):

  1. 位置越低,价值越高: 位于列表底部的物品很难被用户发现。如果用户点击了底部的物品,说明用户对它的喜爱程度足以克服位置劣势,因此模型应该给予该物品更高的权重(奖励)。
  2. 位置越高,责任越大: 位于列表顶部的物品占据了最好的曝光资源。如果用户看到了却没点击,说明模型严重误判了它的吸引力,因此应该给予更重的惩罚。

4.2. 核心方法详解

4.2.1. 曝光感知奖励模型 (Exposure-Aware Reward Model)

这是论文最核心的创新点。作者重新定义了模型更新时的权重向量 wt\mathbf{w}_t

在标准级联老虎机中,奖励仅是二值的(点击/未点击)。而在 EACB 中,权重 wtEA\mathbf{w}_t^{EA} 定义如下:

wtEA(L(k))=Ft,k×1[Ct=k]γFt,k×1[Ct<k] \mathbf { w } _ { t } ^ { E A } ( \mathcal { L } ( k ) ) = \mathcal { F } _ { t , k } \times \mathbb { 1 } \left[ C _ { t } = k \right] - \gamma \mathcal { F } _ { t , k } \times \mathbb { 1 } \left[ C _ { t } < k \right]

符号解释:

  • L(k)\mathcal { L } ( k ): 推荐列表 L\mathcal{L} 中第 kk 个位置的物品。
  • CtC_t: 用户在第 tt 轮点击的物品的位置(如果没有点击,则 Ct=K+1C_t = K+1)。
  • 1[]\mathbb { 1 } [ \cdot ]: 指示函数。条件为真时值为 1,否则为 0。
  • Ft,k\mathcal { F } _ { t , k } (权重函数): 一个基于位置 kk 的函数,用于放大或缩小奖励/惩罚。
  • γ\gamma (惩罚系数): 控制对“未点击”物品的惩罚力度。

公式逻辑拆解:

  1. 奖励项 (第一部分): Ft,k×1[Ct=k]\mathcal { F } _ { t , k } \times \mathbb { 1 } \left[ C _ { t } = k \right]
    • 当物品被点击时 (Ct=kC_t = k),该项生效。
    • 模型获得的奖励不再是单纯的 1,而是 Ft,k\mathcal{F}_{t,k}。如果 Ft,k\mathcal{F}_{t,k}kk 增大而增大(即位置越靠后权重越大),则点击底部物品会给模型带来更大的正向更新。
  2. 惩罚项 (第二部分): γFt,k×1[Ct<k]- \gamma \mathcal { F } _ { t , k } \times \mathbb { 1 } \left[ C _ { t } < k \right]
    • 当物品位于点击位置之前 (k<Ctk < C_t),即被用户看到但跳过时,该项生效。
    • 模型受到的惩罚是 γFt,k-\gamma \mathcal{F}_{t,k}。如果 Ft,k\mathcal{F}_{t,k} 在顶部较大,则忽略顶部物品会带来严厉惩罚。

权重函数 Ft,k\mathcal{F}_{t,k} 的选择: 作者提出了三种形式,如下图所示(原文 Figure 1)。这些函数决定了不同位置的“分量”。

Figure 1: Reward distribution of CB and EACB for different weight functions when click is observed at varying positions in the list. 该图像是图表,展示了在不同权重函数下,点击项目在推荐列表中不同位置时CB(Cascade Bandit)和EACB(Exposure-Aware Cascade Bandit)的奖励分布。三种权重函数(对数、指数和线性)下的奖励随点击位置的变化表现出不同的趋势。

上图直观展示了不同函数(对数 Log、线性 Linear、指数 RBP)如何分配奖励。可以看到,随着点击位置(Rank of clicked item)变大(即越靠后),Log 和 Linear 函数赋予的奖励显著增加。

4.2.2. 算法流程 (EALinUCB)

作者将上述奖励模型集成到了线性上置信界算法 (Linear UCB) 中。以下是算法的关键步骤,结合公式进行解析:

步骤 1: 用户偏好估计 (Ridge Regression) 在每一轮 tt,算法需要估计用户对物品特征 xi\mathbf{x}_i 的偏好向量 θ\theta^*。由于 θ\theta^* 未知,算法使用岭回归(Ridge Regression)进行估计:

θ^t=(XtTXt+λI)1XtTW^t \hat { \theta } _ { t } = ( X _ { t } ^ { T } X _ { t } + \lambda I ) ^ { - 1 } X _ { t } ^ { T } \hat { W } _ { t }

符号解释:

  • XtX_t: 历史交互物品的特征矩阵。
  • W^t\hat{W}_t: 历史交互物品的权重向量注意:在 EACB 中,这里使用的就是经过公式 (6) 计算出的带位置权重的 wtEA\mathbf{w}_t^{EA},而不是简单的 0/1。
  • λI\lambda I: 正则化项,防止过拟合。

步骤 2: 物品打分与选择 (UCB Strategy) 为了平衡探索与利用,算法计算每个物品的置信区间上界 (UCB) 分数:

Ut(i)=θ^txiT+αxiMt11xiT U _ { t } ( i ) = \hat { \theta } _ { t } x _ { i } ^ { T } + \alpha \sqrt { x _ { i } M _ { t - 1 } ^ { - 1 } x _ { i } ^ { T } }

符号解释:

  • θ^txiT\hat { \theta } _ { t } x _ { i } ^ { T }: 利用项。当前估计的用户对物品 ii 的喜爱程度。

  • α\alpha \sqrt { \dots }: 探索项。量化了对物品 ii 估计的不确定性。不确定性越高,分数加成越多,促使算法去探索它。α\alpha 是控制探索力度的超参数。

  • Mt1M_{t-1}: 协方差矩阵 (XTX+λIX^T X + \lambda I),记录了特征的分布情况。

    算法选择 Ut(i)U_t(i) 得分最高的 Top-KK 个物品生成推荐列表 Lt\mathcal{L}_t

步骤 3: 观察反馈与参数更新 展示列表 Lt\mathcal{L}_t,观察用户点击位置 CtC_t。 然后,算法根据 公式 (6) 计算观测到的权重,并更新矩阵 MtM_t 和向量 BtB_t(用于下一次计算 θ^t+1\hat{\theta}_{t+1})。

关键区别: 传统 LinUCB 在更新 BtB_t 时,点击加 1,未点击加 0(或 -1)。而 EALinUCB 根据物品位置 kkFt,k\mathcal{F}_{t,k} 或减 γFt,k\gamma \mathcal{F}_{t,k}

5. 实验设置

5.1. 数据集

实验使用了两个经典的真实世界数据集:

  1. MovieLens 1M: 包含 6000 名用户对 4000 部电影的 100 万条评分。
  2. Yahoo Music: 包含 180 万用户对 13.6 万首歌曲的评分。
  • 预处理: 将 1-5 的评分转化为二值反馈(4-5 分视为喜欢/点击,其他为不喜欢)。实验中抽取了最活跃的 1000 名用户进行模拟。

5.2. 评估指标

1. 准确性指标 (Accuracy)

  • 平均点击数 (clicks\overline { { c l i c k s } }): 衡量系统产生相关推荐的能力。 clicks=#clicksU×n \overline { { c l i c k s } } = \frac { \# c l i c k s } { | \mathcal { U } | \times n } 符号解释: #clicks\#clicks 是总点击次数, U|\mathcal{U}| 是用户总数,nn 是总轮数。值越接近 1 越好。

2. 公平性指标 (Exposure Fairness)

论文使用了基于 基尼系数 (Gini Index) 的指标。基尼系数通常用于衡量收入不平等,这里用于衡量曝光量 (Exposure) 分布的不均匀程度。为了方便理解,作者报告的是 1Gini1 - \text{Gini},即值越大越公平(1 表示绝对公平)。

作者定义了四种具体的公平性指标(见 Table 1):

  1. Equality(B): 仅考虑是否出现(Binary),不考虑物品自身质量(Merit)。追求所有物品曝光机会均等。
  2. Equality(P): 考虑位置(Position-based),不考虑物品质量。位置越靠前,算作的曝光量越大。
  3. Equity(B): 仅考虑是否出现,但考虑物品质量。即:好物品应该获得更多曝光。
  4. Equity(P): 考虑位置,也考虑物品质量。这是最理想的公平性指标,即曝光量应与物品的真实相关性成正比

3. 遗憾值 (Regret)

  • n步遗憾 (R(n)): 衡量在线算法与“全知全能”的最优策略之间的差距。差距越小越好。

5.3. 对比基线

  • LinUCB: 原始的线性级联老虎机,没有位置感知的奖励机制。
  • EARSLinUCB (Post-processing): 一种后处理方法。先用 LinUCB 生成推荐,然后以一定概率随机打乱排名靠后的物品,以此增加曝光机会。
  • FRMLinUCB (Regularization): 一种在优化目标中加入公平性约束的方法,试图最小化公平性遗憾。

6. 实验结果与分析

6.1. 核心结果分析:探索 vs. 偏差 (RQ1)

作者首先探究了一个问题:仅仅增加 LinUCB 的探索力度(调大 α\alpha),能否解决曝光偏差?

下图(原文 Figure 2)展示了在 MovieLens 数据集上的结果:

Figure 2: The effect of varying the degree of exploration with \(\\alpha \\in \\{ 0 . 2 5 , 0 . 7 5 , 1 , 2 , 5 \\}\) on the performance of LinUCB in terms of clicks and exposure bias on MovieLens dataset for \(d = 1 0\) and \(K = 1 0\) Left plot shows the average exploration across all users at b) \(n\) -step-regret as in Eq. 4, c-f) fairness metrics computed on accumulated exposure values at each round. 该图像是图表,展示了不同探索度 eta ext{ (例如 } eta ext{ = 0.25, 0.75, 1, 2, 5)} 对 LinUCB 在 MovieLens 数据集上的点击数和曝光偏差的影响。左侧图显示了各用户的平均探索情况,包含了 n-step-regret 和各轮的公平性指标。

  • 图左 (Average exploration): 随着时间推移,探索度会迅速下降(算法变得“自信”了,不再尝试新东西)。
  • 图 b (Regret): 探索度 α\alpha 越大,遗憾值越高(性能越差),这是符合预期的。
  • 图 c-f (Fairness): 关键发现是,增加 α\alpha 并没有显著提升公平性指标。虽然在初期(探索阶段)公平性有所上升,但一旦探索停止,公平性就不再改善,甚至停滞在较低水平。
  • 结论: 单纯依赖 Bandit 算法自带的探索机制不足以解决长期的曝光偏差问题,必须引入额外的干预机制。

6.2. 核心结果分析:EACB vs. 基线 (RQ2)

作者对比了 EALinUCB(本文方法,使用三种不同权重函数)与基线方法的性能。

以下是原文 Table 4 的结果(针对 MovieLens 和 Yahoo 数据集,列表长度 K=10K=10):

Method F ML (MovieLens) Yahoo Music
clicks EqualityB EqualityP EquityB EquityP clicks EqualityB EqualityP EquityB EquityP
LinUCB 0.3722 0.3974 0.3656 0.0555 0.0507 0.3154 0.4469 0.404 0.4429 0.4002
EARSLinUCB 0.3721 0.3974 0.3848 0.0562 0.0541 0.3157 0.4467 0.4467 0.4429 0.4429
FRMLinUCB 0.3574 0.4029 0.4157 0.0572 0.055 0.3085 0.4517 0.4596 0.4517 0.4498
EALinUCB (ours) Log 0.3605 0.494 0.514 0.065 0.065 0.3073 0.495 0.5174 0.485 0.473†
EALinUCB (ours) RBP 0.3722 0.4074 0.434 0.0555 0.0557 0.3171 0.4489 0.553 0.4614 0.4585
EALinUCB (ours) Linear 0.3585 0.498 0.5062 0.0601 0.0604 0.3008 0.4552 0.5312 0.461 0.4542
  • 公平性提升: 在绝大多数公平性指标(Equality 和 Equity)上,EALinUCB 都显著优于所有基线模型。特别是 EqualityP(位置公平性),提升幅度巨大。这意味着该算法有效地将曝光机会分配给了更多的物品。

  • 准确性保持: 在点击率(clicks)方面,EALinUCB 与原始 LinUCB 相比互有胜负,但差距非常小。这说明公平性的提升并没有以牺牲推荐准确性为代价。相比之下,FRMLinUCB 虽然提升了公平性,但点击率下降较明显。

    下图(原文 Figure 3)展示了公平性随回合数的变化,EALinUCB(彩色线)在长期运行中始终保持着比 LinUCB(蓝色线)更高的公平性水平。

    Figure 3: Comparison of LinUCB and EALinUCB with three weight functions in terms of Equality(P) per round for \(d = 1 0\) , \(K = 1 0 .\) . \(\\alpha = 0 . 2 5\) , and \(\\gamma = 0\) At each round `t _ { : }` ,Equality `( P )` is computed over the accumulated exposure up to round \(t\) . 该图像是一个图表,比较了LinUCB和EALinUCB在三种权重函数下的Equality(P)随回合变化的情况,分别针对MovieLens和Yahoo Music数据集。Equality(P)是根据累计曝光计算的,其值在不同回合中表现出变化,图中显示了Base (LinUCB),对数型、指数型和线性权重函数的比较。

下图(原文 Figure 4)进一步分析了曝光是如何重新分配的。

  • X轴: 物品按 LinUCB 分配的曝光量从高到低排序(左边是热门物品,右边是冷门物品)。

  • Y轴: EALinUCB 相比 LinUCB 的曝光量变化百分比。

  • 颜色: 点击量的变化。

    Figure 4: Exposure analysis of our EALinUCB with three different weight functions for \(d = 1 0\) and \(K = 1 0\) Colorbar shows the percentage increase/decrease in clicks. Items are sorted based on their exposure \(( E ^ { ( P ) } )\) by LinUCB in descending order from left hmeoe nmn. 该图像是图表,展示了不同权重函数下 EALinUCB 的曝光分析,包括对 MovieLens 和 Yahoo Music 数据集的结果。图中显示了在 LinUCB 中,项目的过曝与欠曝情况,以及相应的点击变化 riangleE(P) riangle E ^ { ( P ) } ,各个图的横轴为项目数量,纵轴为点击变化百分比。

    分析: 可以看到曲线左侧在 y=0y=0 以下,说明热门物品的过度曝光被削减了;曲线右侧在 y=0y=0 以上,说明长尾物品获得了更多的曝光。且右侧红点较多,说明这些被“提拔”的长尾物品实际上也获得了用户的点击,证明它们是相关的。

6.3. 参数分析:惩罚系数 γ\gamma 的影响 (RQ3)

下图(原文 Figure 5)展示了惩罚系数 γ\gamma 对结果的影响。

  • 横轴为点击率,纵轴为公平性。

  • 结论: 适度的 γ\gamma (如 0.005) 能在提升公平性的同时保持准确性。但如果 γ\gamma 过大 (如 0.2),模型会过度惩罚未点击物品,导致其“不敢”推荐这些物品,从而损害推荐准确性(点击率大幅下降)。

    该图像是一个图表,展示了不同算法在点击数与公平性之间的关系。图中包含了基线算法(LinUCB)、对数、指数和线性算法的比较,横轴为点击次数,纵轴为公平性指标。各算法的性能曲线展示了在不同点击数下的公平性变化。 该图像是一个图表,展示了不同算法在点击数与公平性之间的关系。图中包含了基线算法(LinUCB)、对数、指数和线性算法的比较,横轴为点击次数,纵轴为公平性指标。各算法的性能曲线展示了在不同点击数下的公平性变化。

7. 总结与思考

7.1. 结论总结

本文针对在线推荐系统中的曝光偏差问题,提出了一种基于线性级联老虎机的新型解决方案。通过设计曝光感知 (Exposure-Aware) 的奖励模型,该方法在模型更新阶段引入了位置信息:重奖那些克服了位置劣势被点击的物品,严惩那些占据好位置却被忽略的物品。实验证明,这种方法不仅能有效“削峰填谷”,平衡物品曝光,还能挖掘出被埋没的高质量物品,从而在不牺牲准确性的前提下显著提升公平性。

7.2. 局限性与未来工作

  • 算法局限: 目前的方法仅基于线性级联老虎机 (Linear UCB)。作者提到未来计划将其扩展到其他类型的 Bandit 算法,如基于汤普森采样 (Thompson Sampling) 的算法。
  • 评估局限: 实验是基于离线数据集构建的模拟环境。虽然这是 Bandit 研究中的惯例,但模拟的用户行为(Cascade Model)可能无法完全捕捉真实用户复杂的浏览心理。真实在线实验(A/B Test)将是更有力的验证。

7.3. 个人启发与批判

  • 创新点评价: 这篇论文最精彩的地方在于它改变了“奖励”的定义。大多数公平性研究试图限制“动作”(即强制推荐列表包含某些物品),这往往很生硬且容易伤害准确性。本文通过调整“反馈信号”,让模型自己“意识到”不同位置的点击含金量不同,这是一种更内生 (Endogenous) 且优雅的解决方案。
  • 迁移思考: 这种“位置加权奖励”的思想完全可以迁移到深度强化学习 (Deep RL) 的推荐场景中。在处理 Feed 流推荐时,用户滑动的距离、停留的时间都可以作为类似“位置”的权重因子,用来校准奖励函数,解决类似的偏差问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。