论文状态:已完成

其他文献.pdf

原文链接
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究通过系统化审计探讨推特上的“影子禁令”现象,分析算法在在线注意力引导中的作用。对25,000个美国推特账户进行分析,结果表明影子禁令相对罕见,机器人行为账户易受影响,而认证账户则不易被禁。此外,发布冒犯性及政治相关内容的账户更可能受到限制,这对算法问责制具有重要启示。

摘要

摘要 算法在引导社交媒体上的在线注意力方面发挥着关键作用 。 许多人指责算法可能固化偏 见 。 本研究审核了推特 ( Twitter ) 上的 “ 影子禁令 ” 现象 【 研究对象 】 —— 即用户或其内容被 平台暂时隐藏。我们反复测试了一个 分层随机抽样 【抽样方法】 的美国推特账户样本( n = 25,000 ) 【 样本数量与来源 】 , 检验其是否遭 受了不同形式的影子禁令 。 随后 , 我们识别 了预测影子禁令的用户类型和推文特征 。 总体而言 , 影子禁令较为罕见 。 我们发现 , 具有机 器人行为特征的账户更易遭遇影子禁令 , 而认证账户则较少被影子封禁 。 发布冒犯性内容及 政治相关推文 ( 包括左翼和右翼 ) 的账户 , 其回复更可能被降级处理 。 【 研究结论 】 这些发 现对 算法问责制及未来社交媒体平台审计研究的设计 具有重要意义 【研究意义】 。 关键词 : 平台, Twitter ,审查制度,审计,暗禁,文本分析 社交媒体常因颠覆媒体机构与政府的传统守门角色而受到赞誉 ( Shirky , 2008 ) 。 它表 面上在一个民主审议的空间中提供不受限制的新闻资讯获取途径 , 保障了个人的言论自由权 利( Diamond , 2015 )。然而,社交媒体信息流的现实可能并不像表面显现的那样自由放 任 。 能够呈现在信息流中的内容 , 实则是由相互协调又时常博弈的利益相关方所制定的一系 列复杂规则与规范共同作用的结果( Gillespie , 2010 ; Puschmann & Burgess , 2013 )。 这些规则与规范控制着内容的策略性消声与策略性放大( Donovan & Boyd , 2021 ; Dua n 等, 2022 )。 算法是 " 通过手机和互联网日益介入我们行为的…

论文精读

中文精读

1. 论文基本信息

1.1. 标题

推特上的“影子禁令"现象 (Twitter's "Shadowbanning" Phenomenon)

1.2. 作者

论文提供的文本中未明确列出作者信息。

1.3. 发表期刊/会议

论文提供的文本中未明确列出发表期刊或会议信息。

1.4. 发表年份

论文提供的文本中未明确列出发表年份信息。根据内容,研究数据收集时间跨越2020年6月至7月以及2021年7月,推测发表年份应在2021年或之后。

1.5. 摘要

本研究旨在探讨社交媒体平台推特(Twitter)上的“影子禁令”(即用户或其内容被平台暂时隐藏)现象。算法在引导在线注意力方面扮演关键角色,并常被指控固化偏见。研究团队对25,000个通过分层随机抽样获得的美国推特账户样本进行反复测试,以检验其是否遭受了不同形式的影子禁令。随后,研究识别了预测影子禁令的用户类型和推文特征。研究结果显示,影子禁令总体上较为罕见。具有机器人行为特征的账户更易遭遇影子禁令,而认证账户则较少被影子封禁。此外,发布冒犯性内容以及政治相关推文(包括左翼和右翼)的账户,其回复更可能被降级处理。这些发现对于算法问责制 (algorithmic accountability)以及未来社交媒体平台审计研究的设计具有重要意义。

1.6. 原文链接

/files/papers/69245bde5aa2301b620295fb/paper.pdf 此链接指向一份PDF文件,根据上下文,它是一篇学术论文。

2. 整体概括

2.1. 研究背景与动机

社交媒体平台(如推特)在现代信息传播中扮演着日益重要的角色,它们被赞誉为民主审议的空间,能提供不受限制的新闻资讯获取途径并保障言论自由。然而,其信息流的现实并非完全自由放任,而是由算法和平台规则所控制,这些规则决定了内容的策略性消声 (strategic silencing)策略性放大 (strategic amplification)

核心问题在于,这些算法在引导在线注意力方面发挥关键作用,但它们也常被指责可能固化偏见,尤其是在影子禁令 (shadowbanning)这一争议性现象上。影子禁令 (shadowbanning)指的是平台在不通知用户的情况下,暂时隐藏用户或其内容。尽管推特曾否认使用,但后来承认会限制账户以维护讨论环境并遏制错误信息。这种缺乏透明度引发了用户、政策监督机构和决策者对“谁因何被影子封禁”的广泛猜测和焦虑,甚至有指控称其存在意识形态偏见,从而危及用户信任并影响平台发展。

现有研究对影子禁令 (shadowbanning)的理解主要依赖定性方法或少数精英用户的主观经验,缺乏系统性、可复现的实证证据。同时,关于算法审计 (algorithmic audit)的研究日益兴起,但鲜有研究系统性地将平台治理框架与算法审计结合,来理解影子禁令 (shadowbanning)在社交媒体生态系统中的作用,及其是否导致意识形态回音室 (ideological echo chambers)

因此,本文的动机是填补这些研究空白,通过一项大规模、系统化的审计研究,揭示推特影子禁令 (shadowbanning)的运行机制,理解其对政治话语可见度的影响,以及预测影子禁令 (shadowbanning)的用户类型和推文特征,从而评估其对算法问责制 (algorithmic accountability)和平台治理的深远意义。

2.2. 核心贡献/主要发现

本研究的核心贡献在于首次对美国推特平台上的影子禁令 (shadowbanning)现象进行了大规模、系统化且可复现的审计,并通过结合用户属性、行为特征和推文内容分析,识别了预测影子禁令 (shadowbanning)的关键因素。

主要发现包括:

  • 稀有性: 影子禁令 (shadowbanning)总体上较为罕见,但在数亿用户基数下,其影响的用户数量依然庞大。

  • 用户类型偏见:

    • 机器人行为: 具有机器人行为特征 (bot-like behavior)的账户更容易遭遇影子禁令 (shadowbanning)
    • 认证账户: 经过认证的账户较少被影子封禁 (shadowbanned),表明存在分层治理 (tiered governance)机制,精英用户获得优待。
    • 账户年龄: 注册时间更早的账户被影子封禁 (shadowbanned)的可能性更低。
    • 社交影响力: 关注者数量 (followers count)较多或推文获得高参与度 (high engagement tweets)的账户被影子封禁 (shadowbanned)的可能性较低,而关注大量账户 (following many accounts)的用户更易遭遇影子禁令 (shadowbanning)
  • 内容特征影响:

    • 攻击性言论: 发布攻击性内容的账户最可能遭遇回复降级 (reply downgrading)
    • 政治相关内容: 发布政治相关推文(包括左翼和右翼)的账户,其回复也更可能被降级处理 (downgraded),但在2021年的复现中,这种内容相关的影子禁令 (shadowbanning)呈现出时间不稳定性。
  • 算法流动性: 平台算法具有流动性,影子禁令 (shadowbanning)的策略会随着用户行为趋势和敏感话题的演变而调整,而非稳定僵化的模式。

    这些发现为算法问责制 (algorithmic accountability)提供了实证基础,揭示了平台作为信息守门人 (gatekeeper)的关键且缺乏监管的角色,并为未来社交媒体平台审计研究 (audit research)的设计提供了重要的发展建议。

3. 预备知识与相关工作

3.1. 基础概念

  • 影子禁令 (Shadowbanning):一种软性审查算法 (soft moderation algorithm),指的是社交媒体平台在不通知用户的情况下,对用户账户或其发布的内容施加暂时性的限制,使其可见度降低或完全隐藏。与硬性审查(如永久封禁账户)不同,用户通常不会意识到自己被影子禁令 (shadowbanning)。本文研究了四种影子禁令 (shadowbanning)类型:

    • 搜索禁令 (Search Ban):用户的推文将从搜索结果中隐藏。
    • 搜索建议禁令 (Search Suggestion Ban):其他用户通过推特搜索界面无法查找到该账号。
    • 幽灵禁令 (Ghost Ban):用户的回复内容对推特平台上其他所有用户均不可见。
    • 回复降级 (Reply Degradation):用户的回复内容被隐藏于折叠区域,仅在被主动触发时(例如点击“显示更多回复”)才会加载显示。
  • 算法问责制 (Algorithmic Accountability):指对算法系统 (algorithmic systems)的行为、决策及其对社会产生的影响进行追责的框架或实践。它强调算法的透明度、公平性、可解释性和可控性,以确保算法不会无意或有意地造成歧视、偏见或其他负面社会影响。

  • 平台治理 (Platform Governance):社交媒体平台(作为主体)管理其网络内容和用户互动(作为对象)的方式。这种管理通常旨在优先满足其利益相关者的利益(如盈利、用户增长、内容质量),通过算法及其他技术手段实现内容的筛选、推荐、删除等。

  • 分层随机抽样 (Stratified Random Sampling):一种统计抽样方法。它将总体(population)划分为若干个层 (strata)或子群,每个层内的成员在某些特征上具有相似性。然后,从每个层中独立地抽取随机样本 (random sample),并将这些样本合并以形成最终的样本。这种方法可以确保样本对总体的不同子群具有代表性。在本文中,通过地理定位推文将美国用户划分为县级行政区划,再从每个县中随机抽取账户,以确保样本在地理上具有代表性。

  • 计算语言学 (Computational Linguistics):一门交叉学科,结合计算机科学和语言学,旨在开发能够处理和理解人类语言的计算系统。在本文中,计算语言学 (Computational Linguistics)方法用于分析推文文本内容,例如提取话题标签、评估攻击性。

  • 概率主题建模 (Probabilistic Topic Modeling):一种统计模型,用于发现文本集合中抽象的“主题”。它假设每个文档都是由多个主题组成的,而每个主题又由一组特定的词语组成。通过分析词语在文档中的共现模式,模型可以推断出潜在的主题结构。在本文中,用于从推文语料库中识别和分类话题。

  • 岭回归 (Ridge Regression):一种用于处理多重共线性 (multicollinearity)过拟合 (overfitting)线性回归 (linear regression)方法。它通过向损失函数 (loss function)添加一个L2范数惩罚项 (L2-norm penalty term)来收缩回归系数 (regression coefficients)。这个惩罚项会迫使模型的系数趋向于零,从而减少模型的复杂性,提高泛化能力。在本文中,用于通过账户特征预测影子禁令 (shadowbanning),并通过惩罚系数大小来压缩除最显著预测因子外的所有变量。

  • Botometer API:由印第安纳大学开发的一种工具,通过分析推特账户的多种特征(如好友数量、推文内容、推文时间等),评估该账户是机器人 (bot)的概率。在本文中,用于估算每个推特账户的Botometer分数 (Botometer score),即该账户为机器人的可能性。

3.2. 前人工作

  • 社交媒体颠覆传统守门人角色: 传统观点认为社交媒体颠覆了媒体机构和政府的传统守门人 (gatekeeper)角色(Shirky, 2008; Diamond, 2015),提供自由信息获取和言论自由。
  • 平台对内容流的控制: 然而,Gillespie (2010) 和 Puschmann & Burgess (2013) 指出,社交媒体信息流是由一系列复杂规则和规范控制的,这些规则控制着内容的策略性消声 (strategic silencing)策略性放大 (strategic amplification)(Donovan & Boyd, 2021; Duan 等, 2022)。
  • 算法作为内容管理工具: Kearns & Roth (2019) 强调算法日益介入我们的行为,并被用来主动做出影响我们生活的决策。Gadde & Beykpour (2018) 指出算法是社交媒体平台管理内容和执行服务条款的众多工具之一。
  • 影子禁令 (Shadowbanning)的争议与感知: Cotter (2019) 提到影子禁令 (shadowbanning)不会通知用户,使得平台可以否认其存在。推特最初否认,后澄清会限制账户以维护讨论环境(Gadde & Beykpour, 2018; Twitter, 2021a)。用户普遍存在对影子禁令 (shadowbanning)的感知,并认为算法具有政治保守倾向(Myers West, 2018)、服务于权贵阶层(Cotter, 2019)或存在性别歧视(Are, 2020)。
  • 审查机制的影响: Balietti 等 (2021) 和 Kulshrestha 等 (2017) 研究了审查机制如何制约用户信息获取和态度形成。Majo-Vazquez 等 (2021) 和 Zannettou 等 (2021) 探讨了意识形态回音室 (ideological echo chambers)的形成。
  • 现有影子禁令 (shadowbanning)研究的局限: 现有研究主要采用定性方法,基于少数精英用户或网红的主观经验。Merrer 等 (2020) 发现欧洲影子禁令 (shadowbanning)存在偏袒精英阶层的倾向。Tanash 等 (2015) 和 King 等 (2014) 进行过国家层面的社交媒体审查审计研究 (audit research),但缺乏对美国语境下用户发帖内容维度的分析。

3.3. 技术演进

社交媒体的内容管理 (content management)内容审核 (content moderation)从最初的手动守门 (gatekeeping)(如传统媒体编辑)逐步演变为高度依赖算法自动化决策 (algorithmic automated decision-making)。早期平台可能更多依赖人工审核和用户举报来处理违规内容。随着用户数量和内容生成速度的爆炸式增长,人工审核的效率和成本变得不可持续,促使平台大力投资开发和部署各种算法工具。这些算法不仅用于内容过滤 (content filtering)内容推荐 (content recommendation),也用于内容降级 (content demotion)账户限制 (account restriction),其中就包括影子禁令 (shadowbanning)。这种演变使得算法 (algorithms)日益成为“通过手机和互联网日益介入我们行为的…小段代码”,并“被用来主动做出影响我们生活的决策”(Kearns & Roth, 2019)。

3.4. 差异化分析

本研究与现有工作的核心区别和创新点在于:

  • 系统性与可复现性: 现有影子禁令 (shadowbanning)研究多为定性或基于小样本,本研究采用分层随机抽样 (stratified random sampling)的大规模样本(25,000个美国推特账户),进行多波次的迭代审计 (audit),确保了结果的系统性和可复现性。
  • 平台治理 (platform governance)算法审计 (algorithmic audit)的结合: 本研究将平台治理 (platform governance)框架与新兴的算法审计 (algorithmic audit)研究相结合,致力于揭示算法的运行机制及其社会影响,特别关注其是否会强化系统性偏见和其影响的时间稳定性。
  • 内容与用户行为的细致分析: 除了用户档案特征,本研究还深入分析了推文内容特征(如攻击性、话题标签)和社交影响力特征,以识别影子禁令 (shadowbanning)的前因,这在现有美国语境下的影子禁令 (shadowbanning)研究中是缺失的。
  • 关注算法流动性 (algorithmic fluidity) 研究不仅探讨了影子禁令 (shadowbanning)的普遍性、随意性和偏见,还特别关注其是否具有时间稳定性,发现了算法的“流动性”特征,即其策略会随时间、用户行为和热门话题而调整。
  • 伦理与问责的视角: 本研究在伤害原则 (harm principle)算法滋扰 (algorithmic nuisance)的伦理框架下评估影子禁令 (shadowbanning),探讨其是否符合伦理规范,并对算法问责制 (algorithmic accountability)提出见解。

4. 方法论

4.1. 方法原理

本研究的核心原理是通过对推特平台进行大规模的审计 (audit),模拟普通用户体验,系统性地检测影子禁令 (shadowbanning)的存在及其类型。具体而言,研究利用第三方服务Shadowban.EU来检查预设的推特账户样本是否遭受影子禁令 (shadowbanning)。同时,通过推特API (Application Programming Interface)Botometer API收集这些账户的详细特征(包括个人资料、推文内容和社交影响力)。最后,运用回归分析 (regression analysis)来识别哪些账户特征和内容特征能够预测影子禁令 (shadowbanning)的发生,从而逆向工程推特算法机制 (algorithmic mechanisms)的运作逻辑。

4.2. 核心方法详解

本研究的方法论主要分为样本构建、数据收集、特征提取和回归分析四个部分。

4.2.1. 样本构建

  1. 地理定位推文获取: 研究首先利用2019年1月推特1%的数据流 (data stream)中包含地理标记 (geotagged)的572万条推文(作为CountyLexicalBank项目的一部分),识别出具有地理定位的推特账户。
  2. 县级账户识别: 这些推文通过级联规则 (cascading rules)FIPS代码 (Federal Information Processing Standards code)进行标注,这些规则综合考虑了推文自带的经纬度坐标和用户自行申报的地理位置信息。由此,获得了202万个推特账户的地理定位数据,其中1607个县至少包含50个独立账户。
  3. 分层随机抽样: 采用分层随机抽样 (stratified random sampling)方法,创建了一个包含5万个用户账户的超级集合 (super-set),平均每个FIPS代码 (FIPS code)对应30个推特账户。
  4. 影子禁令检查:
    • 在2020年5月至6月期间,对随机抽取的10,107个推特账户小样本 (sub-sample)(平均每个FIPS代码 (FIPS code)对应6个账户)进行了四次影子禁令 (shadowban)检查。
    • 随后,在2020年6月和2021年7月开展的第五、第六轮检查则针对账户超级集合 (super-set)进行了影子禁令 (shadowban)检测。

4.2.2. 数据收集

研究通过Shadowban.eu网络服务查询样本中的每个用户名,以检测其是否面临影子封禁 (shadowban)。该服务在收到查询后,会检查账户是否面临以下四种影子禁令 (shadowban)类型之一:

  • 搜索建议禁令 (Search Suggestion Ban): 当用户搜索某个账号时,该账号不会出现在搜索结果推荐栏中。

  • 搜索封禁 (Search Ban): 无论是否开启质量过滤器 (quality filter),相关推文会完全从搜索结果中消失。

  • 幽灵禁令 (Ghost Ban): 用户在推特发布的回复推文将对其他所有人不可见。

  • 回复降级 (Reply Degradation): 用户发布的回复推文会被折叠在分隔栏后,仅当点击“显示更多回复”(手机端为点击屏幕)时才会加载显示。

    通过这种方式,研究获得了超过10万个数据点 (data points),这些数据点 (data points)对应着样本中的账户在特定时期内是否活跃、是否被暂停使用,以及是否面临推特实施的影子禁令 (shadowban)。在总共5万个账户中,有38,291个账户(以及10,107个账户子集中有7,734个账户)在数据收集开始时既未被暂停也未被删除。

4.2.3. 特征提取

账户的个人资料、社交特征和内容特征通过以下方式提取:

4.2.3.1. 个人资料特征

通过R语言中的rTweet包 (rTweet package)访问Twitter API,收集所有账户的元数据信息 (metadata information)

  • 账户年龄 (Account Age): 通过Twitter API查询账户创建时间,并将其以天数计算,然后进行对数转换 (log transformation)处理。
  • 认证状态 (Verified Status): 账户的认证状态是一个二元值 (binary value)(即认证或未认证)。
  • Botometer分数 (Botometer Score): 使用Botometer API(Yang et al., 2020)估算每个推特账号的Botometer分数 (Botometer score),即该账号为机器人 (bot)的概率。

4.2.3.2. 内容特征

在每次影子封禁 (shadowban)检查前的六个10天周期内,共收集了448万条推文。选择10天时间阈值 (time threshold)是基于近期研究表明10-15条推文的观察窗口能为预测推特账号封禁提供最佳预测效能 (predictive efficacy)(Seyler et al., 2021),且推特官方处罚持续时间通常为12小时至7天。

  • 推文频率 (Tweet Frequency): 通过对日均发布推文数 (average daily tweets)进行对数转换 (log transformation)计算得出。平均每轮有8%的账号因非“活跃账号”(即在检查日前十天内未发布推文)被排除,因其最近的推文行为不可能导致处罚。
  • 攻击性指标 (Offensiveness Score): 用户的攻击性分数 (offensiveness score)取其前十天内所有推文预测得分的均值。在单条推文层面,攻击性分数 (offensiveness score)通过基于人工标注数据 (human-annotated data)训练的机器学习分类器 (machine learning classifier)预测(Davidson et al., 2017)。
  • 话题标签分类 (Hashtag Classification):
    1. 使用Python自然语言工具包 (Natural Language Toolkit, NLTK)从数据中提取2340个英文话题标签 (hashtags),并计算其频率分布 (frequency distribution)

    2. 沿用既往类似研究方法,仅保留在1至5轮检测中至少有30个账号(即总账号数的0.001%)使用过的154个主题标签 (topic hashtags)

    3. 这些主题标签 (topic hashtags)语义相近 (semantically similar)或涉及相似议题 (similar issues)的原则进行归类(如图1所示,包括政治、社会、新闻、体育游戏等)。

    4. 最终,每位用户关于特定话题的发文历史被转化为相对于其用词总量 (total word count)标准化频率分布 (standardized frequency distribution)。这些数据构成了岭回归分析 (ridge regression analysis)中新增的若干内容特征。

      图1 图1 话题标签词云,展示了语义相似且至少被250个账号提及的标签。其规模反映了该标签在收集的推文语料库中的出现频率。

4.2.3.3. 社交特征

  • 关注者数量 (Followers Count)好友数量 (Friends Count):通过Twitter API收集每位推特用户的关注者数量 (followers count)(内关注网络)及好友数量 (friends count)(即其关注的账户数量,外部关注网络)。这些特征值在分析周期内被假定为稳定数据。
  • 动态社交特征 (Dynamic Social Features): 包含对数转换 (log-transformed)后的点赞数 (likes)转发数 (retweets)引用推文数 (quote tweets)以及回复数 (replies),这些数据来自350名用户在每次影子禁令 (shadowban)检查前十天内发布或转发的推文。

4.2.3.4. 附加特征

  • 政治意识形态 (Political Ideology): 尽管基于关注网络估算账户政治意识形态 (estimating political ideology based on follower networks)的方法存在精度不足和误差范围,研究仍进行了补充分析,以检验影子禁令 (shadowban)是否存在意识形态偏见。相关结果列入补充材料。
  • 概率主题建模 (Probabilistic Topic Modeling): 内容特征也通过概率主题建模方法 (probabilistic topic modeling methods)得出,结果与主要发现一致,相关数据在补充材料中呈现。

4.2.4. 回归分析

研究采用多元回归方法 (multivariate regression method),通过账户的特征来预测影子禁令 (shadowban)现象。

  • 模型选择: 选用岭回归模型 (Ridge Regression model),该模型通过惩罚系数大小 (coefficient magnitudes)来压缩除最显著预测因子 (predictors)外的所有变量,有助于处理多重共线性 (multicollinearity)并提高模型泛化能力 (model generalization ability)
  • 实现细节: 实验使用Python的sklearn工具包,将惩罚项系数 (alpha value)设定为 10510^{-5} 以校正大量协变量 (covariates)的影响。
  • 稳健性验证: 随后,通过拟二项广义线性模型 (quasi-binomial generalized linear model)数据集 (dataset)进行拟合,以此验证研究结果的稳健性 (robustness)。补充材料显示,两种方法得出的结论模式具有高度一致性。

5. 实验设置

5.1. 数据集

  • 来源: 核心数据来源于Twitter 1%数据流 (Twitter 1% data stream)中的地理标记推文 (geotagged tweets),这些推文作为CountyLexicalBank项目(Giorgi et al., 2018)的一部分被收集。
  • 规模: 最初从Twitter 1%数据流 (Twitter 1% data stream)收集了572万条地理标记推文 (geotagged tweets)。通过对这些推文进行地理定位,识别出202万个推特账户,分布在1607个至少包含50个独立账户的县。
  • 样本选择:
    • 构建了一个包含5万个用户账户的超级集合 (super-set),通过分层随机抽样 (stratified random sampling)确保地理代表性,平均每个FIPS代码 (FIPS code)对应30个推特账户。
    • 在2020年5月至6月期间,对一个包含10,107个推特账户的小样本 (sub-sample)进行了四次影子禁令 (shadowban)检查。
    • 随后,在2020年6月和2021年7月,针对这5万个账户的超级集合 (super-set)进行了第五和第六轮影子禁令 (shadowban)检测。
  • 推文数据: 在每次影子封禁 (shadowban)检查前,从每个账户收集了六个10天周期内的推文,总计448万条推文用于内容分析。
  • 活跃账户: 在所有检测中,总共有27,718个活跃账户(指在检查日前10天内有发推行为的账户)。在这些活跃账户中,有1,731个账户至少遭遇过一次影子封禁 (shadowban)

5.2. 评估指标

本研究主要通过岭回归分析 (ridge regression analysis)拟二项广义线性模型 (quasi-binomial generalized linear model)来识别预测影子禁令 (shadowban)的账户和内容特征。因此,评估主要围绕统计学上的显著性 (significance)效应量 (effect size)

  1. 统计显著性 (Statistical Significance)

    • 概念定义: 统计显著性 (statistical significance)用于判断观测到的效果或差异是否可能是由随机机会引起的。当p值 (p-value)小于预设的显著性水平 (significance level)(通常为0.05)时,我们认为结果是统计显著的 (statistically significant),这意味着观测到的效果不太可能是随机的。
    • 数学公式: p值 (p-value)没有一个通用的简单公式,它是在零假设 (null hypothesis)(即没有效果或差异)成立的条件下,观察到当前或更极端结果的概率。
    • 符号解释:
      • pp: p值 (p-value),表示在零假设 (null hypothesis)为真的前提下,得到当前观测结果或更极端结果的概率。
      • α\alpha: 显著性水平 (significance level),预设的阈值,通常为0.05、0.01或0.001。
      • p<αp < \alpha 时,拒绝零假设 (null hypothesis),认为结果统计显著 (statistically significant)
      • 在论文中,通过星号标记来表示不同的显著性水平 (significance level)
        • p<0.05p < 0.05 (标记为 *)
        • p<0.01p < 0.01 (标记为 **)
        • p<0.001p < 0.001 (标记为 ***)
  2. 效应量 (Effect Size)

    • 概念定义: 效应量 (effect size)量化了研究中观测到的效应的强度或大小,它独立于样本量。在回归分析 (regression analysis)中,效应量 (effect size)通常表现为回归系数 (regression coefficients),表示自变量 (independent variable)每变化一个单位,因变量 (dependent variable)平均变化多少。
    • 数学公式: 对于岭回归 (ridge regression),其目标是最小化损失函数 (loss function)minw(Xwy22+αw22) \min_{\mathbf{w}} \left( \|\mathbf{Xw} - \mathbf{y}\|^2_2 + \alpha \|\mathbf{w}\|^2_2 \right) 其中,w\mathbf{w}回归系数向量 (vector of regression coefficients),其元素 wiw_i 即为各个自变量 (independent variable)效应量 (effect size)
    • 符号解释:
      • w\mathbf{w}: 回归系数向量 (vector of regression coefficients),包含了每个自变量 (independent variable)因变量 (dependent variable)影响的效应量 (effect size)
      • X\mathbf{X}: 自变量矩阵 (design matrix),每行代表一个观测,每列代表一个自变量 (independent variable)的数值。
      • y\mathbf{y}: 因变量向量 (dependent variable vector),代表每个观测的影子禁令 (shadowban)状态(通常编码为0或1)。
      • α\alpha: 岭回归 (ridge regression)中的正则化参数 (regularization parameter),控制L2惩罚项 (L2 penalty term)的强度,防止过拟合 (overfitting)
      • 22\|\cdot\|^2_2: L2范数 (L2 norm)的平方,用于衡量向量的长度。
    • 在本文中,效应量 (effect size)以百分比形式呈现,表示某个特征每增加一个单位(或状态改变),影子禁令 (shadowban)概率的变化百分比。
  3. 置信区间 (Confidence Interval)

    • 概念定义: 置信区间 (confidence interval)参数估计 (parameter estimate)周围的一个范围,表示真实参数值 (parameter value)有一定概率(如95%)落在这个区间内。它提供了估计值 (estimate)的精确度信息。
    • 数学公式: 未在论文中直接给出,但通常表示为估计值 (estimate) ±\pm 边际误差 (margin of error)
    • 符号解释: 在本文中,置信区间 (confidence interval)用于描述效应量 (effect size)的可靠范围。

5.3. 对比基线

本研究作为一项审计研究 (audit study),并非旨在提出新的预测模型并将其与现有模型进行性能比较。因此,传统意义上的对比基线 (baselines)(如在机器学习任务中比较不同算法的准确率)不完全适用。

然而,研究通过以下方式进行“对比”:

  • 不同用户群体间的比较: 例如,认证账户与未认证账户、新账户与老账户、具有机器人行为特征 (bot-like behavior)的账户与普通账户之间影子禁令 (shadowban)发生率的比较。

  • 不同内容特征间的比较: 例如,发布攻击性内容、政治内容(左翼和右翼)、社会议题内容与发布其他内容的账户在影子禁令 (shadowban)方面的差异。

  • 不同社交影响力水平的比较: 例如,高关注者数量 (follower count)与低关注者数量 (follower count)、高推文参与度 (tweet engagement)与低推文参与度 (tweet engagement)账户的比较。

  • 不同影子禁令 (shadowban)类型间的比较: 比较搜索禁令 (search ban)搜索建议禁令 (search suggestion ban)幽灵禁令 (ghost ban)回复降级 (reply degradation)在预测因素上的差异。

  • 时间维度上的比较: 将2020年的结果与2021年的复现结果进行对比,以考察算法 (algorithms)时间稳定性 (temporal stability)流动性 (fluidity)

    这些比较帮助研究者理解影子禁令 (shadowban)在不同情境和条件下的表现,从而揭示推特算法 (algorithms)的潜在偏见 (biases)运作机制 (operational mechanisms)

6. 实验结果与分析

6.1. 核心结果分析

本研究通过岭回归分析 (ridge regression analysis)揭示了账户个人资料、内容和社交特征与影子禁令 (shadowbanning)之间的关联。

6.1.1. 影子禁令发生频率

  • 在27,718个活跃账户中,前五次影子封禁 (shadowban)检查中共发现1,731个推特账户遭受了2,476次影子封禁 (shadowban),占活跃账户的6.2%
  • 有1,641个账户在封禁前十天内至少发布过一条推文。
  • 408个账户遭受了两次或更多次封禁。
  • 各类影子禁令 (shadowban)发生比例:
    • 回复降级 (reply degradation)5.33% (1,479个账户中1,900条回复被降级)。

    • 搜索封禁 (search ban)0.91% (252个账户发生293次搜索封禁 (search ban))。

    • 搜索建议封禁 (search suggestion ban)0.57% (146个账户发生202次搜索建议封禁 (search suggestion ban))。

    • 幽灵禁令 (ghost ban)0.13% (32个账户发生44次幽灵禁令 (ghost ban))。 这些数据显示,影子禁令 (shadowbanning)整体发生率较低,但回复降级 (reply degradation)最常见 (most frequent)的形式。

      图2展示了在多次运行中遭遇至少一次影子封禁的账户比例。 图2数据集统计:指在多次检测中至少触发一次影禁的账户数量。括号内数值表示在影禁核查前10天内有发推行为的“活跃账户”所受封禁次数。 图2 数据集统计:指在多次检测中至少触发一次影禁的账户数量。括号内数值表示在影禁核查前10天内有发推行为的“活跃账户”所受封禁次数。

6.1.2. 机器人式行为可预测所有影子禁令 (支持H1, H2, H3)

图3和表1的结果有力支持了前三个假设。

  • 账户年龄与认证状态: 注册时间较长或经过认证的账号遭遇影子封禁 (shadowban)的概率最低。
    • 经过认证的用户比未认证用户面临搜索封禁 (search ban)的概率低约0.9% (p<0.001p < 0.001)。
    • 拥有五年及以上推特账号的用户,其面临搜索封禁 (search ban)的概率比账号年龄在30天及以下的用户低约3% (p<0.001p < 0.001)。
  • Botometer分数: Botometer评估的机器人 (bot)概率与账号遭遇影子封禁 (shadowban)呈正相关。
    • Botometer判定为极可能是机器人 (bot)的账号,其面临搜索封禁 (search ban)的概率是极不可能是机器人 (bot)的账号的1.03倍(面临搜索封禁 (search ban)的几率增加3.5%3.9%p<0.001p < 0.001)。 这些结果表明,推特算法 (algorithms)倾向于对新账户、未认证账户和具有机器人行为特征 (bot-like behavior)的账户施加更严格的限制。

      图3使用岭回归分析调整后的自变量对账户是否被影子禁令影响的效应量。结果以百分比形式呈现 \(( \\times 1 0 2 ) _ { o }\) 图3 使用岭回归分析 (ridge regression analysis)调整后的自变量 (independent variables)对账户是否被影子禁令 (shadowban)影响的效应量 (effect size)。结果以百分比形式呈现 (×102\times 10^2)。

6.1.3. 攻击性言论和党派内容可预测降级回复 (支持H4, H5, H6)

  • 攻击性言论: 发布攻击性推文的账户最可能遭遇回复降级 (reply degradation)攻击性言论 (offensiveness)每增加一个单位,相应导致回复被降级 (downgraded)的概率上升7.3%

  • 政治议题: 使用亲民主党标签(如#拜登#特朗普病毒)或亲共和党标签(如#唐纳德特朗普)每增加一个单位,分别对回复降级 (reply degradation)产生4.6%4.7%的显著效应 (effect)

  • 社会议题: 如图4所示,与#黑人的命也是命 (Blacklivesmatter)#骄傲月 (Pride)相关的标签更容易遭遇影子封禁 (shadowban)(被暗中屏蔽的概率分别为0.49%0.19%0.83%)。但补充材料表明,这些关联性对模型假设和规范条件 (specification conditions)较为敏感,需谨慎解读。 这些结果表明,攻击性言论 (offensive content)党派政治内容 (partisan political content)回复降级 (reply degradation)的重要预测因素,但内容相关 (content-related)影子禁令 (shadowban)可能存在时间不稳定性 (temporal instability)

    该图像是图表,展示了与推特相关的两个主题标签(#拜登和#Donaldtrump)的数据分布。上方为均值及误差条,下面则列出了各个推特用户的相关特征。整体信息显示了不同用户在这两个主题下的参与程度和特征差异。 图4 预测推特账户发布的政治标签所对应的下级回复 (junior replies)规格曲线分析 (specification curve analysis)。在社会议题案例中,该预测模型在引入衡量社会影响和参与的额外协变量 (covariates)后,关系发生了变化。

6.1.4. 社交参与度较高的外向度预示着账号会被暗中屏蔽 (支持H7, 部分支持H8)

  • 好友数量 (Friends Count) / 关注数量: 关注大量账户 (following many accounts)的用户(好友数量 (friends count))更易引发搜索禁令 (search ban)搜索建议禁令 (search suggestion ban)降级回复 (reply degradation)。每增加一个对数转换 (log-transformed)后的关注账户数 (number of accounts followed),概率分别增加0.11%0.13%0.25%

  • 推文社交参与度 (Tweet Social Engagement): 推文社交参与度 (tweet social engagement)更高的账户(以获得的转发次数 (retweet counts)衡量)被影子封禁 (shadowbanned)的可能性更低。每增加一次对数转换 (log-transformed)后的转发次数 (retweet counts),概率分别降低0.01%0.03%0.007%0.14%

  • 粉丝数量 (Followers Count): 拥有大量内关注 (in-follows)(即粉丝 (followers))的账号,其回复被降级 (downgraded)的可能性显著降低。好友数量 (friends count)对数转换 (log transformation)后每增加一个单位,概率下降0.5%。 这些发现表明,社交影响力 (social influence)影子禁令 (shadowbanning)的发生具有双重影响:关注大量账户 (following many accounts)可能被视为机器人行为 (bot-like behavior)而受限,而拥有高粉丝数 (high follower counts)高参与度 (high engagement)的账户则受到保护。

    该图像是一个图表,上半部分分别展示了好友数量(a)和关注者数量(b)的分布情况。图表中通过红色和蓝色的点标示了不同用户类型的数据,并在下方提供了详细的注释说明。数据的可视化有助于理解社交媒体用户之间的互动及影响程度。 图5 预测Twitter账户的社会地位对回复的影响的规格曲线分析 (specification curve analysis),其依据为(a)好友数量 (friends count)(外关注数)和(b)账号粉丝数量 (account follower count)(内关注数)。该分析揭示了二者之间的预测关系,特别是在引入衡量社会影响和参与的额外协变量 (covariates)后的变化。

6.2. 数据呈现 (表格)

以下是原文 Table 1 的结果(根据内容推断其为Table 1,并使用HTML表格格式以准确呈现其结构):

运行1至5(2020年6月至7月)
搜索屏蔽 (1) 搜索建议屏蔽 (2) 幽灵禁令 (3) 低沉的答复 (4)
个人资料功能
账户年龄 -0.937** (0.032) -0.884** (0.027) 0.061* (0.011) -0.586** (0.069)
已验证状态 -0.987 (0.207) -1.163* (0.172) -0.263*** (0.071) -1.056* (0.445)
Botometer评分 3.749** (0.179) 2.271.. (0.149) 0.661* (0.066) -0.607 (0.407)
内容功能
推文频率 0.105* (0.028) 0.304* (0.023) -0.004 (0.009) 0.801 (0.059)
攻击性 0.366 (0.279) 0.446 (0.232) -0.057 (0.096) 7.041 (0.6)
#手拜登 0.265 (0.393) 0.089 (0.326) 0.487.* (0.134) 4.501* (0.843)
#唐纳德·特朗普 1.207.. (0.462) 0.347* (0.384) 0.085 (0.158) 0.196** (0.991)
#Blacklivesmatter 0.076 (0.149) -0.74 (0.124) 0.566 (0.051) 0.803 (0.32)
#Defundthepolice 0.697 (0.919) 0.01 (0.764) 0.832** (0.314) 0.014 (1.973)
#骄傲 -0.144 (0.402) -0.341 (0.335) -0.034 (0.138) -0.757 (0.864)
#分手 0.136 (1.755) -0.147 (1.459) 0.171… (0.6) -0.327 (3.766)
#新冠肺炎 -0.175 (0.142) -0.131 (0.118) -0.019 (0.049) -0.201 (0.306)
#棒球 0.025 (0.333) 0.057 (0.277) 0.055 (0.114) 0.35 (0.715)
#动物过境 -0.022 (0.096) 0.001 (0.08) -0.021 (0.033) -0.014 (0.205)
#父亲节 -0.003 (0.261) 0.028 (0.217) 0.003 (0.089) 0.025 (0.56)
#新个人资料图片 (0.099) (0.082) (0.034) (0.212)
社会影响特征
好友数量 0.047* (0.022) 0.028 (0.018) 0.014 (0.007) -0.549** (0.047)
爱好 0.108* (0.028) 0.127** (0.023) -0.019** (0.01) 0.246** (0.061)
转发 0.032 (0.103) 0.037 (0.086) -0.034 (0.035) 0.727 (0.221)
引用推文 -0.028** (0.01) -0.028** (0.008) -0.007* (0.003) -0.139 (0.02)
回复数 0.276 (0.113) -0.076 (0.094) 0.055 (0.039) 0.603 (0.242)

笔记: p<0.05p < 0.05 : * ; p<0.01p < 0.01 : ** ; p<0.001p < 0.001 : ***。 表中数据为效应量 (effect size),括号内为标准误 (standard error)

6.3. 消融实验/参数分析

  • 模型稳健性: 研究通过使用拟二项广义线性模型 (quasi-binomial generalized linear model)数据集 (dataset)进行拟合,以验证岭回归 (ridge regression)结果的稳健性 (robustness)。补充材料显示,两种方法得出的结论模式具有高度一致性,这增强了研究发现的可靠性。

  • 规范曲线分析: 图4和图5展示了规范曲线分析 (specification curve analysis)的结果,用于检验模型设定 (model specification)预测效应 (predictive effects)的敏感性。

    • 政治标签对回复降级 (reply degradation)的影响: 图4显示,亲民主党和亲共和党标签与回复降级 (reply degradation)之间的关系对模型的特定设定并不特别敏感,表明其效应 (effect)相对稳健 (robust)
    • 社会议题标签的敏感性: 图4也指出,如#黑人的命也是命 (Blacklivesmatter)#骄傲月 (Pride)等社会议题标签对影子封禁 (shadowban)预测效应 (predictive effect),对模型假设和规范条件 (specification conditions)较为敏感,因此需要谨慎解读。这暗示了内容相关 (content-related)影子禁令 (shadowban)可能不如账户特征相关 (account-feature-related)影子禁令 (shadowban)那样普遍且稳定 (stable)
    • 社交地位对回复降级 (reply degradation)的影响: 图5的规范曲线分析 (specification curve analysis)表明,拥有大量粉丝 (followers)对接收降级回复 (reply degradation)具有统计学显著 (statistically significant)负向影响 (negative impact),且这一结论在不同模型设定 (model settings)中保持一致,进一步证实了分层治理 (tiered governance)的存在。而好友数量 (friends count)降级回复 (reply degradation)预测效应 (predictive effect)会因模型设定 (model setting)不同产生波动,这可能与机器人行为指标 (bot-like behavior indicator)的复杂性有关。
  • 概率主题建模 (probabilistic topic modeling) 论文提到基于概率主题建模方法 (probabilistic topic modeling methods)的结果与主要发现一致,相关数据已在补充材料中呈现。这表明话题标签分类 (hashtag classification)这一内容特征 (content feature)的提取方法具有稳健性 (robustness)

    这些分析不仅验证了主要发现的可靠性 (reliability),也揭示了不同预测因子 (predictors)在不同影子禁令 (shadowban)类型和模型设定 (model settings)下的敏感性 (sensitivity)复杂性 (complexity),为理解推特算法 (algorithms)的运作提供了更细致的洞察。

7. 总结与思考

7.1. 结论总结

本研究对推特平台上的影子禁令 (shadowbanning)现象进行了大规模、系统性的审计 (audit),揭示了其发生频率、预测因素及其对在线话语生态的影响。核心结论是,影子禁令 (shadowbanning)总体上虽然相对罕见,但它并非随机施加,而是呈现出针对特定用户群体和内容特征的系统性偏见 (biases)。具体而言,具有机器人行为特征 (bot-like behavior)的账户更容易被影子禁令 (shadowbanned),而认证账户 (verified accounts)注册时间更早 (older accounts)以及拥有高粉丝数 (high follower counts)高参与度推文 (high engagement tweets)的账户则较少受此影响,这凸显了平台分层治理 (tiered governance)的机制。此外,发布攻击性内容 (offensive content)政治相关推文 (political content)(无论左右翼)的账户,其回复更可能被降级处理 (downgraded)。研究还发现,内容相关 (content-related)影子禁令 (shadowbanning)具有时间不稳定性 (temporal instability),暗示平台算法 (algorithms)会根据动态的用户行为和热门话题调整其审核策略 (moderation strategies)。这些发现对算法问责制 (algorithmic accountability)平台治理 (platform governance)的伦理考量以及未来的社交媒体审计研究 (social media audit research)具有深远意义。

7.2. 局限性与未来工作

7.2.1. 局限性

  1. 相关性而非因果性: 本研究揭示的是相关性 (correlation),而非因果关系 (causality)影子禁令 (shadowbanning)可能影响推文的可见度和互动量,反之,用户在遭受影子禁令 (shadowbanning)后也可能改变其行为,进行自我审查 (self-censorship)。因此,因果关系 (causal direction)的确定性较弱。
  2. 用户感知与影响: 鉴于影子禁令 (shadowbanning)的发生频率相对较低,且用户通常不会收到通知,目前尚不清楚这类禁令是否总能被用户察觉。研究未能深入探讨影子禁令 (shadowbanning)对用户生活(包括用户本人及其关注者)的实际影响。
  3. 与其他算法机制 (algorithmic mechanisms)的交互: 影子禁令 (shadowbanning)的实际影响可能取决于其与平台其他算法机制 (algorithmic mechanisms)(如推荐算法、内容排序算法)的交互作用。
  4. 数据收集范围:
    • 地理定位限制: 样本选择基于地理定位推文 (geotagged tweets)分层随机抽样 (stratified random sampling),但仅有约5.65%的推文能精确到美国县级行政区,这可能限制了样本的普遍代表性 (universal representativeness)
    • 语言限制: 研究主要关注英文推文,可能无法推广到其他语言环境。
  5. 自动化工具 (automated tools)的准确性: 研究高度依赖Botometer来预测机器人账户 (bot accounts)机器学习分类器 (machine learning classifiers)来预测推文攻击性 (offensiveness)。然而,这些自动化工具 (automated tools)(包括早期版本的Botometer)存在精确性问题 (accuracy issues),可能导致假阳性 (false positives)假阴性 (false negatives),从而影响结果的准确性 (accuracy)
  6. 未涵盖的因素: 模型 (model)未能涵盖所有可能导致影子禁令 (shadowbanning)的因素,例如交叉帖文相似性 (cross-posting similarity)。一些被幽灵封禁 (ghostbanned)的账户是因为发布了模板化、自动生成的公告,这反映了劫持社会议题 (hijacking social issues)机器人行为 (bot-like behavior),但这种交叉帖文相似性 (cross-posting similarity)本身未被直接建模。
  7. 意识形态偏见 (ideological bias)的检测局限: 尽管研究发现意识形态光谱 (ideological spectrum)两端的政治议题都可能遭到隐形限流 (invisible throttling),但政治标签 (political tags)并不能明确区分用户的左右翼立场 (left-right stance)。因此,研究结果并不能完全反驳“隐形限流 (invisible throttling)针对右翼账号存在偏见”的指控。

7.2.2. 未来工作

  1. 保存和审计算法快照 (algorithmic snapshots) 鉴于算法 (algorithms)动态性 (dynamicity)和持续迭代优化(通过A/B测试 (A/B testing)),建议科技公司和立法者考虑保存并审计 (audit)算法快照 (algorithmic snapshots)”。这有助于在算法不断变化的背景下,捕捉并分析其治理标准 (governance standards)
  2. 新型训练方法 (training methods)辅助性多任务学习 (auxiliary multitask learning) 建议将表征社会情境 (social context)辅助变量 (auxiliary variables)约束条件 (constraints)作为目标函数 (objective functions)纳入算法训练 (algorithm training)中,而非仅进行事后审计 (audit)。例如,将隐私 (privacy)社会规范 (social norms)量化并“解释” (explain)算法 (algorithms),确保其遵守这些规范。在实施影子禁令 (shadowbanning)时,应综合考虑争议内容的用户画像 (user profiles)社会特征 (social characteristics),而非简单压制低影响力 (low-influence)低参与度 (low-engagement)高争议性内容 (high-controversy content)
  3. 建立新的基准 (benchmarks) 可建立影响力 (influence)参与度 (engagement)争议性 (controversy)等新的基准 (benchmarks),用于审计 (audit)并强化算法公平性标准 (algorithmic fairness standards)。平台政策制定者 (policymakers)需认识到算法 (algorithms)普遍需要接受审查 (scrutiny),即使是非营利或非垄断驱动的算法操控 (algorithmic manipulation)也可能引发社会问题 (social problems)
  4. 完善数据使用 (data usage)数据权利 (data rights)用户状态 (user status)文档记录 (documentation) 确保用户能够理解自身权利并对算法决策 (algorithmic decisions)提出申诉。提供更多协商机会 (negotiation opportunities),特别是赋能边缘化群体 (marginalized groups)
  5. 加强数字素养教育 (digital literacy education) 帮助社交媒体用户 (social media users)识别并警惕信息流 (information flow)中的偏见 (biases),这些偏见 (biases)可能源自宏观社会文化 (macro-socio-cultural)技术底层特性 (technical underpinnings)语境 (context)随时间发生的自然演变 (natural evolution)
  6. 探究行为规范 (behavioral norms)话题讨论 (topic discussion)的演变机制: 关注平台治理 (platform governance)时间动态特性 (temporal dynamics),例如影子禁令 (shadowbanning)策略随时间调整的反射性 (reflexivity)
  7. 研究用户对算法 (algorithms)反应 (reactions)适应机制 (adaptation mechanisms) 探讨用户如何规避影子禁令 (shadowbanning)风险(如通过改变发帖行为、创造新词汇)以及这些变化如何影响信息在社会网络 (social networks)中的传播。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 算法的权力 (Power of Algorithms)隐秘而深远: 本文最深刻的启发在于,算法 (algorithms)在社交媒体中的守门人 (gatekeeper)角色是如此隐蔽且具有强大的塑造力。影子禁令 (shadowbanning)作为一种软性审查 (soft moderation),在用户无感知的情况下改变信息流,这比直接的内容删除或账户封禁更具迷惑性 (insidious)。它提醒我们,即使平台表面上宣扬言论自由 (free speech),其算法 (algorithms)黑箱操作 (black-box operations)可能已经在潜移默化中重塑了公共讨论空间 (public discourse space)
  2. 分层治理 (Tiered Governance)的现实: 研究证实了平台对不同用户群体的区别对待 (differential treatment),特别是认证账户 (verified accounts)高影响力用户 (high-influence users)受到的保护。这揭示了社交媒体从最初扁平化 (flattened)民主化 (democratized)的理想,如何演变为一个等级森严 (hierarchical)精英主导 (elite-dominated)信息生态系统 (information ecosystem),与传统媒体的结构日益趋同。
  3. 算法流动性 (Algorithmic Fluidity)时间敏感性 (Time Sensitivity) 算法 (algorithms)并非一成不变,而是能对外部社会事件 (social events)用户行为 (user behavior)做出适应性调整 (adaptive adjustments)。这一发现非常重要,它意味着算法审计 (algorithmic audits)必须是持续的、动态的,而不能是静态的“一次性”检测。对算法 (algorithms)的理解也需要融入时间维度 (temporal dimension)
  4. 算法问责制 (Algorithmic Accountability)的迫切性: 尽管影子禁令 (shadowbanning)的发生率较低,但考虑到推特庞大的用户基数,其累积效应 (cumulative effect)数字身份 (digital identity)用户行为 (user behavior)和社会讨论的塑造是巨大的。这强调了算法问责制 (algorithmic accountability)不仅是技术问题,更是社会公平和伦理 (ethics)问题。

7.3.2. 批判与改进

  1. 因果关系 (Causality)的挑战: 论文明确指出其发现是相关性 (correlational)而非因果性 (causal)。未来的研究可以尝试通过受控实验 (controlled experiments)(如创建模拟账户并系统性地改变其特征或内容,然后观察影子禁令 (shadowbanning)反应)来更直接地建立因果关系 (causal links)。然而,这在真实平台环境中操作起来非常复杂且可能面临伦理挑战。
  2. Botometer精度问题 (Accuracy Issues) 论文承认Botometer自动化工具 (automated tools)存在精确性问题 (accuracy issues),可能导致假阳性 (false positives)假阴性 (false negatives)。这可能会影响机器人行为 (bot-like behavior)影子禁令 (shadowbanning)关联的强度 (strength)准确性 (accuracy)。未来的研究可以尝试结合人工验证 (manual verification)多模型融合 (multi-model ensemble)来提高机器人检测 (bot detection)稳健性 (robustness)
  3. 意识形态偏见 (Ideological Bias)的深入研究: 尽管论文发现左右翼政治议题 (left-right political issues)都可能遭到降级 (demotion),但其也承认政治标签 (political tags)不能完全区分用户立场 (user stance)。要更准确地评估意识形态偏见 (ideological bias),需要开发更精细的意识形态测量方法 (ideology measurement methods),或者直接与被认为受审查 (censorship)影响的意识形态群体 (ideological groups)进行定性研究 (qualitative research)
  4. 用户感知和适应策略 (Adaptation Strategies) 论文提到了用户为规避影子禁令 (shadowbanning)而采取的适应策略 (adaptation strategies)(如暗号 (code words)代称 (euphemisms))。未来的研究可以更深入地探讨这些用户策略 (user strategies)有效性 (effectiveness)传播模式 (diffusion patterns)以及它们如何反过来影响平台算法 (platform algorithms)的演进。
  5. 跨平台 (Cross-Platform)跨文化 (Cross-Cultural)研究: 本研究主要聚焦于美国推特平台。鉴于平台治理 (platform governance)审查机制 (moderation mechanisms)在不同平台和不同国家/文化背景下的差异,未来的研究可以进行跨平台 (cross-platform)跨文化 (cross-cultural)审计 (audits),以获得更全面 (comprehensive)的理解。
  6. 算法 (Algorithms)“意图” (Intent)“伤害” (Harm)的定义: 论文讨论了算法 (algorithms)“意图” (intent)伤害原则 (harm principle)。如何在算法自动化决策 (algorithmic automated decision-making)中明确定义“伤害” (harm)的类型和程度,以及如何区分“有意” (intentional)“非预期” (unintended)负面后果 (negative consequences),仍是一个复杂的伦理 (ethical)哲学 (philosophical)挑战,需要更多跨学科的对话 (dialogue)

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。