BlendScape: Enabling End-User Customization of Video-Conferencing Environments through Generative AI
TL;DR 精炼摘要
BlendScape利用生成式AI融合用户物理与数字背景,实现视频会议环境的个性化定制。通过多模态交互引导生成过程,提升任务空间表现力。15名用户探索研究表明,该系统能增强协作体验,但需更多控制以减少视觉干扰。
摘要
BlendScape: Enabling End-User Customization of Video-Conferencing Environments through Generative AI Shwetha Rajaram ∗ Nels Numan ∗ Balasaravanan Thoravi Microsoft Research Microsoft Research Kumaravel United States United States Microsoft Research shwethar@umich.edu nels.numan@ucl.ac.uk United States bala.kumaravel@microsoft.com Nicolai Marquardt Andrew D. Wilson Microsoft Research Microsoft Research United States United States nicmarquardt@microsoft.com awilson@microsoft.com Figure 1: Overview of BlendScape , a rendering and composition system for end-users to customize video-conference environ - ments by leveraging AI image generation techniques. ABSTRACT Today’s video-conferencing tools support a rich range of profes - sional and social activities, but their generic meeting environments cannot be dynamically adapted to align with distributed collabora - tors’ needs. To enable end-user customization, we developed Blend- Scape , a rendering and composition system for video-c
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): BlendScape: Enabling End-User Customization of Video-Conferencing Environments through Generative AI (BlendScape: 通过生成式 AI 实现视频会议环境的终端用户定制)
- 作者 (Authors): Shwetha Rajaram, Nels Numan, Balasaravanan Thoravi Kumaravel, Nicolai Marquardt, and Andrew D. Wilson.
- 隶属机构 (Affiliation): 所有作者均来自微软研究院 (Microsoft Research)。
- 发表期刊/会议 (Journal/Conference): The 37th Annual ACM Symposium on User Interface Software and Technology (UIST '24)。UIST 是人机交互 (Human-Computer Interaction, HCI) 领域的顶级学术会议之一,以其对新颖用户界面和交互技术的关注而闻名,具有很高的学术声誉和影响力。
- 发表年份 (Publication Year): 2024
- 摘要 (Abstract): 当前的视频会议工具支持丰富的专业和社交活动,但其通用会议环境无法动态调整以满足分布式协作者的需求。为实现终端用户定制,我们开发了
BlendScape,一个渲染和合成系统,允许视频会议参与者利用 AI 图像生成技术,根据会议情境定制环境。BlendScape通过将用户的物理或数字背景融合成统一的环境,支持灵活的任务空间表示,并实现了多模态交互技术来引导生成过程。通过对 15 名终端用户的探索性研究,我们调查了他们是否以及如何发现使用生成式 AI 定制视频会议环境的价值。参与者设想未来使用类似BlendScape的系统来促进协作活动,但需要更多控制来减轻分散注意力或不真实的视觉元素。我们实施了多个场景来展示BlendScape在支持先前工作中环境设计策略方面的表现力,并提出了合成技术以提高环境质量。 - 原文链接 (Source Link): 论文以 PDF 文件的形式提供,路径为
/files/papers/68f2376925f61e44beef6019/paper.pdf。这是一份已准备提交给会议的论文。
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 现代视频会议工具(如 Teams, Zoom)虽然普及,但其提供的环境非常通用和死板。用户通常被放置在网格布局中或固定的虚拟背景前,这些环境无法根据会议的具体目的(如头脑风暴、教学、社交聚会)进行动态调整。
- 问题的重要性与挑战: 这种“一刀切”的环境设计会导致会议疲劳 (meeting fatigue)、降低用户参与度 (reduce user engagement),并破坏微妙的人际沟通线索 (disrupt interpersonal cues),如轮流发言和共同在场感。尽管学术界早已提出多种增强协作的会议环境设计策略,但现有商业工具的定制功能(如 Teams Together Mode, Ohyay)通常需要大量的手动预设,无法在会议进行中实时、快速地进行调整,这构成了一个明显的技术空白 (Gap)。
- 切入点与创新思路: 论文的创新切入点是利用最新的生成式 AI (Generative AI) 技术,特别是图像生成模型,赋能终端用户 (end-user) 能够实时、便捷地创建和定制符合其需求的视频会议环境。其核心思路是不仅仅生成全新的背景,而是巧妙地将参与者各自的物理或虚拟背景融合 (blend) 在一起,创造一个统一且个性化的共享空间。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 核心贡献 1:
BlendScape系统本身。 这是一个新颖的渲染与合成系统,它首次将生成式 AI 技术(特别是inpainting和image-to-image)应用于实时视频会议环境的终端用户定制。该系统能够将多个用户的背景(物理或虚拟)无缝融合,并根据文本提示进行风格化,创造出统一、连贯且富有表现力的会议“舞台”。 - 核心贡献 2:对生成式 AI 在该场景下应用价值的探索性评估。 论文通过一个包含 15 名用户的研究,深入探讨了普通用户如何看待并期望使用此类工具。研究发现,用户普遍认为生成式 AI 在促进协作(如激发创意、设定社交主题)方面潜力巨大,但同时也指出了当前技术的局限性,例如需要更精细的控制来避免生成分散注意力或不真实的元素。此外,论文还通过实现三个具体场景,验证了
BlendScape能够支持大量先前研究中提出的高级环境设计策略。
- 核心贡献 1:
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 视频会议环境 (Video-Conferencing Environments): 指视频会议中用户视频流周围的背景或“舞台”。它可以是简单的网格布局、个人虚拟背景,也可以是像本文所探讨的、将所有参与者置于其中的统一虚拟空间。
- 生成式 AI (Generative AI): 一类能够根据输入数据(如文本、图像)创建全新、原创内容(如图像、文本、音频)的人工智能模型。本文主要利用其图像生成能力。
- 文本到图像 (text-to-image): 一种生成式 AI 技术,根据用户提供的文本描述(称为
prompt)生成一幅全新的图像。 - 图像到图像 (image-to-image): 在
text-to-image的基础上,额外接收一张输入图像(称为image prior),生成的新图像会保留输入图像的结构或特征,同时根据文本提示进行风格转换或内容修改。 - 图像修复 (inpainting):
image-to-image的一种特殊形式。它使用一个mask(蒙版)来指定输入图像中哪些区域应保持不变。模型会重新生成蒙版之外的区域,并确保生成内容与保留区域无缝衔接。BlendScape使用此技术来融合多个用户的背景。 - ControlNet: 一种增强扩散模型(如 Stable Diffusion)可控性的技术。它允许模型在生成图像时,额外参考一些条件信息,如深度图、边缘图或人体姿态,从而更精确地控制生成图像的结构和布局。
-
前人工作 (Previous Works): 论文系统地回顾了视频会议环境设计的相关研究,并将其归纳为三大策略,如下图所示:
该图像是图表,展示了环境设计策略分类(图2),分析了现有视频会议工具如何通过共享上下文、空间隐喻和协作记录三类策略支持分布式协作。图中黑框表示BlendScape支持的设计策略。- 建立共享情境 (Establishing a Shared Context):
- 统一环境: 如
Teams Together Mode和Waazam,将用户置于同一个虚拟空间(如礼堂)以增强共同在场感。 - 传达任务空间: 如
MirrorBlender,将用户的物理桌面或数字屏幕融入环境,方便围绕共享内容进行协作。 - 设定主题/情绪: 如
VideoPlay,将儿童置于故事书插图中,创造有趣的互动体验。
- 统一环境: 如
- 通过空间隐喻增强沟通 (Enabling Spatial Metaphors for Communication):
- 距离隐喻: 如在
GatherTown 中,用户通过“走近”对方来发起对话。 - 缩放隐喻: 如 Zoom 的
Speaker View,将正在发言的人放大以突出显示。 - 一致性布局: 如
Together Mode将用户固定在座位上,有助于形成固定的交流模式。
- 距离隐喻: 如在
- 作为协作的记录或产物 (Serving as a Record or Artifact of Collaboration):
- 记录协作历史: 如
MirrorVerse可以记录和回放用户在空间中的交互。 - 作为协作产物: 环境本身就是用户协作创造的结果,常见于 VR 创作工具。
- 记录协作历史: 如
- 建立共享情境 (Establishing a Shared Context):
-
技术演进 (Technological Evolution): 在环境生成方面,技术从早期的程序化生成 (procedural generation) 演变为现在的AI 辅助生成。前者如
WordsEye,依赖预定义的 3D 模型库和规则来将文本转换成场景。后者如WorldSmith和Opal,则利用强大的图像生成模型,让用户能够通过多模态输入(文本、草图等)来创造和迭代设计虚拟世界或插图。 -
差异化分析 (Differentiation): 与前人工作相比,
BlendScape的核心创新在于:- 专注视频会议场景的实时性: 不同于面向艺术家或世界构建者的通用创作工具,
BlendScape专为视频会议设计,强调在会议进行中进行快速、动态的调整。 - 独特的“融合”理念:
BlendScape不仅是生成一个全新的背景,其关键特性是融合 (blending) 参与者现有的物理或数字背景,这既保留了用户的个性化元素和真实感(如光照),也为共享物理任务空间(如桌面上的草图)提供了可能。 - 赋能终端用户:
BlendScape的目标是降低技术门槛,让不具备专业设计技能的普通会议参与者也能轻松定制环境,而不仅仅是会议组织者或开发者。
- 专注视频会议场景的实时性: 不同于面向艺术家或世界构建者的通用创作工具,
4. 方法论 (Methodology - Core Technology & Implementation Details)
BlendScape 是一个复杂的系统,结合了用户界面、视频流处理和多种 AI 模型。其核心技术和实现细节如下:
-
方法原理 (Methodology Principles):
BlendScape的设计遵循了三个核心需求:(R1) 能够通过环境表达会议情境;(R2) 能够创造令人信服的共享空间错觉;(R3) 支持从粗到细的粒度定制。为实现这些目标,系统采用了2.5D 分层场景的设计,并将生成式 AI 模型作为核心驱动力,通过两种主要模式运作:基于用户摄像头的inpainting和基于画布的image-to-image。 -
方法步骤与流程 (Steps & Procedures): 系统的整体工作流程如下图所示:
该图像是BlendScape系统工作流程示意图,展示视频会议环境定制中多模块协同处理过程,包括用户画面分割、文本提示增强及背景补全,强调了BlendScape客户端与服务器端的交互机制。-
视频输入与预处理:
- 系统通过 Microsoft Teams 的
NDI(网络设备接口)功能获取每个参与者的实时视频流。 - 使用计算机视觉技术进行人物分割 (Person segmentation),将用户从其原始背景中分离出来。
- 由于分割后,用户身后的背景区域是未知的,系统使用
Stable Diffusion的inpainting功能对这部分进行背景补全 (Inpainting to complete the video background),得到一个没有人物的完整背景图像。
- 系统通过 Microsoft Teams 的
-
用户交互与提示增强:
- 用户在
BlendScape的界面中输入文本提示,分为Meeting Activity(会议活动,如“头脑风暴”)和Meeting Theme(会议主题,如“树屋”)。 - 系统将这些简单的提示发送给
GPT-3.5模型,进行提示增强 (Prompt Enhancement)。GPT-3.5会自动补充相关的对象和风格关键词(如为“头脑风暴”+“全息图”主题补充“交互式触摸屏”、“动态光效”等),以生成更丰富、更高质量的图像。
- 用户在
-
核心环境生成 (Environment Generation):
- 模式一:融合背景 (Inpainting Mode): 这是
BlendScape的核心创新。系统将多个用户的(已补全的)背景图像拼接在一起,并使用Stable Diffusion的inpainting模型填充它们之间的空白区域。用户可以通过滑块调整保留多少原始背景(即控制蒙版大小)。这种方式可以保留原始环境的光照和真实感。 - 模式二:风格变换 (Image-to-Image Mode): 用户可以上传一张图片作为
image prior(例如一张图书馆的照片),或者使用上一步生成的融合环境。然后,系统使用image-to-image技术,在保留原始图像结构(通过ControlNet的深度图或边缘图控制)的同时,根据文本提示对其进行重新风格化。
- 模式一:融合背景 (Inpainting Mode): 这是
-
后期合成与优化 (Composition & Refinement):
-
2.5D 分层合成: 如下图所示,
BlendScape在 Unity 中使用一个 2.5D 场景,将前景物体、用户视频、用户背景和生成的环境等元素放置在不同深度的图层上,从而实现灵活的组合和逼真的遮挡效果。
该图像是示意图,展示了BlendScape系统中2.5D分层场景的结构,包括环境层、人物层、前景物体层及场景摄像机,体现了通过正交相机分层渲染以支持图像生成模型的输入组合。 -
隐藏面消除 (Hidden Surface Removal): 为了让用户看起来更自然地“坐”在环境中,而不是“漂浮”在前景,系统使用
PixelLib语义分割模型识别生成环境中的前景物体(如桌子、椅子),并将它们提取到最前面的图层,从而遮挡用户身体的下半部分。 -
精细编辑 (Granular Editing): 用户可以使用选择工具圈出场景中的特定区域,并提供文本提示来添加或删除物体(例如“添加一把椅子”)。此功能由
GLIGEN模型实现,它擅长根据位置和文本描述在指定区域生成内容。
该图像是BlendScape系统的示意图,展示了视频会议环境中用户背景和任务空间的融合方式,包含不同的合成模式、自动布局技术以及添加自定义对象的功能示例,图下方展示了多种主题环境场景。
-
上图展示了
BlendScape的完整界面和核心功能,包括不同的合成模式、自动布局技术(隐藏面消除)、添加自定义对象(精细编辑),以及底部展示的多种生成效果示例。 -
5. 实验设置 (Experimental Setup)
本研究的评估并非传统的定量实验,而是一项探索性的用户研究 (exploratory study),旨在了解用户对这一新技术的接受度、偏好和潜在使用场景。
-
参与者 (Participants):
- 研究招募了 15 名来自公司内部的员工,他们都是视频会议的频繁用户(每周至少使用三次)。
- 参与者职业背景多样,包括 UX 设计师、UX 研究员、产品经理等。
- 约一半(7/15)的参与者对生成式 AI 模型有一定使用经验。
-
研究方法 (Method):
- 研究采用远程方式进行,时长为 1 小时,通过 Teams 屏幕共享让参与者远程控制
BlendScape系统。 - 研究包含三个任务和一个半结构化访谈:
- 任务 1 (Inpainting 体验): 在“度假计划”场景中,引导参与者体验和比较
BlendScape的inpainting功能,并对不同背景保留度的效果进行评论。 - 任务 2 (Image-to-Image 体验): 在“游戏直播”场景中,引导参与者体验
image-to-image功能,并对生成环境的质量和问题进行讨论。 - 任务 3 (自由创作): 在一个“撰写研究论文”的渐进式场景中,让参与者自由使用
BlendScape的各种工具来设计和调整环境,以应对会议的不同阶段(如两人讨论、教授加入、需要减压)。
- 任务 1 (Inpainting 体验): 在“度假计划”场景中,引导参与者体验和比较
- 数据收集方法包括录音、屏幕录像、生成图像的存档以及访谈笔记。
- 研究采用远程方式进行,时长为 1 小时,通过 Teams 屏幕共享让参与者远程控制
-
评估指标 (Evaluation Metrics): 由于这是一项定性研究,因此没有使用数值化的评估指标。评估的核心是主题分析 (thematic analysis),研究人员通过分析参与者的访谈记录、评论和“出声思考”过程,提炼出关于他们定制偏好、设计意图、对系统优缺点的看法等方面的共同主题。因此,本节不涉及数学公式定义的指标。
-
对比基线 (Baselines): 研究中没有设置严格的“基线模型”进行 A/B 测试。对比主要在以下几个层面进行:
BlendScape内部功能对比: 例如,比较inpainting和image-to-image模式的优劣,或者不同背景保留程度带来的感受差异。- 与传统工具的隐性对比: 参与者的反馈自然地将
BlendScape的体验与他们日常使用的 Teams、Zoom 等传统工具进行了比较。
6. 实验结果与分析 (Results & Analysis)
通过对 15 名用户的研究,论文总结出了用户在环境定制方面的偏好以及对 BlendScape 系统的反馈。
-
核心结果分析 (Environment Customization Preferences):
该图像是两组视频会议环境场景的插图,分别对应“头脑风暴环境”和“减压环境”,图中展示了不同编号(如P6、P8等)参与者自定义的多样化虚拟背景,体现了BlendScape在环境设计上的灵活表达能力。上图展示了参与者在“研究论文”场景中生成的“头脑风暴环境”和“减压环境”,体现了用户多样的创意。
-
偏好真实而非人造的环境,但对真实环境的期望更高:
-
大多数参与者认为,融合用户的真实物理环境(
inpainting模式)能增强共同在场感,同时保留熟悉感。P13 称其为“欺骗我们的大脑,让我们相信我们更像在同一个地方”。 -
然而,当环境基于真实背景时,参与者对生成结果中的瑕疵(如几何扭曲、不自然的融合)也更加挑剔。如下图所示,当用户背景差异较大或拍摄角度不同时,容易产生不真实感。
该图像是一个示意图,展示了BlendScape中混合环境的不完美之处。图中红色虚线框标记了背景融合时产生的扭曲和不真实的空间几何现象,分别来自不同视角或差异较大的视频背景(P7和P5)。 -
相比之下,对于完全由 AI 生成的虚构环境,用户的容忍度更高,P8 表示“即使不那么完美”,他们也更能接受。
-
-
对主题元素的偏好依情境而异(强或弱):
- 在社交或创意场景(如生日派对、头脑风暴)中,参与者喜欢强烈、明确的主题元素,认为这能设定气氛、激发灵感。
- 在专业或严肃的会议中,他们则更倾向于微妙、不分散注意力的主题元素,例如只改变环境的材质或色调,而不是引入大量新物体。
-
通过空间布局来组织协作:
-
参与者积极利用生成环境中的空间特征来组织协作。例如,在下图的远程教育场景中,他们会将自己和同学的视频放置在不同的桌子周围,以模拟分组讨论。这验证了
BlendScape支持“通过空间隐喻增强沟通”这一设计策略。
该图像是论文BlendScape中的示意图(图10),展示了远程教育场景下,教授如何通过重新设计不同尺寸的桌子(a,c)使房间布局(b,d)呈现图书馆环境,方便学生在空间地标后进行讨论。
-
-
在环境的丰富性与干扰性之间寻求平衡:
- 虽然用户喜欢信息丰富的环境,但他们也担心过于杂乱或动态的视觉元素会分散注意力。他们希望能够控制环境中物体的数量和复杂性。
-
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis): 研究中的任务设计起到了类似参数分析的作用。
-
背景保留度分析 (Task 1): 在比较不同背景保留度的
inpainting效果时(如下图),参与者通常不喜欢“最大保留度”,因为它看起来像两个独立的房间被生硬地粘在一起。他们更偏好“中等”或“最小”保留度,因为这能更好地创造一个统一、融合的空间。
该图像是示意图,展示了不同程度背景保留的混合场景效果。图中分别显示原始视频背景,以及最大、中等和最小背景保留的视觉对比,体现BlendScape系统在自定义视频会议环境中对背景融合的调节能力。 -
背景融合与否的分析 (Task 2): 在
image-to-image模式下,当融合了用户的真实背景后(如下图右侧),参与者普遍认为效果更佳,因为用户看起来更自然地融入了Minecraft风格的街机厅,而不是简单地“贴”在背景上。
该图像是多张示意图,展示了BlendScape系统中游戏流媒体、街机游戏画面和直播视频与背景保留技术结合的效果对比,突出环境定制和背景融合在视频会议中的应用。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 论文成功地开发并验证了
BlendScape系统,证明了利用生成式 AI 赋能终端用户实时定制视频会议环境的可行性和巨大潜力。研究表明,用户普遍对这一概念持积极态度,并设想将其用于促进未来的协作活动,尤其是在需要激发创意和设定社交氛围的场景中。同时,研究也揭示了当前技术的局限,即用户需要更精细的控制手段来管理生成内容的真实性和复杂性,以避免分散注意力。论文提出的融合用户背景的inpainting技术和多模态交互方式,为下一代视频会议工具的设计提供了宝贵的思路和实践基础。下图展示了
BlendScape支持的更多样的生成场景,从设计室到婚礼,体现了其强大的表现力。
该图像是图14,展示了多种生成的视频会议环境示例。不同的人物出现在模拟的多样会议背景中,包括设计室、工厂、传统中式婚礼场景等,体现了BlendScape在环境定制上的多样性和创意性。 -
局限性与未来工作 (Limitations & Future Work):
- 控制性不足: 这是用户研究中发现的主要问题。用户希望有更直接的方式来修正 AI 生成的瑕疵(如扭曲的几何形状)和移除不想要的物体,而不仅仅是重新生成。
- 生成速度: 目前的生成时间(10-25秒)对于实时会议中的快速切换来说仍然偏长,未来需要优化模型以实现更快的响应。
- 静态环境:
BlendScape生成的是静态背景图像,而非动态视频。未来的工作可以探索视频到视频的生成技术,创造更生动的环境。 - 2D 限制: 系统基于 2D 图像生成,无法实现
egocentric viewing perspectives(自我中心视角,即模拟转头看向某人)等高级 3D 交互。未来的研究可以探索生成 360° 全景图或完整的 3D 场景。 - 社会动态: 论文未深入探讨多人共同编辑一个环境时可能出现的社会动态和冲突。
-
个人启发与批判 (Personal Insights & Critique):
- 启发: 这篇论文最亮眼的启发在于它超越了简单的“虚拟背景”概念,提出了一个更深层次的“协同环境”框架。将多个参与者的真实物理空间融合为一个连贯的 AI 生成空间,是一个极具创造力和实用价值的想法。它不仅增强了在场感,还巧妙地解决了远程协作中物理对象(如草图、模型)难以共享的问题。
BlendScape真正将视频会议从一个“被动观看的窗口”转变为一个“主动创造的舞台”。 - 批判性思考:
-
实用性与干扰的权衡: 尽管创意十足,但在高强度、目标导向的专业会议中,频繁地调整和生成环境是否会成为一种新的干扰源?10-25 秒的等待时间在快节奏的讨论中是难以接受的。系统的实用性可能更多地局限于社交、教育和创意等特定类型的会议。
-
“恐怖谷”效应: 当融合真实背景时,用户对瑕疵的敏感度更高。这意味着系统必须达到非常高的真实感水平,否则轻微的扭曲或不一致性(如光照、透视错误)反而会比完全虚构的背景更让人出戏,产生负面效果。
-
社会规范的挑战: 当每个人都有能力实时改变共享环境时,可能会出现新的社会问题。谁拥有最终的控制权?如何防止有人恶意生成不当或冒犯性的内容?这些都是在技术之外需要建立相应社会规范和管理机制的。
总而言之,
BlendScape是一项具有前瞻性的杰出工作,它为视频会议的未来描绘了一幅激动人心的蓝图,并为 HCI 和 AI 交叉领域的研究者提供了坚实的系统原型和宝贵的用户洞察。
-
- 启发: 这篇论文最亮眼的启发在于它超越了简单的“虚拟背景”概念,提出了一个更深层次的“协同环境”框架。将多个参与者的真实物理空间融合为一个连贯的 AI 生成空间,是一个极具创造力和实用价值的想法。它不仅增强了在场感,还巧妙地解决了远程协作中物理对象(如草图、模型)难以共享的问题。
相似论文推荐
基于向量语义检索推荐的相关论文。