第 15 页 - 论文列表 - AiPaper

H^1

损失函数缓解谱偏差。在实验中，HTNet显著优于现有最先进的方法。

Learning Spatially-Aware Language and Audio Embeddings

发表：2024/9/18

空间感知音频与文本嵌入模型多模态对比学习音频事件定位与检测开放词汇文本描述非空间音频与文本映射

本文提出了一种多模态对比学习模型ELSA（嵌入语言与空间音频），能够同时捕捉音频的语义和空间特征。通过合成的空间音频和自然语言描述生成的语料库，ELSA在语义检索和三维声音定位任务中表现优异，相比同类模型提高了检索精度和定位准确性。

SALM: Spatial Audio Language Model with Structured Embeddings for Understanding and Editing

发表：2025/7/23

空间音频语言模型多模态对比学习结构化音频嵌入空间音频理解与编辑零样本方向分类

本文提出了SALM（空间音频语言模型），通过多模态对比学习将空间音频与自然语言对齐。SALM设计了双分支音频编码器与文本编码器，并通过结构化嵌入实现语义与空间信息的解耦和联合表示。其关键特性包括空间音频与文本的无缝对齐、零样本方向分类及文本驱动的音频编辑能力，实验证实其有效性。

Study of AI‑Driven Fashion Recommender Systems

发表：2023/7/5

时尚推荐系统基于图像的推荐系统人工智能在推荐系统中的应用用户物品关系建模时尚行业数据分析

本文综述了过去十年中人工智能技术在时尚推荐系统中的应用，突出了基于图像的深度学习与计算机视觉的重要性。相比传统方法，AI能更有效地处理时尚商品的多样性和搭配性，为用户提供更优质的推荐，帮助解决选择过载问题。

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

发表：2025/12/8

大语言模型自我蒸馏强化学习并行感知推理自适应分解策略优化大型并行强化学习训练模型记忆管理与流控制

本文提出了原生并行推理器(NPR)，一个无教师框架，使大型语言模型具备真正的并行推理能力。NPR通过自我蒸馏渐进训练、并行感知策略优化及强大的引擎重构，实现从顺序思维到原生并行认知的转变。在推理基准测试中，NPR表现出高达24.5%的性能提升及4.6倍的推理加速，设立了智能体推理的新标准。

KV-Edit: Training-Free Image Editing for Precise Background Preservation

发表：2025/2/25

训练无关图像编辑背景一致性维护DiT模型在图像生成中的应用内存优化方法用户提供区域的内容生成

KVEdit是一个用于图像编辑的免训练方法，解决了背景一致性问题。该方法利用Diffusion Transformer的KV缓存机制，保留背景Token，避免了重复生成，实现前景与背景的无缝融合。相较于现有方法，KVEdit在背景保留与图像质量方面表现出色，且空间复杂度优化至O(1)。

Recommender Systems with Generative Retrieval

发表：2023/5/9

生成式推荐系统基于语义ID的推荐模型Transformer序列到序列模型近似最近邻搜索用户行为预测

本文提出了一种新颖的生成式检索方法，通过自回归解码目标候选的语义ID，以提升推荐系统的性能。基于Transformer的序列模型可有效预测用户下一个互动的物品。实验显示，该方法在多数据集上超过了现有的最先进模型，并增强了对新物品的检索能力。

Motion Inversion for Video Customization

发表：2024/3/29

视频生成中的运动定制时序Transformer模块运动嵌入表示运动查询键嵌入函数推理策略

本文提出了一种新颖的运动定制方法——运动嵌入，针对视频生成模型中运动表示的不足，解决了视频的时空特性带来的挑战。该方法通过两种嵌入与时间变换器模块无缝整合，优化了跨帧的自注意力计算，确保运动信息集中而不受外观偏差影响。

Unsupervised Learning of Video Representations using LSTMs

发表：2015/2/17

视频表示的无监督学习长短期记忆网络 (LSTM) 应用人类动作识别UCF-101 数据集HMDB-51 数据集

本研究提出了一种利用多层长短期记忆（LSTM）网络进行视频表示无监督学习的方法。模型通过编码器LSTM将视频序列映射为固定长度表示，并利用解码器LSTM进行任务处理，如重建和预测。实验证明这些表示在UCF101和HMDB51人类动作识别任务中提升了分类准确率，尤其在少量训练样本情况下表现优异。

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

发表：2024/6/8

运动克隆无训练控制视频生成稀疏时间注意力机制视频生成系统运动表示抽取

该研究提出了MotionClone，一个免训练的运动克隆框架，支持从参考视频生成可控视频，涵盖文本到视频和图像到视频的任务。通过稀疏时间注意力权重提取运动表示，MotionClone在运动保真度、文本对齐和时间一致性方面均表现出色，提升了视频生成的效率与灵活性。

Plan, Posture and Go: Towards Open-World Text-to-Motion Generation

发表：2023/12/22

开放世界文本到动作生成基于大语言模型的动作规划姿态扩散模型运动生成框架CLIP模型在动作生成中的应用

本文提出了PROMotion框架，通过运动规划器、姿态扩散器与行动扩散器三大模块，解决了传统文本到动作生成技术在开放世界场景中的泛化能力不足问题。该方法利用大语言模型生成描述关键姿态的脚本，从而实现从复杂自然语言描述生成多样化、逼真的三维动作。

Successful Qualitative Research a practical guide for beginners

发表：2016/1/1

定性研究方法初学者指南研究方法论

本章旨在为初学者提供定性研究的实用指导，重点在于解神秘化定性研究过程，强调实践优先，提供全程支持，培养定性敏感性，简化模式分析，帮助学生理解并应用定性方法。

Approximate Relational Reasoning for Quantum Programs

发表：2024/1/1

量子程序的近似关系推理量子傅里叶变换的形式验证近似量子耦合方法量子程序的鲁棒性评估重复成功算法的近似正确性验证

本文提出了一种证明系统，以验证量子程序的近似关系属性，解决了量子计算中的实施不完善问题。研究首次形式化验证了量子傅里叶变换的低深度近似，并验证了重复直到成功算法的近似正确性。同时开发了近似量子耦合工具，拓展了近似概率耦合的应用，回应了对投影谓词的开放问题。

“Stroppy Bitches Who Just Need to Learn How to Settle”? Young Single Women and Norms of Femininity and Heterosexuality

发表：2018/1/6

年轻女性的单身经历性别角色与社会规范美丽标准与性别压迫异性恋关系中的期待传统性别观念的影响

本研究探讨了新西兰2535岁年轻异性恋单身女性的经历，发现她们面临与传统女性气质和异性恋规范相关的刻板压力。这些压力涵盖美貌标准、男权控制、性行为规范及强制性的婚配期望，尽管有反抗，但她们仍基本顺从这些主流期待。

Adding Conditional Control to Text-to-Image Diffusion Models

发表：2023/2/11

条件控制的文本到图像扩散模型ControlNet架构基于深度学习的条件控制多种条件控制测试稳定扩散模型

本文提出名为ControlNet的神经网络架构，旨在为文生图扩散模型增加空间条件控制能力。ControlNet通过冻结预训练模型，利用其鲁棒的编码层，以“零卷积”连接，确保微调过程中不受噪声影响。实验表明，ControlNet在小型和大型数据集上均展现出卓越的训练稳健性，极大地拓宽了图像生成的应用范围。

OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation

发表：2023/1/19

OmniObject3D 数据集真实场景3D重建3D对象生成大规模3D物体分类多视图合成

本文提出了OmniObject3D，这是一个大型词汇量的3D物体数据集，包含6000个高质量真实扫描的3D物体，涵盖190个日常类别，并提供丰富的注释，包括纹理网格和多视角图像。该数据集旨在促进真实世界中的3D感知、重建和生成研究，并设定了四个评估任务。

GPTScan: Detecting Logic Vulnerabilities in Smart Contracts by Combining GPT with Program Analysis

发表：2023/8/7

智能合约逻辑漏洞检测GPT与程序分析结合静态分析工具大语言模型用于漏洞检测Solidity代码分析

该论文提出了GPTScan，这是首个将GPT与静态分析结合用于智能合约逻辑漏洞检测的工具。通过将逻辑漏洞分解为场景和属性，GPTScan与GPT匹配候选漏洞，进一步指示GPT识别关键变量。评估结果显示，GPTScan在代币合约中精度超过90%，且有效检测到人类审计员遗漏的漏洞，表现出快速和成本效益高的优势。

GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation

发表：2024/6/22

几何感知大重建模型3D高斯生成3D-aware transformer结构稀疏3D结构优化变形交叉注意力机制

本研究提出了一种名为GeoLRM的几何感知大型重构模型，能够高效地从21张输入图像生成包含512k高斯点的高质量三维资产，且仅需11GB的GPU显存。GeoLRM通过新颖的3D感知变换器结构和可变形交叉注意力机制，解决了现有方法在三维结构稀疏性及几何关系利用方面的不足，显著提升了生成质量。

Wide-FOV 3D Pancake VR Enabled by a Light Field Display Engine

光场显示引擎宽视场3D虚拟现实计算聚焦提示微液晶显示器光学扁平化设计

本文提出了一种新型真 3D Pancake VR 系统，结合光场显示引擎和计算焦距线索，生成高分辨率中间图像。通过远心光路解决因像差引起的视场缩小问题，实验验证该系统可实现清晰的 3D 图像，视场达到 68.6 度。

The differential influence of Achievement Motivation on Subjective Well-being and the moderating role of Self-control

发表：2024/9/27

成就动机与主观幸福感自我控制的调节作用大学生心理健康研究自我管理与幸福感

本研究对1017名中国大学生进行了调查，探讨了成就动机与主观幸福感之间的关系，并考察自我控制的调节作用。结果显示，趋近成功动机与自我控制交互作用显著，尤其在高自我控制个体中，前者对主观幸福感及积极情感影响更强，消极情感则相对减弱。同时，避免失败动机的负面影响在高自我控制个体中也有所缓解，表明提升自我控制可最大化成就动机对主观幸福感的积极作用。

281 - 300 / 982