首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation

发表：2025/12/11

序列推荐系统语义ID与哈希ID结合长尾问题缓解方法多层次语义建模推荐系统知识转移策略

本文提出了一种新颖的H

^2

Rec框架，旨在解决传统序列推荐系统中的长尾问题。通过协调语义ID(SID)与哈希ID(HID)，该框架采用双分支建模架构，捕捉SID的多粒度语义，同时保留HID的唯一协同身份，并引入双层对齐策略以促进知识迁移。

Rethinking Popularity Bias in Collaborative Filtering via Analytical Vector Decomposition

发表：2025/12/11

协同过滤中的流行性偏差分析贝叶斯成对排序优化方向分解与纠正方法个性化推荐系统几何嵌入矫正

本研究揭示了协同过滤模型中的流行度偏差不仅是外部因素，而是贝叶斯成对排序优化的内在几何伪影。提出的方向分解与校正(DDC)框架通过非对称更新修正嵌入几何，显著提升推荐的个性化和公平性，实验结果显示DDC在去偏差效果上超越现有方法。

STARS: Semantic Tokens with Augmented Representations for Recommendation at Scale

发表：2025/12/11

基于Transformer的序列推荐系统语义项令牌低延迟推荐系统用户嵌入双重记忆冷启动产品推荐

STARS是一个基于Transformer的序列推荐框架，专为大规模电子商务设计，解决冷启动、动态用户意图等挑战。该系统结合了双内存用户嵌入与语义物品词元，提升了匹配效果和冷启动性能，在线测试中显示出显著的推荐质量提升。

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

发表：2023/1/30

视觉语言模型BLIP-2预训练策略轻量级查询Transformer冻结图像编码器无监督图像到文本生成

BLIP2提出了一种高效的视觉语言预训练策略，利用已冻结的图像编码器和语言模型。这种方法通过轻量级的查询转换器分为两阶段进行学习，显著提升了多项视觉语言任务的性能，同时参数数量远低于现有模型，实现了更高的计算效率。

FuXi-$α$: Scaling Recommendation Model with Feature Interaction Enhanced Transformer

发表：2025/2/5

特征交互增强Transformer大规模推荐模型自适应多通道自注意力机制多阶段前馈网络在线A/B测试

本文提出了一种名为FuXi

α

的新型大规模推荐模型，采用自适应多通道自注意力机制，显著增强了时间、位置和语义特征的建模能力，同时通过多级前馈网络提升隐式特征交互的效果。离线实验结果表明，该模型在性能上优于现有模型。

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

发表：2024/4/9

长视频理解多模态长时序模型视频问答系统视频信息存储机制基于记忆的多模态学习

本文提出了一种新的记忆增强大型多模态模型MALMM，以实现长时视频理解。模型通过在线方式处理视频，利用记忆库存储历史视频信息，突破了现有大型模型在处理视频帧数量上的限制。广泛的实验表明，MALMM在诸如视频问答和字幕生成等任务上均取得了最先进的性能。

Compact and Wide-FOV True-3D VR Enabled by a Light Field Display Engine with a Telecentric Path

真实3D虚拟现实显示光场显示技术微型LCD高分辨率显示远心光学路径设计大视场成像

本文提出一种基于光场显示引擎的真3D虚拟现实显示系统，通过生成具有计算焦距线索的中间图像，实现高分辨率显示。引入远心光学路径有效缓解了像差造成的视场减小问题，实验结果表明，该系统可生成清晰的3D图像并实现超过60度的宽视场。

H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

发表：2023/6/25

大语言模型的 KV 缓存优化重击者算法动态子模问题高效生成推理模型推理性能提升

本文针对大语言模型（LLMs）在生成长文本时显存消耗高的问题，提出了HO，一种新颖的KV缓存驱逐策略。通过识别并保留被称为“重击者”的高贡献词元，HO能将显存占用减少510倍，同时推理吞吐量可提升至29倍，几乎不影响模型精度。

One-step Diffusion with Distribution Matching Distillation

发表：2023/12/1

分布匹配蒸馏单步扩散生成图像生成神经网络扩散模型优化高质量图像生成

本文提出了一种名为分布匹配蒸馏（DMD）的方法，将多步扩散模型转化为单步图像生成器，保持高图像质量。通过最小化KL散度，强制生成器在分布层面与原始模型一致。在ImageNet和COCO30k上，DMD在速度上远超现有方法，达到每秒20帧的生成速度。

Improving surface quality of LDED thin-wall Ti-6Al-4V alloy with ultralow influence on superficial layer via femtosecond laser polishing

发表：2025/10/24

飞秒激光抛光增材制造的钛合金表面质量激光直接能量沉积超薄壁Ti-6Al-4V合金纳秒激光抛光比较研究

本文提出了一种飞秒激光抛光方法，用于改善激光定向能量沉积（LDED）制造的薄壁Ti6Al4V合金的表面质量。研究显示，该方法能够将表面粗糙度从37.24μm显著降低至4.97μm，并且有效限制氧化层和热影响区的深度，极大减少表面变形和微裂纹的风险。

FineRec:Exploring Fine-grained Sequential Recommendation

发表：2024/4/20

细粒度序列推荐属性-意见对提取用户-物品图多样性感知卷积操作大语言模型应用

本文提出了FineRec框架，旨在通过用户评论中的属性意见对，细致地处理序列推荐。通过大语言模型提取属性意见对，并构建特定用户意见物品图，结合多样性感知卷积操作，优化表达学习。实验结果显示其效能显著优于现有方法。

Socio-spatial segregation and human mobility: A review of empirical evidence

发表：2025/1/22

社会空间隔离与人类流动性日常活动空间与隔离人类流动性数据源分析居住与经历隔离关系空间隔离研究方法论挑战

本文回顾了自2010年代以来新兴移动性数据如何推动对社会—空间隔离的理解，强调活动空间在日常出行中的作用。研究提出三问，探讨移动数据的优缺点、人类移动与隔离体验之间的关系，并提出一个测量框架以解释差异机制，指明未来研究方向。

Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning

发表：2025/4/10

面部属性识别面部表情识别多模态大语言模型FaceInstruct-1M 数据集面部区域引导交叉注意力

本文提出了FaceLLaVA，一个多模态大语言模型，专注于人脸表情和属性的识别及推理，同时生成自然语言描述。通过开发FaceInstruct1M数据库，结合人脸几何信息与视觉特征，FaceLLaVA在多个数据集上展示了优异表现，超越现有开源模型，并在零样本设定下优于GPT的推理评分。

One-Minute Video Generation with Test-Time Training

发表：2025/4/8

视频生成模型自回归生成模型基于Transformer的视频生成Test-Time Training复杂多场景故事生成

本文提出了一种新颖的测试时训练（TTT）层，解决了生成一分钟视频的挑战。通过引入TTT层到预训练的Transformer中，研究者能够根据文本故事生成更连贯的视频。实验表明，与现有方法相比，TTT层在故事连贯性上有显著提升，尽管仍存在伪影问题，且效率有待改善。

场景图增强的视觉语言常识推理生成

场景图增强的视觉语言推理生成视觉语言常识推理多模态常识推理能力评估大型语言模型视觉理解VCR 和 VQA-X 数据集实验

本研究提出场景图增强的视觉语言常识推理生成框架SGEVL，利用CLIP补丁序列与跨模态门控机制，提升大型语言模型的视觉理解能力。同时，提出无位置信息的场景图生成方法，通过高质量场景图提升推理的准确性与合理性。实验表明在VCR、VQAX和eSNLIVE数据集上优于多项基线，验证了各模块的有效性。

Restora-Flow: Mask-Guided Image Restoration with Flow Matching

发表：2025/11/25

基于流匹配的图像恢复训练无关图像恢复方法掩模引导图像恢复医学成像数据集评估图像去噪与超分辨率

RestoraFlow是一种新型的图像修复方法，通过引导流匹配采样并结合退化掩码和轨迹校正机制，避免了昂贵的训练过程。该方法在自然及医学数据集上表现出超越现有扩散和流匹配方法的感知质量与处理速度优势，适用于图像修复任务。

ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning

发表：2025/10/7

类人机器人全身控制残差学习框架通用运动跟踪对象交互任务优化类人动作数据训练

本文提出了残差学习框架ResMimic，旨在提升仿人机器人在全身运动操作中的精确度和表达能力。通过在大规模人类运动数据上训练的通用运动跟踪策略作为基础，再结合效率和精确性的残差策略，优化对象交互与运动能力，并在仿真及实际机器人上进行评估，显示出显著的任务成功率和训练效率提升。

Ternary Spike: Learning Ternary Spikes for Spiking Neural Networks

发表：2023/12/11

尖峰神经网络三元尖峰神经元信息容量提升事件驱动计算点积替代方法

本文提出了三元脉冲神经元来解决脉冲神经网络中二元激活的信息容量不足问题。通过引入

ext{1, 0, 1}

三元脉冲，增强了信息容量，同时保留了事件驱动和无乘法运算的优点。此外，文章嵌入了可训练因子，以适应不同层的膜电位分布。实验结果表明，性能显著优于现有方法。

Knowledge Circuits in Pretrained Transformers

发表：2024/5/28

知识回路分析预训练 Transformer 模型GPT-2与TinyLLAMA实验知识编辑技术影响自注意力机制与信息头

本文探讨现代大型语言模型中知识的编码与利用，提出“知识电路”概念，揭示模型计算图中关键的知识子图。通过对GPT2和TinyLLAMA的实验，观察信息头、关系头和多层感知器如何协同编码知识。同时评估现有知识编辑技术对这些电路的影响，提供功能和局限性的深入见解，旨在增强对Transformer的理解并指导知识编辑设计。

The Heat Shock Transcription Factor HsfA Is Essential for Thermotolerance and Regulates Cell Wall Integrity in Aspergillus fumigatus

发表：2021/4/9

热休克转录因子 HsfA热耐受性细胞壁完整性曲霉菌感染热休克反应机制

热休克转录因子HsfA对烟曲霉的热耐受性和细胞壁完整性至关重要。当烟曲霉暴露于高温胁迫时，细胞壁的超微结构会显著改变，HsfA与热休克蛋白Hsp90的协同表达受到细胞壁信号通路成分的调控，揭示了热适应与细胞壁稳定之间的相互作用。

……

241 - 260 / 982

跳转至

© 2025 AiPaper · 友情链接 · 站点地图