论文
登录后可查看剩余解析次数。
标签筛选
A multifactorial model of intrinsic / environmental motivators, personal traits and their combined influences on math performance in elementary school
数学表现的成就目标模型自我效能感与兴趣的影响环境因素对学习动机的作用综合多因素路径分析小学数学学习研究
本研究构建了一个全面的多因素路径分析模型,探讨了内在/环境激励因素、个人特质对小学生数学成绩的影响。数据来自762名塞浦路斯公立小学五、六年级学生,结果显示自我效能感和兴趣在掌握目标与数学成绩之间的关系中起到关键的中介作用,强调了这些因素的重要性。
02
Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
发表:2025/9/11
多模态推荐系统细粒度跨模态关联建模双向注意力机制全局分布一致性约束Dilated Refinement Attention Module
本研究提出了MambaRec,一个新颖的多模态推荐框架,通过注意力引导学习整合局部特征对齐与全局分布正则化,旨在解决细粒度跨模态关联建模不足和全局一致性不足的挑战。核心贡献在于引入了膨胀精炼注意力模块,显著提升了融合质量和鲁棒性,并在多个真实世界数据集上表现出色。
03
Multimodal Generative Recommendation for Fusing Semantic and Collaborative Signals
发表:2025/10/8
多模态生成推荐系统协同信号与语义信号融合自监督量化学习序列推荐系统DINO框架
本文提出了一种新的生成式推荐系统MSCGRec,旨在克服现有序列推荐系统的局限性。通过融合多种语义模态和协同特征,利用DINO框架的自监督量化学习,MSCGRec实现了更优的推荐性能。实证研究表明,该方法在三大真实数据集上表现优于传统基线,验证了各组件的有效性。
01
MorphQPV: Exploiting Isomorphism in Quantum Programs to Facilitate Confident Verification
发表:2024/4/24
量子程序验证自同构方法自信断言基验证方法约束优化问题量子算法调试
本文提出MorphQPV,一种基于置信断言的量子程序验证方法,通过利用量子程序中的同构性来构建程序运行状态之间的结构保持关系。此方法将验证转化为约束优化问题,并在验证27量子比特锁算法中显著提升执行效率和成功率。
01
ModRWKV: Transformer Multimodality in Linear Time
发表:2025/11/1
ModRWKV多模态框架RWKV架构线性时间Transformer多模态大型语言模型动态可适应异构模态编码器
本研究提出了ModRWKV框架,基于RWKV架构实现多模态处理能力,具有线性时间复杂度,显著优于传统二次方复杂度的Transformer模型。通过动态适应的异构模态编码器,ModRWKV在性能和计算效率间实现了最佳平衡,特别适合多源信息融合应用。
013
Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation
发表:2024/9/11
生成推荐系统多方面语义标记化文本重建任务长尾推荐问题冷启动推荐
本文提出了一种新的多方面语义标记化框架LAMIA,旨在提高生成式推荐系统的效果。与传统方法不同,LAMIA学习多个独立的嵌入,捕捉物品的多重语义特点。通过基于文本的重建任务进行领域特定微调,LAMIA在冷启动和长尾推荐任务上显著提高了推荐准确性。
02
Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions
发表:2017/12/16
Tacotron 2 语音合成WaveNet 声码器梅尔谱预测序列到序列特征预测神经网络语音合成架构
本文提出了Tacotron 2,一种从文本直接合成语音的神经网络架构。该系统由两个部分组成:一个循环序列到序列网络用于预测梅尔频谱图,和改进后的WaveNet模型作为声码器合成时域波形。该模型在平均意见分数(MOS)上达到了4.53,与专业录音相当,并通过消融实验验证了设计选择的有效性。
01
Tacotron: Towards End-to-End Speech Synthesis
发表:2017/3/30
端到端语音合成模型Tacotron模型序列到序列学习文本到语音合成自然语言处理中的生成模型
Tacotron 是一种端到端的文本到语音合成模型,能够直接从字符合成语音,简化了传统 TTS 系统中复杂的多阶段处理。模型从零开始训练,表现出良好的自然度,其3.82的平均意见分超越了现有系统,且在生成速度上具有优势。
01
WaveNet: A Generative Model for Raw Audio
发表:2016/9/13
音频生成模型WaveNet结构文本到语音合成自回归模型音乐生成
本文提出了一种名为WaveNet的深度神经网络用于生成原始音频波形,具备完全的概率性与自回归特性,可高效处理每秒数万个样本的音频。在文本到语音合成中,WaveNet表现出优越的自然度,显著优于现有的语音合成系统,并能够生成多种说话者的声音特征。它在音乐生成方面也展现出高度真实感,同时可用于音素识别任务,取得良好结果。
01
End-to-End Speech Recognition Contextualization with Large Language Models
发表:2023/9/20
基于大语言模型的语音识别文本上下文增强的语音识别混合模态语言建模自解码器语音识别低参数适配器方法
本文提出了一种基于大语言模型(LLM)的新型语音识别语境化方法,通过将语音识别重塑为混合模态语言建模任务,利用音频特征与可选文本上下文共同训练模型。实验结果显示,当增加文本上下文时,词错误率(WER)降低6%,总体性能比基线系统提升7.5%。
01
End-to-End Speech Recognition: A Survey
发表:2023/3/3
端到端语音识别架构深度学习在语音识别中的应用全神经网络 ASR 模型自动语音识别模型分类语音识别模型训练与解码
本文综述了端到端自动语音识别(ASR)模型的最新进展,强调深度学习对词错误率降低的重大影响。提出了E2E模型的分类体系,探讨其特性及与传统隐马尔可夫模型的关系,涵盖建模、训练、解码等方面并展望未来发展。
02
Fun-ASR Technical Report
发表:2025/9/16
大语言模型自动语音识别系统增强实用部署的语音识别优化语音识别中的强化学习应用大规模数据驱动的语音识别流媒体语音识别能力
FunASR系统融合了大规模数据、大模型与大语言模型的深度集成,通过强化学习优化解决其幻觉问题,特别针对生产环境进行了流式识别、抗噪声与语码转换等方面优化。实验表明,该系统在真实工业应用数据集中取得领先性能,展示出有效性与鲁棒性。
02
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
发表:2024/7/5
多语言语音识别与生成情感语音识别语音到语音翻译零样本语音克隆人机自然语音交互
本报告介绍了FunAudioLLM模型家族,旨在增强人与大语言模型(LLM)之间的自然语音交互。其包含的SenseVoice模型提供多语言语音识别和情感识别,而CosyVoice则致力于自然语音生成。两者均已开源,支持语音翻译、情感聊天等多种应用,推动语音交互技术的发展。
02
A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition
发表:1990/1/1
隐马尔可夫模型语音识别中的统计建模马尔可夫源模型应用统计方法综述
本文系统介绍了隐马尔可夫模型(HMM)的理论及其在语音识别中的应用。作者指出,HMM因其丰富的数学结构,可以为多个实际应用提供理论基础,并在适当应用时表现优异。文章回顾了HMM的统计建模理论及其在机器语音识别中的具体问题解决方案。
02
Jenga: Enhancing LLM Long-Context Fine-tuning with Contextual Token Sparsity
大语言模型微调长上下文建模稀疏注意力机制
本论文提出了Jenga,一个全新的大型语言模型(LLM)微调系统,通过上下文词元稀疏性优化长上下文应用中的激活值内存使用。Jenga利用三项技术:词元消除、模式预测和核优化,有效减少冗余词元,增强模型运算效率,内存消耗降低至1.93倍,同时实现1.36倍的加速,超越现有微调系统。
04
Objaverse-XL: A Universe of 10M+ 3D Objects
发表:2023/7/11
Objaverse-XL 数据集3D 视觉任务多视图渲染图像零样本泛化能力高质量 3D 数据获取
论文提出了数据集,包含超过1000万个三维对象,解决了三维视觉任务中高质量数据稀缺的问题。通过在1亿张多视图渲染图像上训练模型,实现了显著的零样本泛化能力。该数据集的发布将推动三维视觉的创新。
02
Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression
发表:2025/12/4
无训练视频生成视频扩展生成临时注意力机制重要性感知KV缓存剪枝视频扩散模型
本文提出了深度强制机制,解决了自回归视频扩散中的时间重复、漂移和运动减速问题。通过无训练的深度汇点和参与式压缩,模型实现超过12倍的视频外推,显著提升生成质量和一致性,为长视频生成提供了新思路。
04
ASTNet: Asynchronous Spatio-Temporal Network for Large-Scale Chemical Sensor Forecasting
发表:2025/8/3
大规模化学传感器预测时空依赖建模异步时空网络图融合机制化学工程应用
本文提出了一种名为ASTNet的异步时空网络,旨在解决化工行业中大规模传感器数据预测的高延迟和复杂性问题。该方法结合时间和空间编码器,实现并发学习,同时引入门控图融合机制,适应性融合静态和动态传感器图。实验表明,ASTNet在预测准确性和计算效率上超越最先进的方法,成功应用于化工场景。
03
STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models
发表:2025/11/24
可扩展的排名模型语义标记化正交旋转变换高维特征稀疏化高效注意力机制
本文提出了一种名为STORE的统一可伸缩排名框架,旨在解决个性化推荐系统中的表示瓶颈和计算瓶颈。通过语义词元化、高效注意力机制和正交旋转变换,STORE有效地处理高基数稀疏特征,提高了模型的可伸缩性与效率。
03
AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds
发表:2025/1/12
自助运维框架大语言模型在运维中的应用微服务云环境主动式故障管理复合人工智能代理评估
本文提出了AIOPSLAB框架,用于评估AI智能体在复杂云环境中的运维自动化能力。通过整合故障注入、工作负载生成和遥测数据导出,此框架支持端到端的智能体设计与评估,展示了先进大型语言模型在自愈云系统中处理复杂任务的潜力和局限性。
01
……