论文
登录后可查看剩余解析次数。
标签筛选
文本到语音合成
Tacotron: Towards End-to-End Speech Synthesis
发表:2017/3/30
端到端语音合成模型Tacotron模型序列到序列学习文本到语音合成自然语言处理中的生成模型
Tacotron 是一种端到端的文本到语音合成模型,能够直接从字符合成语音,简化了传统 TTS 系统中复杂的多阶段处理。模型从零开始训练,表现出良好的自然度,其3.82的平均意见分超越了现有系统,且在生成速度上具有优势。
01
WaveNet: A Generative Model for Raw Audio
发表:2016/9/13
音频生成模型WaveNet结构文本到语音合成自回归模型音乐生成
本文提出了一种名为WaveNet的深度神经网络用于生成原始音频波形,具备完全的概率性与自回归特性,可高效处理每秒数万个样本的音频。在文本到语音合成中,WaveNet表现出优越的自然度,显著优于现有的语音合成系统,并能够生成多种说话者的声音特征。它在音乐生成方面也展现出高度真实感,同时可用于音素识别任务,取得良好结果。
01