
VALL-E一种用于文本到语音合成(TTS)的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为VALL-E),并将TTS视为条件语言建模任务,而不是像以前的工作那样连续信号回归。在预训练阶段,我们将TTS训练数据扩展到60K小时的英语语音,这是现有系统的数百倍。VALL-E出现了上下文学习能力,可用于合成高质量的个性化语音,只需录制3秒的未见过的说话者的注册录音作为声音提示。实验结果表明,VALL-E在语音自然度和说话人相似度方面明显优于最先进的零样本TTS系统。此外,我们发现VALL-E可以在合成中保留说话者的情绪和声音提示的听觉环境。
数据统计
数据评估
关于VALL-E特别声明
本站玉米导航提供的VALL-E都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由玉米导航实际控制,在2024年7月8日 下午5:20收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,玉米导航不承担任何责任。
相关导航

由同方知网与华为强强联合打造的华知大模型,是一款针对知识服务和科研领域,以权威性和可信度为突出特点的内容平台。

雅意大模型
雅意大模型是安全可靠的企业级专属大模型,具备5大核心能力,共100多个特色技能。

TigerBot
以世界级的基础大模型,贡献于中国式的创新。

生数
为视频内容创作和多媒体应用带来无限可能。

曹植GPT大语言模型
曹植大语言模型是国内首个垂直行业专用的自主可控的国产GPT大语言模型,由达观数据研发。这个模型可以准确完成多类型、复杂结构的长文本写作,并自动起草多种类型的文档。未来,曹...

九章大模型
学而思九章大模型是好未来自主研发的,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。

紫东太初 – 多模态大模型
全球首个多模态图文音预训练模型

阅文妙笔大模型
全面探索有声、漫画、动画、衍生等开发链条的AI应用。
暂无评论...