
VALL-E一种用于文本到语音合成(TTS)的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为VALL-E),并将TTS视为条件语言建模任务,而不是像以前的工作那样连续信号回归。在预训练阶段,我们将TTS训练数据扩展到60K小时的英语语音,这是现有系统的数百倍。VALL-E出现了上下文学习能力,可用于合成高质量的个性化语音,只需录制3秒的未见过的说话者的注册录音作为声音提示。实验结果表明,VALL-E在语音自然度和说话人相似度方面明显优于最先进的零样本TTS系统。此外,我们发现VALL-E可以在合成中保留说话者的情绪和声音提示的听觉环境。
数据统计
数据评估
关于VALL-E特别声明
本站玉米导航提供的VALL-E都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由玉米导航实际控制,在2024年7月8日 下午5:20收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,玉米导航不承担任何责任。
相关导航

Magic Data专注于为不同行业的AI模型提供高质量的训练和测试数据,以提升模型的性能和智能。

蜜度文修
文修是蜜度提供的一项基于人工智能的校对和润色服务,旨在提高中文文档的质量和表达的流畅性。

曹植GPT大语言模型
曹植大语言模型是国内首个垂直行业专用的自主可控的国产GPT大语言模型,由达观数据研发。这个模型可以准确完成多类型、复杂结构的长文本写作,并自动起草多种类型的文档。未来,曹...

MiniMax开放平台
MiniMax开放平台是国内领先的拥有文本、语音、视觉三模态融合的千亿参数语言大模型。这个平台由创业公司MiniMax构建,致力于通过搭建超大规模实验平台与推理平台,实现技术与产品...

阿里达摩院遥感AI大模型
阿里巴巴旗下的研究机构达摩院推出的业界首款专注于遥感领域的人工智能大模型

天工超能AI
天工超能AI是国内首个对标ChatGPT的双千亿级大语言模型,也是一个对话式AI助手。它通过自然语言与用户进行问答交互,AI生成能力可满足文案创作、知识问答、逻辑推演、数理推算、代...

面壁智能
面壁智能依托在自然语言处理方面的前沿技术,构建大规模预训练模型库及配套工具,推进大模型技术与应用的标准化。

妙话AI
妙话AI是一个在线智能写作应用,它提供了多种功能,包括自动生成绘画、语音对话机器人等。这个平台集成了100多个智能AI大模型,用户可以通过一键操作进行聊天、写作、绘画和语音生...
暂无评论...