
VALL-E一种用于文本到语音合成(TTS)的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为VALL-E),并将TTS视为条件语言建模任务,而不是像以前的工作那样连续信号回归。在预训练阶段,我们将TTS训练数据扩展到60K小时的英语语音,这是现有系统的数百倍。VALL-E出现了上下文学习能力,可用于合成高质量的个性化语音,只需录制3秒的未见过的说话者的注册录音作为声音提示。实验结果表明,VALL-E在语音自然度和说话人相似度方面明显优于最先进的零样本TTS系统。此外,我们发现VALL-E可以在合成中保留说话者的情绪和声音提示的听觉环境。
数据统计
数据评估
关于VALL-E特别声明
本站玉米导航提供的VALL-E都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由玉米导航实际控制,在2024年7月8日 下午5:20收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,玉米导航不承担任何责任。
相关导航

元象XVERSE大模型驱动的AI聊天助手

孟子预训练模型
快速满足不同领域、不同应用场景的需求。

言犀
人机交互平台,懂业务更懂你

探迹SalesGPT
业内首个销售大模型SaaS产品

K2-上海交通大学
地球科学的开源大预言模型,首先在收集和清理过的地球科学文献(包括地球科学开放存取论文和维基百科页面)上对 LLaMA 进行进一步预训练,然后使用知识密集型指令调整数据(GeoSig...

可灵大模型
由快手智库团队潜心研发的可灵大模型,是一款创新的视频生成系统。

Luca面壁露卡
面壁露卡Luca是面壁智能最新推出的千亿多模态大模型免费智能对话助手,支持中文和英文进行交流互动。基于面壁智能的新一代大语言模型,能与用户进行多轮对话与互动,帮助用户了解...

盘古大模型
各组织、企业、个人的专家助手
暂无评论...