VALL-E一种用于文本到语音合成(TTS)的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为VALL-E),并将TTS视为条件语言建模任务,而不是像以前的工作那样连续信号回归。在预训练阶段,我们将TTS训练数据扩展到60K小时的英语语音,这是现有系统的数百倍。VALL-E出现了上下文学习能力,可用于合成高质量的个性化语音,只需录制3秒的未见过的说话者的注册录音作为声音提示。实验结果表明,VALL-E在语音自然度和说话人相似度方面明显优于最先进的零样本TTS系统。此外,我们发现VALL-E可以在合成中保留说话者的情绪和声音提示的听觉环境。
数据统计
数据评估
关于VALL-E特别声明
本站玉米导航提供的VALL-E都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由玉米导航实际控制,在2024年7月8日 下午5:20收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,玉米导航不承担任何责任。
相关导航
百川智能是由王小川和茹立云联合创立的通用人工智能服务公司,专注于研发并提供通用人工智能服务。公司的目标是打造中国版的OpenAI基础大模型及颠覆性的上层应用。
封神榜-IDEA研究院
最大的开源预训练模型体系
言犀
人机交互平台,懂业务更懂你
乾元BigBangTransformer
BBT-2-12B-Text基于中文700亿tokens进行预训练,经过指令微调的BBT-2基础模型可以回答百科类和日常生活的问题。BBT-2.5-13B-Text基于中文+英文 2000亿tokens进行预训练。
盘古大模型
各组织、企业、个人的专家助手
可灵大模型
由快手智库团队潜心研发的可灵大模型,是一款创新的视频生成系统。
K2-上海交通大学
地球科学的开源大预言模型,首先在收集和清理过的地球科学文献(包括地球科学开放存取论文和维基百科页面)上对 LLaMA 进行进一步预训练,然后使用知识密集型指令调整数据(GeoSig...
火山方舟
火山方舟是火山引擎推出的大模型服务平台,作为一个开放的MaaS(Model as a Service)平台,其愿景是让更多的企业和个人能够轻松地接入和使用大模型技术,实现体验创新、数据驱动...
暂无评论...
