
VALL-E一种用于文本到语音合成(TTS)的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为VALL-E),并将TTS视为条件语言建模任务,而不是像以前的工作那样连续信号回归。在预训练阶段,我们将TTS训练数据扩展到60K小时的英语语音,这是现有系统的数百倍。VALL-E出现了上下文学习能力,可用于合成高质量的个性化语音,只需录制3秒的未见过的说话者的注册录音作为声音提示。实验结果表明,VALL-E在语音自然度和说话人相似度方面明显优于最先进的零样本TTS系统。此外,我们发现VALL-E可以在合成中保留说话者的情绪和声音提示的听觉环境。
数据统计
数据评估
关于VALL-E特别声明
本站玉米导航提供的VALL-E都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由玉米导航实际控制,在2024年7月8日 下午5:20收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,玉米导航不承担任何责任。
相关导航

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

文心大模型
文心大模型是一种知识增强的自然语言处理(NLP)模型,由百度开发。它在技术开放日上首次亮相,展示了其在AI领域的最新技术突破和产业应用实践。

九章大模型
学而思九章大模型是好未来自主研发的,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。

BuboGPT
文本、图像和音频等多模式输入,具有将其对视觉对象的响应作为基础的独特能力。

百度GBI
百度GBI旨在降低数据分析的复杂性,使企业和用户能够更容易地获取到数据背后的真知灼见,助力决策者做出明智的选择。

奇智孔明
奇智孔明是制造业与工业软件领域的智能化解决方案。

MiniMax 大语言模型
它基于海量中文数据训练而成,拥有超过1000亿个参数,能够处理上百TB的文本数据

曹植GPT大语言模型
曹植大语言模型是国内首个垂直行业专用的自主可控的国产GPT大语言模型,由达观数据研发。这个模型可以准确完成多类型、复杂结构的长文本写作,并自动起草多种类型的文档。未来,曹...
暂无评论...