
我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像-文本对齐。Imagen在没有经过COCO训练的情况下,在COCO数据集上获得了7.27的最新FID分数,并且人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。为了更深入地评估文本到图像模型,我们引入了DrawBench,这是一个全面且具有挑战性的文本到图像模型基准测试。使用DrawBench,我们将Imagen与最近的方法进行了比较,包括VQ-GAN+CLIP、潜在扩散模型和DALL-E2,并发现人类评分者在并排比较中更喜欢Imagen,无论是在样本质量还是图像-文本对齐方面。
数据统计
数据评估
关于Imagen【推荐试用】特别声明
本站玉米导航提供的Imagen【推荐试用】都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由玉米导航实际控制,在2024年7月8日 上午11:14收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,玉米导航不承担任何责任。
相关导航

3DTopia 是一个由南洋理工大学、上海AI实验室等机构的研究人员共同开发的文本到3D生成模型。这个模型能够在短短五分钟内生成多样化、高精度的3D模型,特别适合需要快速生成3D物体...

WHEE
WHEE是由美图公司推出的一款AI视觉创作工具,主要功能是帮助用户寻找创作灵感。它提供一站式AI视觉创作服务,包括AI绘画与图片生成,以及各种AI修图功能。

Playground AI
我们为现实世界构建参与式AI堆栈,使用户和领域专家能够为他们开发智能产品。

LiblibAI·哩布哩布AI【官网】
限时免费的LoRA炼丹炉!更全、更热门的素材,为所有AI绘画者提供更得心应手的平台,持续深耕专业领域。

飞链云AI绘画
一款免费且强大的在线AI生成图片的网站

AI 艺术家
AI 艺术家是 AI EDU 旗下的一款充满创意灵感的AI绘画产品,这款工具十分简单易用,帮助用户轻松实现画家的梦想。

G3D.ai
想象一下生活中的任何游戏。...

IMI Prompt推荐
IMI Prompt生成器是一个AI艺术生成器,帮助用户创建独特的艺术作品。凭借其广泛的艺术风格,颜色和对象的选择,用户可以轻松地生成艺术作品,而不需要知道复杂的术语。该应用程序...
暂无评论...