当前位置: > 财经>正文

AI绘图还在卷,阿里新绘图模型上线,图片创作更精准可控

2023-07-17 16:07:40 互联网 未知 财经

AI绘图还在卷,阿里新绘图模型上线,图片创作更精准可控

在这两天举行的 2023 世界人工智能大会上,阿里云旗下的通义系列大模型上新了一位新成员,通义万相,并开启了定向邀测。

通义万相是一款 AI 绘图应用,对于 AI 绘图大家应该都不陌生,毕竟在此之前就有大名鼎鼎的 Midjourney 和 Stable Diffusion 了。

但这次重点在于,通义万相还使用了新的绘图模型 Composer。

可能有些读者对绘图模型的重要性不太了解,其实 AI 绘图的发展,离不开 AI 绘图模型的进步。

从早期的生成对抗网络模型 Gan,到现在很多知名 AI 绘图软件都在用的扩散模型 Diffussion。

随着训练模型的迭代,AI 绘图的能力也是越来越强。

而这次的绘图模型 Composer,也不例外。

早在几个月前,阿里就发表了 Composer 相关的论文,而且外网上对于 Composer 的讨论度还不低。

比如,有博主就发推文晒出了一些通过 Composer 模型生成的不同风格的图片。

在这些例子中,有把棕毛马变成斑马的,把名画变成真人的,把狐狸变成老虎的,这些生成图不仅保留了原图像的动作外形等细节,在风格转换的融合上也是几乎看不出什么违和感。

这个 Composer 之所以能有这么好的风格置换效果,和它这个模型框架的核心思想分不开关系。

因为 Composer 主打的就是一个组合性,它是在文生图 Diffusion 扩散的基础上,更进一步,称之为可控扩散模型。

大家应该都知道,现在的主流 AI 绘图模型基本上用的都是 Diffusion 扩散模型,Diffusion 扩散模型的训练基本原理要说起来也非常简单,就是给图片加噪声,然后通过神经网络学习图片加了噪声和去了噪声后是什么样子,在生成图片时,进行反向推理就行了。

不过 Composer 既然加上了 “ 可控 ” 二字,必然有其独到之处,为了让图像的生成更有可控性,Composer 在进行加噪训练前,还多了一个对图片的重新拆解和组合的过程。

拆解的,就是图片的一系列基本元素,比如线框,图片中分割的物体蒙版,深度信息图,颜色信息等等。

随后,再把这些分割的元素图,拿去做扩散模型的训练,训练出模型后,在推理阶段重新组合。这样,由于训练时的数据量

版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。