当前位置： > 财经>正文

AI绘图还在卷，阿里新绘图模型上线，图片创作更精准可控

2023-07-17 16:07:40 互联网未知财经

在这两天举行的 2023 世界人工智能大会上，阿里云旗下的通义系列大模型上新了一位新成员，通义万相，并开启了定向邀测。

通义万相是一款 AI 绘图应用，对于 AI 绘图大家应该都不陌生，毕竟在此之前就有大名鼎鼎的 Midjourney 和 Stable Diffusion 了。

但这次重点在于，通义万相还使用了新的绘图模型 Composer。

可能有些读者对绘图模型的重要性不太了解，其实 AI 绘图的发展，离不开 AI 绘图模型的进步。

从早期的生成对抗网络模型 Gan，到现在很多知名 AI 绘图软件都在用的扩散模型 Diffussion。

随着训练模型的迭代，AI 绘图的能力也是越来越强。

而这次的绘图模型 Composer，也不例外。

早在几个月前，阿里就发表了 Composer 相关的论文，而且外网上对于 Composer 的讨论度还不低。

比如，有博主就发推文晒出了一些通过 Composer 模型生成的不同风格的图片。

在这些例子中，有把棕毛马变成斑马的，把名画变成真人的，把狐狸变成老虎的，这些生成图不仅保留了原图像的动作外形等细节，在风格转换的融合上也是几乎看不出什么违和感。

这个 Composer 之所以能有这么好的风格置换效果，和它这个模型框架的核心思想分不开关系。

因为 Composer 主打的就是一个组合性，它是在文生图 Diffusion 扩散的基础上，更进一步，称之为可控扩散模型。

大家应该都知道，现在的主流 AI 绘图模型基本上用的都是 Diffusion 扩散模型，Diffusion 扩散模型的训练基本原理要说起来也非常简单，就是给图片加噪声，然后通过神经网络学习图片加了噪声和去了噪声后是什么样子，在生成图片时，进行反向推理就行了。

不过 Composer 既然加上了 “ 可控 ” 二字，必然有其独到之处，为了让图像的生成更有可控性，Composer 在进行加噪训练前，还多了一个对图片的重新拆解和组合的过程。

拆解的，就是图片的一系列基本元素，比如线框，图片中分割的物体蒙版，深度信息图，颜色信息等等。

随后，再把这些分割的元素图，拿去做扩散模型的训练，训练出模型后，在推理阶段重新组合。这样，由于训练时的数据量