扩散模型和 Transformer 梦幻联动,一举拿下新 SOTA,MILA 博士:U-Net 已死

日期:2022-12-24 来源:手游巴士 作者:佚名

“U-Net 已死,Transformer 成为扩散模型新 SOTA 了!”

就在 ChatGPT 占尽 AI 圈风头时,纽约大学谢赛宁的图像生成模型新论文横空出世,收获一众同行惊讶的声音。

△MILA 在读 ML 博士生 Ethan Caballero

论文创意性地将 Transformer 与扩散模型融合,在计算效率和生成效果上均超越了基于 U-Net 的经典模型 ADM 和 LDM,打破了 U-Net 统治扩散模型的“普遍认知”。

网友给这对新组合命名也是脑洞大开:

All we need is U-Transformer

希望他们没有错过 Transffusion 这个名字。

要知道,这几年虽然 Transformer 占尽风头,但 U-Net 在扩散模型领域仍然一枝独秀 ——

无论是“前任王者”DALL・E2 还是“新晋生成 AI”Stable Diffusion,都没有使用 Transformer 作为图像生成架构。

△ 英伟达 AI 科学家 Jim Fan

如今新研究表明,U-Net 并非不可用 Transformer 替代。

“U-Net 并非不可替代”

论文提出的新架构名叫 Diffusion Transformers(DiTs)。

架构保留了很多 ViT 的特性,其中整体架构如图左(包含多个 DiT 模块),具体的 DiT 模块组成如图右:

更右边的两个灰色框的模块,则是 DiT 架构的“变体”。主要是探讨在条件输入下,不同的架构是否能对信息进行更好的处理,包括交叉注意力等。

最终结果表明,还是层归一化(Layer Normalization)更好用,这里最终选用了 Adaptive Layer Normalization(自适应层归一化)的方法。

对于这篇论文研究的目的,作者表示希望探讨扩散模型中不同架构选择的重要性,以及也是给将来生成模型的评估做一个评判标准。

先说结果 —— 作者认为,U-Net 的归纳偏置(inductive bias),对于扩散模型性能提升不是必须的。

与之相反,他们能“轻松地”(readily)被 Transformer 的标准架构取代。

有网友发现,DALL・E 和 DALL・E2 似乎都有用到 Transformer。

这篇论文和它们的差异究竟在哪里?

事实上,DALL・E 虽然是 Transformer,但并非扩散模型,本质是基于 VQVAE 架构实现的;

至于 DALL・E2 和 Stable Diffusion,虽然都分别将 Transformer 用在了 CLIP 和文本编码器上,但关键的图像生成用的还是 U-Net。

△ 经典 U-Net 架构

不过,DiT 还不是一个文本生成图像模型 —— 目前只能基于训练标签生成对应的新图像。

虽然生成的图片还带着股“ImageNet 风”,不过英伟达 AI 科学家 Jim Fan 认为,将它改造成想要的风格和加上文本生成功能,都不是难点。

如果将标签输入调整成其他向量、乃至于文本嵌入,就能很快地将 DiT 改造成一个文生图模型:

Stable-DiT 马上就要来了!

所以 DiTs 在生成效果和运算速率上,相比其他图像生成模型究竟如何?

在 ImageNet 基准上取得 SOTA

为了验证 DiTs 的最终效果,研究者将 DiTs 沿“模型大小”和“输入标记数量”两个轴进行了缩放。

具体来说,他们尝试了四种不同模型深度和宽度的配置:DiT-S、DiT-B、DiT-L 和 DiT-XL,在此基础上又分别训练了 3 个潜块大小为 8、4 和 2 的模型,总共是 12 个模型。

从 FID 测量结果可以看出,就像其他领域一样,增加模型大小和减少输入标记数量可以大大提高 DiT 的性能。

FID 是计算真实图像和生成图像的特征向量之间距离的一种度量,越小越好。

换句话说,较大的 DiTs 模型相对于较小的模型是计算效率高的,而且较大的模型比较小的模型需要更少的训练计算来达到给定的 FID。

其中,Gflop 最高的模型是 DiT-XL / 2,它使用最大的 XL 配置,patch 大小为 2,当训练时间足够长时,DiT-XL / 2 就是里面的最佳模型。

于是在接下来,研究人员就专注于 DiT-XL / 2,他们在 ImageNet 上训练了两个版本的 DiT-XL / 2,分辨率分别为 256x256 和 512x512,步骤分别为 7M 和 3M。

当使用无分类器指导时,DiT-XL / 2 比之前的扩散模型数据都要更好,取得 SOTA 效果:

在 256x256 分辨率下,DiT-XL / 2 将之前由 LDM 实现的最佳 FID-50K 从 3.60 降至了 2.27。

并且与基线相比,DiTs 模型本身的计算效率也很高:

DiT-XL / 2 的计算效率为 119 Gflops,相比而言 LDM-4 是 103 Gflops,ADM-U 则是 742 Gflops。

同样,在 512x512 分辨率下,DiT-XL / 2 也将 ADM-U 之前获得的最佳 FID 3.85 降至了 3.04。

不过此时 ADM-U 的计算效率是 2813 Gflops,而 XL / 2 只有 525 Gflops。

研究作者

本篇论文作者为 UC 伯克利的 William Peebles 和纽约大学的谢赛宁。

William Peebles,目前是 UC 伯克利的四年级博士生,本科毕业于麻省理工学院。研究方向是深度学习和人工智能,重点是深度生成模型。

之前曾在 Meta、Adobe、英伟达实习过,这篇论文就是在 Meta 实习期间完成。

谢赛宁,纽约大学计算机科学系助理教授,之前曾是 Meta FAIR 研究员,本科就读于上海交通大学 ACM 班,博士毕业于 UC 圣迭戈分校。

谢赛宁读博士时曾在 FAIR 实习,期间与何恺明合作完成 ResNeXt,是该论文的一作,之前何恺明一作论文 MAE 他也有参与。

当然,对于这次 Transformer 的表现,也有研究者们表示“U-Net 不服”。

例如三星 AI Lab 科学家 Alexia Jolicoeur-Martineau 就表示:

U-Net 仍然充满生机,我相信只需要经过细小调整,有人能将它做得比 Transformer 更好。

看来,图像生成领域很快又要掀起新的“较量风暴”了。

论文地址:

https://arxiv.org/abs/2212.09748v1

参考链接:

  • [1]https://twitter.com/ethanCaballero/status/1605621603135471616

  • [2]https://www.wpeebles.com/DiT

  • [3]https://paperswithcode.com/paper/scalable-diffusion-models-with-transformers#code

本文来自微信公众号:量子位 (ID:QbitAI),作者:羿阁 萧箫

上一篇:Redmi 可穿戴新品 2023 早春系列公布:大屏手表、大屏手环、多彩耳机

下一篇:复盘意大利汽车工业:为什么崛起,又为什么衰败

相关推荐

中车株机打造的柏林混合动力调车机车交付:3 种动力系统,即将投入运营

12 月 23 日消息,据“中车株机”公众号消息,12 月 20 日,中车株机为德国联邦铁路公司(简称“德铁”)打造的柏林混合动力调车机车首批车辆,正式交付客

下线发运,宏光 MINIEV 敞篷版即将交付首批车主

12 月 23 日消息,五菱汽车今日表示,宏光 MINIEV 敞篷版近日陆续下线,第一批敞篷已经发运并即将交付首批车主。据介绍,2021 年五菱宣布将推出敞篷车,

微信支付:将持续加强信用卡业务风险监测和防控

12 月 21 日消息,据微信支付官网,财付通支付科技有限公司今日发布了《关于进一步加强信用卡业务风险防控的倡议》(以下简称《倡议》)。《倡议》指出

郭明錤:苹果公司可能将取消或延后预计在 2024 年量产的 iPhone SE 4 计划

12 月 21 日消息,天风证券分析师郭明錤今日发文指出,Apple 可能将取消或延后预计在 2024 年量产的 iPhone SE 4 计划。我认为这是因为中低端 iPho

英伟达 RTX 3050 6GB 移动 GPU 曝光,将搭载于新一代性能本

12 月 21 日消息,联想昨天发布了新一代 IdeaPad Pro 5 系列笔记本,搭载了新一代处理器,同时也曝光了英伟达的 RTX 3050 6GB 移动 GPU。了解到,英伟

查看更多