扫一扫,微信直接登录

视频时代-人人都可以是创作者

快捷导航
查看: 90|回复: 0

[广告/宣传片] Stable Diffusion 3论文发布,ai绘图架构细节揭秘,对复现Sora...

[复制链接]

该用户从未签到

发表于 2024-8-23 09:26:07 | 显示全部楼层 |阅读模式

马上注册,下载资源素材!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
  在众多前沿成果都不再透露技术细节之际,ai绘图Stable Diffusion 3 论文的发布显得相当珍贵。
  Stable Diffusion 3 的论文终于来了!
  这个模型于两周前发布,采用了与 Sora 相同的 DiT(Diffusion Transformer)架构,一经发布就引起了不小的轰动。
  与之前的版本相比,Stable Diffusion 3 生成的图在质量上实现了很大改进,支持多主题提示,文字书写效果也更好了(明显不再乱码)。
  Stability AI 表示,Stable Diffusion 3 是一个模型系列,参数量从 800M 到 8B 不等。这个参数量意味着,它可以在很多便携式设备上直接跑,大大降低了 AI 大模型的使用门槛。
  在最新发布的论文中,Stability AI 表示,在基于人类偏好的评估中,Stable Diffusion 3 优于当前最先进的文本到图像生成系统,如 DALL・E 3、Midjourney v6 和 Ideogram v1。不久之后,他们将公开该研究的实验数据、代码和模型权重。
  架构细节
  对于文本到图像的生成,Stable Diffusion 3 模型必须同时考虑文本和图像两种模式。因此,论文作者称这种新架构为 MMDiT,意指其处理多种模态的能力。与之前版本的 Stable Diffusion 一样,作者使用预训练模型来推导合适的文本和图像表征。具体来说,他们使用了三种不同的文本嵌入模型 —— 两种 CLIP 模型和 T5—— 来编码文本表征,并使用改进的自编码模型来编码图像 token。
  Stable Diffusion 3 模型架构。
  改进的多模态扩散 transformer:MMDiT 块。
  SD3 架构基于 Sora 核心研发成员 William Peebles 和纽约大学计算机科学助理教授谢赛宁合作提出的 DiT。由于文本嵌入和图像嵌入在概念上有很大不同,因此 SD3 的作者对两种模态使用两套不同的权重。如上图所示,这相当于为每种模态设置了两个独立的 transformer,但将两种模态的序列结合起来进行注意力运算,从而使两种表征都能在各自的空间内工作,同时也将另一种表征考虑在内。
  在训练过程中测量视觉保真度和文本对齐度时,作者提出的 MMDiT 架构优于 UViT 和 DiT 等成熟的文本到图像骨干。
  通过这种方法,信息可以在图像和文本 token 之间流动,从而提高模型的整体理解能力,并改善所生成输出的文字排版。正如论文中所讨论的那样,这种架构也很容易扩展到视频等多种模式。
  得益于 Stable Diffusion 3 改进的提示遵循能力,新模型有能力制作出聚焦于各种不同主题和质量的图像,同时还能高度灵活地处理图像本身的风格。
  通过 re-weighting 改进 Rectified Flow
  Stable Diffusion 3 采用 Rectified Flow(RF)公式,在训练过程中,数据和噪声以线性轨迹相连。这使得推理路径更加平直,从而减少了采样步骤。此外,作者还在训练过程中引入了一种新的轨迹采样计划。他们假设,轨迹的中间部分会带来更具挑战性的预测任务,因此该计划给予轨迹中间部分更多权重。他们使用多种数据集、指标和采样器设置进行比较,并将自己提出的方法与 LDM、EDM 和 ADM 等 60 种其他扩散轨迹进行了测试。结果表明,虽然以前的 RF 公式在少步采样情况下性能有所提高,但随着步数的增加,其相对性能会下降。相比之下,作者提出的重新加权 RF 变体能持续提高性能。

视听原材料论坛!影视、广告、动漫、设计、摄影、新媒体等学习交流平台!公众号:spzzgc
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

场长推荐上一条 /1 下一条

客服热线
400-1234-888 周一至周日:09:00 - 21:00
公司地址:北京市朝阳区科技路88号现代城5号楼

视频制作工场是一个融视频、音频、图片、特效、设计、PPT、软件、教程的视听素材资源交流中心,专注影像、广告等领域的素材整合,坚持为用户提供优质低价的素材资源分享平台。

Powered by Discuz! X3.4 Licensed © 2001-2050 Comsenz Inc.

QQ|手机版|小黑屋|工信部网站(闽ICP备18006433号-3)

GMT+8, 2024-9-29 04:15 , Processed in 0.052312 second(s), 21 queries .

快速回复 返回顶部 返回列表