百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

英伟达联合MIT、清华提出文生图框架Sana,可秒出高分辨率图像

yuyutoo 2024-10-27 16:57 3 浏览 0 评论

近年来,文本到图像的生成技术取得了显著进展,这尤其得益于潜在扩散模型(Latent Diffusion Models)的提出与应用。


潜在扩散模型由 Rombach 等人于 2022 年首次提出[1],它是一种通过在预训练的自动编码器生成的潜在空间中进行扩散与逆扩散的技术。由于潜在空间中的维度较低,因此,相比直接在像素空间中操作,它大大降低了计算量,进而使我们能在较低的计算资源需求下实现高质量的图像生成。




但另一方面,许多模型的参数却不断扩大。从 PixArt 的 0.6B 参数到 Flux 的 12B 参数,其训练和推理的成本始终居高不下,使用门槛也较高,这显然不利于技术的进一步发展。


因此,如何在保持图像质量的前提下,开发出计算效率高、运行速度快且易于使用的图像生成器,成为了一个重要的问题。


正是在这一背景下,英伟达联合麻省理工学院与清华大学团队,发表了一篇预印本论文,提出了一种新的文生图框架 Sana,能够高效生成最高分辨率为 4096×4096 的高质量图像,对这一难题做出解答[2]。



相比于传统的大型扩散模型,Sana 在模型大小上显著缩减,并在推理速度方面实现了巨大的提升。在生成 1K 分辨率图像时,Sana-0.6B 速度比当前最先进的模型 FLUX 快了 40 倍以上。而 Sana 之所以能在性能与效率之间实现良好的平衡,归功于其核心架构的一系列革新。


Sana 的优势首先得益于其所使用的深度压缩自动编码器(Deep Compression Autoencoder)。传统的自动编码器通常只能将图像的长度和宽度压缩 8 倍,Sana 采用了一种新的自动编码器,压缩倍数高达 32 倍。




这种高倍数的压缩显著减少了潜在 token 的数量,从而降低了训练和推理的计算量,特别适用于超高分辨率图像的生成。通过这种方式,Sana 得以在降低计算开销的同时,保证了生存图像的质量,做到了高效率与高质量的兼得。


其次,Sana 采用了一种高效的线性 DiT (Linear Diffusion Transformer)来替代传统的二次方复杂度的自注意力模块。以往的自注意力机制计算复杂度为 O(N2),在处理高分辨率图像时为二次增长,因而需要大量的计算资源。


而 Sana 通过使用线性注意力,将计算复杂度降低至 O(N),由此显著提高了处理高分辨率图像时的计算效率。


同时,研究团队还引入了 Mix-FFN 模块以替代 MLP-FFN,将 3×3 深度卷积整合到多层感知器(Multilayer Perceptron,MLP)中,从而更好地聚合 token 的局部信息。结果表明,这种模块设计使得线性注意力在性能上与传统的自注意力相媲美,但在生成 4K 图像时,其延迟缩短了 1.7 倍。


而且,Mix-FFN 无需位置编码(NoPE)就能保持生成性能,是首个完全省略位置嵌入的 DiT。


Sana 的另一处创新在于对文本编码器的选择。团队使用了最新的仅解码器式小型 LLM Gemma-2 作为文本编码器,以增强对用户提示的理解和推理能力。


与之前广泛使用的 T5 或 CLIP 编码器相比,Gemma-2 具有更强的文本理解和指令跟随能力,在理解和生成用户提示方面表现更加优秀,从而使生成的图像在内容和细节上更符合预期。


并且,研究人员通过设计复杂的人类指令(Complex Human Instruction,CHI),结合上下文学习,进一步提高了 Sana 的文本-图像对齐能力。


为了进一步提高训练和推理的效率,团队还提出了一套高效的训练和采样策略。


在训练过程中,Sana 使用多种视觉语言模型(Visual Language Model,VLM)对图像进行自动标签,并通过基于 Clipscore 的采样策略来选择最合适的标签,从而提高训练的收敛速度和文本与图像的对齐程度。相比于传统的随机选择标签的方法,这种策略显著减少了训练过程中的不确定性,并加速了模型的收敛。


在推理阶段,团队提出了 Flow-DPM-Solver 采样方法,将采样步骤从传统的 28-50 步减少至 14-20 步,并且在采样质量上实现了进一步提升。这种改进不仅提高了采样的效率,还在很大程度上降低了计算资源的需求,使得 Sana 能够在较低的硬件配置上运行。


实验结果表明,Sana-0.6B 不仅在参数数量上远小于许多现有的扩散模型,而且在计算速度上也有显著的优势。在一张 16GB GPU 的 PC 端上,Sana-0.6B 可以在不到 1 秒的时间内生成分辨率为 1024×1024 的图像,这意味着它在低成本的内容创作和边缘设备部署上具有极大的应用潜力。




而在生成 4096×4096 的高分辨率图像时,其推理延迟也仅为 9.6 秒。相比之下,当前最先进的 FLUX 模型需要 469 秒才能完成同样的任务。


进一步的测试显示,在1024×1024 分辨率下,Sana 的生成速度比 LUMINA-Next、SDXL 以及 PixArt-Σ 等同类模型均快了数倍,同时保持了非常高的生成质量。


在生成性能上,Sana-0.6B 的每秒吞吐量达到了 1.7 张图像,而且参数量为 1.6B 的 Sana 版本也能实现 1.0 张每秒的速度,这表明 Sana 在维持高图像质量的前提下依旧具备极高的推理效率。




总结来说,Sana 为高效的高分辨率图像生成提供了一个有潜力的基础模型,其显著的计算效率和速度优势,使得高分辨率图像生成技术向低成本、低门槛方向迈出了重要的一步。未来,团队计划基于 Sana 构建高效的视频生成流程,将其应用拓展至动态内容生成领域。


相关代码即将公布在 GitHub(项目地址:https://github.com/NVlabs/Sana)。


参考资料:

1.https://arxiv.org/abs/2112.10752

2.https://arxiv.org/abs/2410.10629


运营/排版:何晨龙

相关推荐

史上最全的浏览器兼容性问题和解决方案

微信ID:WEB_wysj(点击关注)◎◎◎◎◎◎◎◎◎一┳═┻︻▄(页底留言开放,欢迎来吐槽)●●●...

平面设计基础知识_平面设计基础知识实验收获与总结
平面设计基础知识_平面设计基础知识实验收获与总结

CSS构造颜色,背景与图像1.使用span更好的控制文本中局部区域的文本:文本;2.使用display属性提供区块转变:display:inline(是内联的...

2025-02-21 16:01 yuyutoo

写作排版简单三步就行-工具篇_作文排版模板

和我们工作中日常word排版内部交流不同,这篇教程介绍的写作排版主要是用于“微信公众号、头条号”网络展示。写作展现的是我的思考,排版是让写作在网格上更好地展现。在写作上花费时间是有累积复利优势的,在排...

写一个2048的游戏_2048小游戏功能实现

1.创建HTML文件1.打开一个文本编辑器,例如Notepad++、SublimeText、VisualStudioCode等。2.将以下HTML代码复制并粘贴到文本编辑器中:html...

今天你穿“短袖”了吗?青岛最高23℃!接下来几天气温更刺激……

  最近的天气暖和得让很多小伙伴们喊“热”!!!  昨天的气温到底升得有多高呢?你家有没有榜上有名?...

CSS不规则卡片,纯CSS制作优惠券样式,CSS实现锯齿样式

之前也有写过CSS优惠券样式《CSS3径向渐变实现优惠券波浪造型》,这次再来温习一遍,并且将更为详细的讲解,从布局到具体样式说明,最后定义CSS变量,自定义主题颜色。布局...

柠檬科技肖勃飞:大数据风控助力信用社会建设

...

你的自我界限够强大吗?_你的自我界限够强大吗英文

我的结果:A、该设立新的界限...

行内元素与块级元素,以及区别_行内元素和块级元素有什么区别?

行内元素与块级元素首先,CSS规范规定,每个元素都有display属性,确定该元素的类型,每个元素都有默认的display值,分别为块级(block)、行内(inline)。块级元素:(以下列举比较常...

让“成都速度”跑得潇潇洒洒,地上地下共享轨交繁华
让“成都速度”跑得潇潇洒洒,地上地下共享轨交繁华

去年的两会期间,习近平总书记在参加人大会议四川代表团审议时,对治蜀兴川提出了明确要求,指明了前行方向,并带来了“祝四川人民的生活越来越安逸”的美好祝福。又是一年...

2025-02-21 16:00 yuyutoo

今年国家综合性消防救援队伍计划招录消防员15000名

记者24日从应急管理部获悉,国家综合性消防救援队伍2023年消防员招录工作已正式启动。今年共计划招录消防员15000名,其中高校应届毕业生5000名、退役士兵5000名、社会青年5000名。本次招录的...

一起盘点最新 Chrome v133 的5大主流特性 ?

1.CSS的高级attr()方法CSSattr()函数是CSSLevel5中用于检索DOM元素的属性值并将其用于CSS属性值,类似于var()函数替换自定义属性值的方式。...

竞走团体世锦赛5月太仓举行 世界冠军杨家玉担任形象大使

style="text-align:center;"data-mce-style="text-align:...

学物理能做什么?_学物理能做什么 卢昌海

作者:曹则贤中国科学院物理研究所原标题:《物理学:ASourceofPowerforMan》在2006年中央电视台《对话》栏目的某期节目中,主持人问过我一个的问题:“学物理的人,如果日后不...

你不知道的关于这只眯眼兔的6个小秘密
你不知道的关于这只眯眼兔的6个小秘密

在你们忙着给熊本君做表情包的时候,要知道,最先在网络上引起轰动的可是这只脸上只有两条缝的兔子——兔斯基。今年,它更是迎来了自己的10岁生日。①关于德艺双馨“老艺...

2025-02-21 16:00 yuyutoo

取消回复欢迎 发表评论: