性能秒杀FLUX 4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构

新智元报道

:桃子 好困

【新智元导读】 一台4090笔记本,秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现4k分辨率。

一台16GB的4090笔记本,仅需0.37秒,直接吐出1024×1024像素图片。

如此神速AI生图工具,竟是出自英伟达MIT清华全华人团队之笔!

正如其名字一样,Sana能以惊人速度合成高分辨率、高质量,且具有强文本-图像对其能力的模型。

而且,它还能高效生成高达4096×4096像素的图像。

项目主页:https://nvlabs.github.io/Sana/

论文地址:https://arxiv.org/abs/2410.10629

Sana的核心设计包含了以下几个要素:

基于以上的算法创新,相较于领先扩散模型Flux-12B,Sana-0.6B不仅参数小12倍,重要的是吞吐量飙升100倍。

以后,低成本的内容创作,Sana才堪称这一领域的王者。

效果一览

一只赛博猫,和一个带有「SANA」字样的霓虹灯牌。

一位站在山顶上的巫师,在夜空中施展魔法,形成了由彩色能量组成的「NV」字样。

在人物的生成方面,Sana对小女孩面部的描绘可以说是非常地细致了。

下面来看个更复杂的:

一艘海盗船被困在宇宙漩涡星云中,通过模拟宇宙海滩旋涡的特效引擎渲染,呈现出令人惊叹的立体光效。场景中弥漫着壮丽的环境光和光污染,营造出电影般的氛围。整幅作品采用新艺术风格,由艺术家SenseiJaye创作的插画艺术,充满精致细节。

甚至,像下面这种超级复杂的提示,Sana也能get到其中的关键信息,并生成相应的元素和风格。

顺便,团队还给经典梗图,生成了一个卡通版变体(右)。

设计细节

Sana的核心组件,已在开头简要给出介绍。接下来,将更进一步展开它们实现的细节。

模型架构的细节,如下表所示。

- 深度压缩自编码器

研究人员引入的全新自编码器(AE),大幅将缩放因子提高至32倍。

过去,主流的AE将图像的长度和宽度,只能压缩8倍(AE-F8)。

与AE-F8相比,AE-F32输出的潜在token数量减少了16倍,这对于高效训练和生成超高分辨率图像(如4K分辨率)至关重要。

- 高效线性DiT(Diffusion Transformer)

原始DiT的自注意力计算复杂度为O(N²),在处理高分辨率图像时呈二次增长。

线性DiT在此替换了传统的二次注意力机制,将计算复杂度从O(N²)降低到O(N)。

与此同时,研究人员还提出了Mix-FFN,可以在多层感知器(MLP)中使用3×3深度卷积,增强了token的局部信息。

实验结果显示,线性注意力达到了与传统注意力相当的结果,在4K图像生成方面将延迟缩短了1.7倍。

此外,Mix-FFN无需位置编码(NoPE)就能保持生成质量,成为首个不使用位置嵌入的DiT。

- 基于仅解码器「小语言模型」的文本编码器

这里,研究人员使用了Gemma(仅解码器LLM)作为文本编码器,以增强对提示词的理解和推理能力。

尽管T2I生成模型多年来取得了显著进展,但大多数现有模型仍依赖CLIP或T5进行文本编码,这些模型往往缺乏强大的文本理解和指令跟随能力。

与CLIP或T5不同,Gemma提供了更优的文本理解和指令跟随能力,由此解训练了不稳定的问题。

他们还设计了复杂人类指令(CHI),来利用Gemma强大指令跟随、上下文学习和推理能力,改善了图像-文本对齐。

在速度相近的情况下,Gemma-2B模型比T5-large性能更好,与更大更慢的T5-XXL性能相当。

- 高效训练和推理策略

另外,研究人员还提出了一套自动标注和训练策略,以提高文本和图像之间的一致性。

首先,对于每张图像,利用多个视觉语言模型(VLM)生成重新描述。尽管这些VLM的能力各不相同,但它们的互补优势提高了描述的多样性。

此外,他们还提出了一种基于clipscore的训练策略,根据概率动态选择与图像对应的多个描述中具有高clip分数的描述。

实验表明,这种方法改善了训练收敛和文本-图像对齐能力。

此外,与广泛使用的Flow-Euler-Solver相比,团队提出的Flow-DPM-Solver将推理采样步骤从28-50步显著减少到14-20步,同时还能获得更优的结果。

整体性能

如下表1中,将Sana与当前最先进的文本生成图像扩散模型进行了比较。

对于512×512分辨率:- Sana-0.6的吞吐量比具有相似模型大小的PixArt-Σ快5倍- 在FID、Clip Score、GenEval和DPG-Bench等方面,Sana-0.6显著优于PixArt-Σ

对于1024×1024分辨率:- Sana比大多数参数量少于3B的模型性能强得多- 在推理延迟方面表现尤为出色

与最先进的大型模型FLUX-dev的比较:- 在DPG-Bench上,准确率相当- 在GenEval上,性能略低- 然而,Sana-0.6B的吞吐量快39倍,Sana-1.6B快23倍

Sana-0.6吞吐量,要比当前最先进4096x4096图像生成方法Flux,快100倍。

而在1024×1024分辨率下,Sana的吞吐量要快40倍。

如下是,Sana-1.6B与其他模型可视化性能比较。很显然,Sana模型生成速度更快,质量更高。

终端设备部署

为了增强边缘部署,研究人员使用8位整数对模型进行量化。

而且,他们还在CUDA C++中实现了W8A8 GEMM内核,并采用内核融合技术来减少不必要的激活加载和存储带来的开销,从而提高整体性能。

如下表5所示,研究人员在消费级4090上部署优化前后模型的结果比较。

在生成1024x1024图像方面,优化后模型实现了2.4倍加速,仅用0.37秒就生成了同等高质量图像。

介绍

Enze Xie(谢恩泽)

共同一作Enze Xie是NVIDIA Research的高级研究科学家,隶属于由麻省理工学院的Song Han教授领导的高效AI团队。此前,曾在华为诺亚方舟实验室(香港)AI理论实验室担任高级研究员和生成式AI研究主管。

他于2022年在香港大学计算机科学系获得博士学位,导师是Ping Luo教授,联合导师是Wenping Wang教授。并于朋友Wenhai Wang密切合作。

在攻读博士学习期间,他与阿德莱德大学的Chunhua Shen教授、加州理工学院的Anima Anandkumar教授以及多伦多大学的Sanja Fidler教授共事。同时,还与Facebook和NVIDIA等业界的多位研究人员进行了合作。

他的研究方向是高效的AIGC/LLM/VLM,并在实例级检测和自监督/半监督/弱监督学习领域做了一些工作——开发了多个CV领域非常知名的算法,以及一个2000多星的自监督学习框架OpenSelfSup(现名为mmselfsup)。

- PolarMask(CVPR 2020十大影响力论文排名第十)

- PVT(ICCV 2021十大影响力论文排名第二)

- SegFormer(NeurIPS 2021十大影响力论文排名第三)

- BEVFormer(ECCV 2022十大影响力论文排名第六)

Junsong Chen

共同一作Junsong Chen是NVIDIA Research的研究实习生,由Enze Xie博士和Song Han教授指导。同时,他也是大连理工大学IIAU实验室的博士生,导师是Huchuan Lu教授。

他的研究领域是生成式AI和机器学习的交叉,特别是深度学习及其应用的算法与系统协同设计。

此前,他曾在香港大学担任研究助理,由Ping Luo教授的指导。

Song Han(韩松)

Song Han是MIT电气工程与计算机科学系的副教授。此前,他在斯坦福大学获得博士学位。

他提出了包括剪枝和量化在内广泛用于高效AI计算的「深度压缩」技术,以及首次将权重稀疏性引入现代AI芯片的「高效推理引擎」——ISCA 50年历史上引用次数最多的前五篇论文之一。

他开创了TinyML研究,将深度学习引入物联网设备,实现边缘学习。

他的团队在硬件感知神经架构搜索方面的工作使用户能够设计、优化、缩小和部署 AI 模型到资源受限的硬件设备,在多个AI顶会的低功耗计算机视觉比赛中获得第一名。

最近,团队在大语言模型量化/加速(SmoothQuant、AWQ、StreamingLLM)方面的工作,有效提高了LLM推理的效率,并被NVIDIA TensorRT-LLM采用。

Song Han凭借着在「深度压缩」方面的贡献获得了ICLR和FPGA的最佳论文奖,并被MIT Technology Review评选为「35岁以下科技创新35人」。与此同时,他在「加速机器学习的高效算法和硬件」方面的研究,则获得了NSF CAREER奖、IEEE「AIs 10 to Watch: The Future of AI」奖和斯隆研究奖学金。

他是DeePhi(被AMD收购)的联合创始人,也是OmniML(被NVIDIA收购)的联合创始人。

参考资料:

https://nvlabs.github.io/Sana/

https://www.linkedin.com/feed/update/urn:li:activity:7251843706310275072/

小折叠屏小米夺冠 它们都超越了华为 大折叠屏vivo夺冠
琉璃河遗址考古体验活动本周六举办 拟邀请15个家庭参与