重磅！华为诺亚方舟实验室联合发布：PIXART-α文字生成图像模型

2023-10-09 00:02#1 标记1

本文为1008字，建议阅读4分钟‍

最近华为诺亚方舟实验室联合大连理工大学，香港大学，香港科技大学发布了一个基于 Transformer 的文本到图像生成模型PIXART-α
其图像生成质量与当前最先进的图像生成器（如 Imagen、SDXL 和 Midjourney）相媲美，达到了接近商业应用的标准。支持高达 1024px 分辨率的高分辨率图像合成，并且训练成本很低，它只需要 SD v1.5 训练时间的 10.8%。
项目及演示：https://pixart-alpha.github.io
论文：https://arxiv.org/abs/2310.00426

论文创新点‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
1. 训练策略分解：论文提出了三个不同的训练步骤，分别优化像素依赖关系、文本-图像对齐和图像美学质量。通过将训练过程分解为多个步骤，可以更加高效地训练模型。
2. 高效的T2I Transformer：论文在Diffusion Transformer（DiT）中引入了交叉注意力模块，以注入文本条件并简化计算密集的类别条件分支。这样可以提高模型的计算效率。
3. 高信息密度的数据：论文强调了文本-图像对中概念密度的重要性，并利用大型视觉-语言模型自动标注密集的伪标题，以辅助文本-图像对齐的学习，这样可以提高模型对语义控制的能力。
通过这些创新设计，PIXART-α的训练速度显著超过现有的大规模T2I模型，并且在图像质量、艺术性和语义控制方面表现出色。

这些创新点为AIGC社区和初创公司提供了新的思路，可以加速从头开始构建高质量且低成本的生成模型（这的确是利好，毕竟成本在创业里非常重要影响因素）

PIXART-α的图像生成优点
1. 高质量的图像生成：论文中指出，PIXART-α在图像生成的感知质量方面表现出色。通过与其他最新的T2I模型进行比较，PIXART-α在图像质量方面取得了7.2%的改进，并且在图像与文本提示之间的对齐方面取得了42.4%的显著提升。
2. 低资源消耗：论文中指出，PIXART-α相对于其他方法在资源消耗方面具有显著的优势。相比于其他方法，PIXART-α仅使用了10%的训练时间和10%的训练样本数量，就取得了可比的图像质量（FID）表现。这使得PIXART-α成为一种高效且节省资源的图像生成方法。

3. 文本-图像对齐能力：论文中提到，PIXART-α在文本-图像对齐方面表现出色。通过在训练过程中利用高质量的文本-图像对，P IXART-α能够实现更好的对齐能力，从而生成与文本提示更加一致的图像。
4. 多模态信息融合：论文中指出，PIXART-α采用了Transformer架构，能够有效地融合多模态信息。通过多头注意力机制，PIXART-α能够更好地建模长距离依赖关系，从而更有效地生成与输入文本相符的图像。

结语
‍‍
低成本，高质量，速度快的AI绘画模型，就问你香不香？
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

国内原创👇👇