重磅!华为诺亚方舟实验室联合发布:PIXART-α文字生成图像模型



本文为1008字,建议阅读4分钟‍

最近华为诺亚方舟实验室联合大连理工大学,香港大学,香港科技大学发布了一个基于 Transformer 的文本到图像生成模型PIXART-α
其图像生成质量与当前最先进的图像生成器(如 Imagen、SDXL 和 Midjourney)相媲美,达到了接近商业应用的标准。支持高达 1024px 分辨率的高分辨率图像合成,并且训练成本很低,它只需要 SD v1.5 训练时间的 10.8%。
项目及演示:https://pixart-alpha.github.io
论文:https://arxiv.org/abs/2310.00426

论文创新点‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
1. 训练策略分解:论文提出了三个不同的训练步骤,分别优化像素依赖关系、文本-图像对齐和图像美学质量。通过将训练过程分解为多个步骤,可以更加高效地训练模型。 
2. 高效的T2I Transformer:论文在Diffusion Transformer(DiT)中引入了交叉注意力模块,以注入文本条件并简化计算密集的类别条件分支。这样可以提高模型的计算效率。 
3. 高信息密度的数据:论文强调了文本-图像对中概念密度的重要性,并利用大型视觉-语言模型自动标注密集的伪标题,以辅助文本-图像对齐的学习,这样可以提高模型对语义控制的能力。 
通过这些创新设计,PIXART-α的训练速度显著超过现有的大规模T2I模型,并且在图像质量、艺术性和语义控制方面表现出色。

这些创新点为AIGC社区和初创公司提供了新的思路,可以加速从头开始构建高质量且低成本的生成模型(这的确是利好,毕竟成本在创业里非常重要影响因素)

PIXART-α的图像生成优点
1. 高质量的图像生成:论文中指出,PIXART-α在图像生成的感知质量方面表现出色。通过与其他最新的T2I模型进行比较,PIXART-α在图像质量方面取得了7.2%的改进,并且在图像与文本提示之间的对齐方面取得了42.4%的显著提升。
2. 低资源消耗:论文中指出,PIXART-α相对于其他方法在资源消耗方面具有显著的优势。相比于其他方法,PIXART-α仅使用了10%的训练时间和10%的训练样本数量,就取得了可比的图像质量(FID)表现。这使得PIXART-α成为一种高效且节省资源的图像生成方法。

3. 文本-图像对齐能力:论文中提到,PIXART-α在文本-图像对齐方面表现出色。通过在训练过程中利用高质量的文本-图像对,P IXART-α能够实现更好的对齐能力,从而生成与文本提示更加一致的图像。
4. 多模态信息融合:论文中指出,PIXART-α采用了Transformer架构,能够有效地融合多模态信息。通过多头注意力机制,PIXART-α能够更好地建模长距离依赖关系,从而更有效地生成与输入文本相符的图像。

结语
‍‍
低成本,高质量,速度快的AI绘画模型,就问你香不香?
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

国内原创👇👇
到顶部