腾讯又整活了:text to image取得个性化定制突破,图灵奖获得者杨立昆直言喜欢



本文为1144字,建议阅读4分钟‍
这两天,腾讯应用研究中心联合南开大学,东京大学,在文字生成图像领域取得了突破(文末多图预警)

文本到图像生成领域取得的进步在以给定文本提示为条件生成逼真人像方面有了显著的突破。然而,目前的个性化生成方法存在一个难题,即无法同时在高效性、出色的身份(ID)保真度和文本可控性之间找到平衡。腾讯推出了PhotoMaker,一种高效的个性化文本到图像生成方法,主要通过将任意数量的输入ID图像编码成一个堆叠的ID嵌入来保留ID信息。这种嵌入作为一个统一的ID表示,不仅可以全面地概括相同输入ID的特征,还能容纳不同ID的特征,以便进行后续整合。这为更有趣且实用的应用铺平了道路。此外,为了推动PhotoMaker的训练,研究人员提出了一个以ID为导向的数据构建流程来组织训练数据。在通过该流程构建的数据集的培养下,PhotoMaker展现出比测试时微调方法更好的ID保留能力,同时提供了显著的速度改进、高质量的生成结果、强大的泛化能力以及广泛的应用范围。
项目页面:https://photo-maker.github.io
腾讯如何实现个性化:扩散模型中的个性定制化
由于扩散模型强大的生成能力,越来越多的研究人员尝试探索基于它们的个性化生成。目前,主流的个性化合成方法主要可分为两大类‍
一个依赖于测试阶段的额外优化,例如DreamBooth 和Textual Inversion 。鉴于这两项开创性工作都需要大量的时间进行微调,一些研究试图通过减少调优所需的参数数量来加快个性化定制的过程或使用大型数据集进行预训练。尽管取得了这些进步,但它们仍然需要对每个新概念的预训练模型进行广泛的微调,这使得该过程非常耗时并限制了其应用。最近,一些研究尝试使用具有单次前向传递的单个图像进行个性化生成,从而显着加速了个性化过程。这些方法要么利用个性化数据集进行训练,要么在语义空间中对要定制的图像进行编码。
腾讯的方法侧重于基于上述两种技术方法生成人物肖像。具体来说,它不仅依赖于面向ID的个性化数据集的构建,还依赖于在语义空间中获取代表人ID的嵌入。与以前基于嵌入的方法不同, PhotoMaker 从多个 ID 图像中提取堆叠的 ID 嵌入。在提供更好的ID表示的同时,所提出的方法可以保持与以前的基于嵌入的方法相同的高效率。

PhotoMaker首先分别从文本编码器和图像编码器中获取文本嵌入和图像嵌入。然后,通过合并相应的类嵌入(例如,男人和女人)和每个图像嵌入来提取融合嵌入。接下来,沿长度维度连接所有融合嵌入,形成堆叠 ID 嵌入。最后,将堆叠的 ID 嵌入提供给所有交叉注意力层,以便自适应地合并扩散模型中的 ID 内容。需要注意的是,虽然在训练时使用了相同ID和遮罩背景的图像,但可以直接输入不同ID的图像,而不会出现背景失真,从而在推理过程中创建一个新的ID。
最后看一组图:

人工智能教父,图灵奖获得者杨立昆直言他最喜欢左下角这张自己的定制图像,哈哈哈😂😂😂





体验地址:https://huggingface.co/spaces/TencentARC/PhotoMaker
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

用起来吧👇👇
到顶部