Stable Diffusion原班人马新公司官宣！新模型一夜刷新AI绘画格局，已获2.3亿元融资

2024-08-02 04:55#1 标记1

衡宇发自凹非寺量子位 | 公众号 QbitAI
刚刚，Stable Diffusion原班人马官宣创业新公司！
3月宣布从Stability AI出走的Robin Rombach，就是Stable Diffusion的两个主要作者之一，和十来个原公司小伙伴，正式宣布了组团创业的消息。
新公司名叫Black Forest Lab，黑森林实验室。一亮相就kuku发了一个系列、共3款图片生成模型，其中有2个开源。
而且支持中文输入。
效果怎么样？看过的网友称很狂野（wild）！
输入提示词，一次测试出了画面效果和人脸数据等安全措施：
一名十多岁戴着滑雪面罩的女孩在谷仓里做折纸手工。图片底部有指定的黄色文字。背景中有个相框，里面是奥巴马的照片。

单是看了这组图文对照，就有网友感慨，这是他看过最棒的图像生成效果。

要说这家公司的特色，就是主打一个不遮遮掩掩。
今天官宣成立，今天发布系列模型，还宣布了融资进度——
已经完成3200万美元融资，由a16z领投， Oculus VR联创Brendan Iribe、YC前合伙人Garry Tan、NVIDIA Research领导计算机图形研究小组的Timo Aila、苹果杰出科学家（英特尔智能系统前首席科学家）Vladlen Koltun等人投资。
可以说，黑森林既得到了资本市场的押注，也得到了业界大佬们的青睐。
AI大牛卡帕西也在线发来贺电，还顺道称赞了一下黑森林的新模型：
歪瑞古德！开源的FLUX.1 image gen模型看起来非常强大。

而且注意了，开源协议是宽松的Apache2.0。
黑森林图像生成模型首秀
卡帕西都觉得exciting了，让咱来视觉感受下黑森林的模型效果。
这里，量子位挑选了五种类型的生成效果展示，图片均由官方提供，未标明具体使用了旗下哪款模型。
第一关，文字生成。
提示词：旧教室黑板的照片。黑板上用粉笔写着“let’s make some really pretty stuff together”，词后有一个红色的粉笔心。阳光从窗户照进来。

第二关，非真实场景+文字生成。
提示词：水下场景中，两只猫头鹰坐在一张精美的餐桌旁，餐桌中央点燃了蜡烛，两只猫头鹰正在一起享用一顿美味的晚餐。左边的猫头鹰穿着燕尾服，右边的猫头鹰穿着漂亮的裙子。背景中有一艘潜艇驶过，其侧面画有“What a Hoot”字样。桌子下面的图像底部有小水母在游动，电影般美丽的数字艺术品。

第三关，现实世界真实场景。
提示词：弗莱堡一条美丽街道的照片，一辆有轨电车经过，人们有的散步有的骑自行车。

第四关，真实人物和动漫人物生成。
提示词：三位女士在市中心街道上拍摄的照片，她们把手伸向镜头。

提示词：美丽的动漫艺术品，一个可爱的猫娘，看起来很沮丧，手里拿着一张纸，上面画着微笑，她快要哭了。

第五关，动物形象生成。
提示词：森林里的一只山猫，由专业摄影在强光下拍摄。

提示词：近距离渲染一个神话生物，由详细的螺旋分形和卷须组成，详细的递归皮肤纹理

FLUX.1系列模型
此次，黑森林共发了FLUX.1系列的3个模型：pro、dev、schnell。

FLUX.1 [pro]：系列最强音。
FLUX.1系列的精华，提供最优性能的图像生成，具有一流的指令遵循、视觉质量、图像细节和输出多样性。
黑森林团队正缓步提升API中FLUX.1 [pro]的推理计算能力。
此版本可以通过Replicate和fal.ai访问；提供专用和定制的企业解决方案。
FLUX.1 [dev]：系列中杯。
一个允许非商业途径使用的模型，开放权重、经过蒸馏。
[dev] 直接从[pro] 中蒸馏而来，具有相似的质量和迅速的遵守能力，同时比相同尺寸的标准模型更高效。
可在抱抱脸上试玩，或直接在Replicate或fal.ai上试用。
FLUX.1 [schnell]：速度小旋风。
系列最快模型，为本地开发和个人开发者量身制作。
FLUX.1 [schnell] 在Apache2.0许可证下公开可用，模型权重可以前往抱抱脸查询，推理代码可以在GitHub上找到。
已经获得了ComfyUI的支持，可以直接使用；也可以通过Replicate或fal.ai使用。
来个直观感受！
这里放三张照片，是以上大杯、中杯、小杯在不同提示词下，围绕“蛋糕”这个主题的生成效果。

△从左至右，使用模型依次为大、中、小杯
量子位多次测试后发现，输入简单提示词的话，用pro版本生成一张图片的用时在15s-25s之间（成果图下方会显示生成用时）。

黑森林称，所有FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构，并扩展到12B参数。
3款模型中，FLUX.1 [pro] 和 [dev] 在视觉质量、提示响应度、尺寸/长宽高比列灵活性、排版和输出多样性这些方面，超过了Midjourney v6.0、DALL·E 3 (HD) 和 Stable Diffusion 3-Ultra。
而FLUX.1 [schnell] ，被团队称为“迄今为止最先进的少步骤模型（few-step model）”。
它不仅在同类竞争对手中脱颖而出，还超越了更强大的非压缩模型，如Midjourney v6.0和DALL·E 3 (HD)。
整个FLUX.1系列都经过了专门的微调，以求保留预训练阶段的全部输出多样性。
与已有的技术相比，FLUX.1还有以下优势：

有人免不了要问了，你们是Stability AI的OG元老，是核心成员。
So，你们这新模型，跟人家旗下的Stable Diffusion有啥区别？
创始团队成员在Reddit上进行了回应：
即使是我们的最弱型号schnell，生成质量也更好，生成速度也更快。
主打一个我成立新公司超越我自己

SD主要作者组团打造
介绍完模型相关资料，是时候正式来认识一下这家新公司了。
黑森林实验室，今天刚刚宣布成立。
公司官网上，赫然写着一句口号：A new era of creation。
公司使命推进最先进、高质量的图像和视频生成深度学习模型，并将其提供给最广泛的受众。
华点出现了！他们的下一步野心很明显，就是还要进军视频生成领域。
还放话，得是“SOTA”。

核心成员Robin Rombach，Stability AI前研究科学家。
在Stability AI工作期间，他是Stable Diffusion模型的主要开发者之一，也参与研究了SDXL、SVD等项目。
今年3月，Robin从Stability AI跑路。
外界评价他的离开让原本就乱成一锅粥的这家独角兽伤筋动骨——毕竟他是SD的两位主力之一。

往前回顾，Robin在海德堡大学拿下物理学的本科和硕士学位。
2020年，他在海德堡计算机视觉小组在Björn Ommer的指导下开始攻读计算机科学博士学位，并于2021年随研究小组移至慕尼黑大学。
研究重点关于生成深度学习模型，特别是文本到图像系统。
谷歌学术被引数接近1.5万。

此外，官网公开的成员中，Andreas Blattmann、Axel Sauer、Dominik Lorenz、Dustin Podel、Frederic Boesel、Patrick Esser、Sumith Kulal、Tim Dockhorn、Yam Levi、Zion English都是可公开查询到的Stability AI原成员。
（Andi Holmes和Jonas Müller两人暂未查询到准确资料）

可以说，黑森林就是SD的原班核心成员们出走再启航了。
难怪Axel Sauer转发了官推，大声呐喊：
我们还活着！

One More Thing
好巧不巧，同一天，Stability AI也有新动作：
推出新的AI模型Stable Fast 3D，官方称它可以在半秒内生成3D图像。
此前的模型需要数分钟才能生成类似效果的3D图像，新模型完成相同任务的速度是现有的1200倍。

那Stability AI在3月跑路的CEO，Emad Mostaque，他在干嘛呢？
六月份，他官宣了自己的去向，新公司Schelling AI，“将构建和支持由AI资金支持的开源代码、模型和数据集”。
重点精力放在创新研究和精心构建具有文化意识、科学、教育和创意的AI。
三天前，Schelling AI发布了系列文章第一篇，《How To Think About AI》。
文章有点长，感兴趣的朋友们可以搜索自行查看，这里就提一下核心思想——
AI发展很快，提倡开源开放，加速创新协作。

以及，要不说大家都是体面人呢！
黑森林实验室宣布成立的推文，人家前CEO还是友情转发了的（此处放一个狗头）。
参考链接：[1]https://blackforestlabs.ai[2]https://news.ycombinator.com/item?id=41130620[3]https://x.com/EMostaque[4]https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/does_anyone_have_an_update_on_when_stable/[5]https://x.com/SchellingAI/status/1818600200232927721
— 联系作者 —

— 完 —
量子位年度AI主题策划正在征集中！
欢迎投稿专题一千零一个AI应用，365行AI落地方案
或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~