【阿里整大活】一张图片+ 声音，重塑AI视频生成，比肩sora，口型表情太绝了

2024-02-29 00:01#1 标记1

本文为1060字，建议阅读4分钟
阿里巴巴智能计算研究院提出了一个由音频驱动的人像视频生成框架EMO：
Emote Portrait Alive
在弱条件下利用音频视频扩散模型生成富有表现力的肖像视频
表情生动，动作精准：EMO重塑人工智能视频生成‍‍
技术奇迹：一张图片+声音，EMO让肖像视频活灵活现‍
告别传统：EMO的音频视频扩散模型，开启人像视频新纪元
输入一张参考图像和人声音频（如说话和唱歌），就能生成具有生动表情和各种头部姿势，口型完全匹配高保真的人声头像视频，同时还能根据输入视频的长度生成任意时长的视频，这并不是什么新鲜事，但其质量与之前的任何作品都不一样
随便感受一下，小小的震撼：EMO用单张静态AI美女头像生成唱歌视频‍‍
‍‍‍
EMO用单张张颂文老师静态头像和罗翔老师的声音生成的模仿罗翔老师讲法律段子视频：‍
EMO框架实现方法：

EMO框架主要分为两个阶段：
在第一阶段，也就是帧编码阶段Frames Encoding，使用ReferenceNet从参考图像和运动帧中提取特征。接着，在扩散过程阶段Diffusion Process，一个预先训练好的音频编码器对音频嵌入进行处理。面部区域的遮罩与多帧噪声相结合，以指导面部图像的生成。然后，主干网络被用来执行去噪操作。在主干网络内部，采用了两种注意力机制：
Reference-Attention和Audio-Attention。这两种机制分别对于维持角色的独特性和调节角色的动作至关重要。此外，还使用了时间模块（Temporal Modules）来处理时间维度，以及调整动作的速度
还有各种EMO生成的视频，完整视频体验在这里：让OpenAI sora生成的女主唱歌，小李子和坤坤开口唱姆爷rap god，复活张国荣唱粤语歌曲，蒙娜丽莎独白莎士比亚，口型，面部表情，完全匹配‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
项目地址：https://humanaigc.github.io/emote-portrait-alive/

目前这一项目已经火爆全网，以下是一些博主评论：‍‍‍‍‍‍‍‍‍
日本博主KAJI：阿里巴巴推出了一款有趣的人工智能，当上传静态图片和声音源时，它就能唱歌和说话，表现力很强。
阿里巴巴正在进行大量研究，重点关注人工智能在娱乐方面的应用，例如其舞蹈视频生成人工智能（点赞3.3k）‍‍‍

英文博主Min choi：这真是令人难以置信。
这个人工智能能让单个图像唱歌、说话，还能用任何音频文件进行说唱，表现力极强！
阿里巴巴推出的 EMO: Emote Portrait Alive

著名人工智能博主AK评价：
阿里巴巴展示 EMO：表情肖像活灵活现
在弱条件下利用音频视频扩散模型生成富有表现力的人像视频
通过关注音频线索和面部动作之间的动态和细微关系，解决了在生成人像视频时如何增强真实感和表现力的难题。发现了传统技术的局限性，这些技术往往无法捕捉到人类表情的全貌以及个人面部风格的独特性。为了解决这些问题，研究人员提出了 EMO，这是一种新颖的框架，它采用直接音频到视频的合成方法，无需中间三维模型或面部地标。确保了整个视频的无缝帧转换和一致的身份保持，从而产生了极富表现力和栩栩如生的动画。实验结果表明，EMO 不仅能制作出令人信服的说话视频，还能制作出各种风格的唱歌视频，在表现力和逼真度方面明显优于现有的最先进方法

结语
阿里的这个技术是视频生成AI新纪元还是造假狂潮的开始？‍‍‍‍‍
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

比肩sora？👇👇