EMO是由阿里巴巴通义实验室开发的音频驱动高表现力人像AI视频生成技术,最新升级版EMO2通过一张人物肖像图片和任意长度的音频,能够驱动人物进行说话、唱歌或手势舞,生成的表情和动作具有高度的感染力和专业水准。

在AI技术领域,通过音频驱动人物面部表情已实现,但在虚拟主播和数字人交互等新兴领域,如何通过音频自动生成自然流畅的动作和表情仍是技术焦点,以往的方法在手部动作生成上存在肢体错乱或动作幅度不足的问题,主要因为人类身体作为多关节复杂系统,难以实现复杂动作的驱动。

EMO2受机器人控制系统启发,将手视为日常生活中的“末端执行器”,与音频之间的关系显著,通过逆向运动学(IK)获取其他人体关节角度时,可能会出现奇异性,导致错误的运动规划结果。EMO2提出将人体结构知识融入像素生成,即“具有像素先验知识的IK”(Pixels Prior IK),通过音频生成手部动作,然后利用2D视频模型生成其他身体部位,实现自然高表现力的人物动作视频生成。

EMO2提出了一套两阶段的解决方案:第一阶段建立音频到手部动作的映射,生成高表现力和高一致性的手势动作;第二阶段使用基于diffusion UNet架构的视频生成模型合成视频帧,以第一阶段生成的动作表征作为引导,生成真实的面部表情和身体动作。

EMO2生成的动作具有更大运动范围和多样性,与音频的一致性更强。在人物视频生成方面,EMO2在手势动作的多样性和手部清晰度上具有显著优势。EMO2扩展了EMO模型,使其能够生成上半身动作,研究发现手部动作与音频信号最为相关。实验结果表明,EMO2能够生成比其他方法更加生动、富有表现力的人体视频,为音频驱动视频生成技术提供了新的思路。