伟大的英伟达，这一晃就过了六年，英伟达栽树后人乘凉

VASA-1 是由一组研究人员推出的尖端框架，旨在通过单个静态图像和随附的语音音频片段实时生成逼真的说话面孔。该模型名为 VASA-1，擅长生成与音频高度同步的唇部运动，同时还能捕捉各种面部表情和自然的头部运动，从而增强生成面孔的真实感和生动感。这项创新的核心是面部动态和头部运动的整体模型，该模型在由视频数据制作的独特潜在空间内运行。

广泛的测试和新指标证实了 VASA-1 在多个方面优于现有方法。值得注意的是，VASA-1 支持以每秒高达 40 帧的速度传输高质量 512x512 视频，延迟极低，为与真正模仿人类对话模式的虚拟形象进行引人入胜的实时互动铺平了道路。
https://www.microsoft.com/en-us/research/project/vasa-1/