尝试使用Oculus Lipsync
Oculus Lipsync的原理是:实时分析音频的波形,计算出“视位(Visemes,即嘴型)”的权重,并驱动 MetaHuman 的面部表情。
理论很美好,但是实际操作起来困难重重
困难一:版本适配
当前Oculus Lipsync已经停止更新了,且官网使用的示例版本是4.25
所幸,github上恰好有大佬写的适配5.6版本的插件,遂下载下来试试。
困难二:插件编译
虽然版本已经对上了,但是UE依旧报错,需要重新编译插件。
但当前项目是纯蓝图,于是将项目转成C++项目,重新编译。UE项目过于巨大,编译一次两小时。。但还好,最后编译成功了
困难三:插件使用
有了插件,但不知道怎么用,目前唯一的资料只有官网只言片语的文档。下载了UE4.5,将官方示例Demo打开,查看插件使用方法如下
根据官方文档编写脚本,又惊奇地发现,由于UE版本太高,没有Face_AnmiBP脚本,需要自己制作面部表情来驱动。简单制作了一个动画蓝图
然而依旧无法实现,经过查看源码,发现该插件不支持实时音频转口型,需要修改C++文件,工程量较大,先将此方法搁置
使用Audio2Face
第一个难题就是环境配置。NVIDIA在2025.10移除了Audio2Face的app下载,改为了容器+SDK的方式。
但是环境死活配不通,说是权限不够。
刷B站刷到一个本地部署的,将Audio2Face SDK和训练模型下载到本地,进行转化
成了,但是电脑显存一下就炸了,还暂时无法实现实时的功能。所以之后还是得尝试使用容器或其他方法