山东大学项目实训个人纪实(4)——实时音频转口型探索
2026/5/8 3:22:03 网站建设 项目流程

尝试使用Oculus Lipsync

Oculus Lipsync的原理是:实时分析音频的波形,计算出“视位(Visemes,即嘴型)”的权重,并驱动 MetaHuman 的面部表情。
理论很美好,但是实际操作起来困难重重

困难一:版本适配

当前Oculus Lipsync已经停止更新了,且官网使用的示例版本是4.25

所幸,github上恰好有大佬写的适配5.6版本的插件,遂下载下来试试。

困难二:插件编译

虽然版本已经对上了,但是UE依旧报错,需要重新编译插件。

但当前项目是纯蓝图,于是将项目转成C++项目,重新编译。UE项目过于巨大,编译一次两小时。。但还好,最后编译成功了

困难三:插件使用

有了插件,但不知道怎么用,目前唯一的资料只有官网只言片语的文档。下载了UE4.5,将官方示例Demo打开,查看插件使用方法如下

根据官方文档编写脚本,又惊奇地发现,由于UE版本太高,没有Face_AnmiBP脚本,需要自己制作面部表情来驱动。简单制作了一个动画蓝图

然而依旧无法实现,经过查看源码,发现该插件不支持实时音频转口型,需要修改C++文件,工程量较大,先将此方法搁置

使用Audio2Face

第一个难题就是环境配置。NVIDIA在2025.10移除了Audio2Face的app下载,改为了容器+SDK的方式。

但是环境死活配不通,说是权限不够。

刷B站刷到一个本地部署的,将Audio2Face SDK和训练模型下载到本地,进行转化

成了,但是电脑显存一下就炸了,还暂时无法实现实时的功能。所以之后还是得尝试使用容器或其他方法

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询