山东大学项目实训个人纪实（4）——实时音频转口型探索-创锋一号

尝试使用Oculus Lipsync

Oculus Lipsync的原理是：实时分析音频的波形，计算出“视位（Visemes，即嘴型）”的权重，并驱动 MetaHuman 的面部表情。
理论很美好，但是实际操作起来困难重重

当前Oculus Lipsync已经停止更新了，且官网使用的示例版本是4.25

所幸，github上恰好有大佬写的适配5.6版本的插件，遂下载下来试试。

虽然版本已经对上了，但是UE依旧报错，需要重新编译插件。

但当前项目是纯蓝图，于是将项目转成C++项目，重新编译。UE项目过于巨大，编译一次两小时。。但还好，最后编译成功了

有了插件，但不知道怎么用，目前唯一的资料只有官网只言片语的文档。下载了UE4.5，将官方示例Demo打开，查看插件使用方法如下

根据官方文档编写脚本，又惊奇地发现，由于UE版本太高，没有Face_AnmiBP脚本，需要自己制作面部表情来驱动。简单制作了一个动画蓝图

然而依旧无法实现，经过查看源码，发现该插件不支持实时音频转口型，需要修改C++文件，工程量较大，先将此方法搁置

第一个难题就是环境配置。NVIDIA在2025.10移除了Audio2Face的app下载，改为了容器+SDK的方式。

但是环境死活配不通，说是权限不够。

刷B站刷到一个本地部署的，将Audio2Face SDK和训练模型下载到本地，进行转化

成了，但是电脑显存一下就炸了，还暂时无法实现实时的功能。所以之后还是得尝试使用容器或其他方法