OmniTalker

OmniTalker OmniTalker TTS

1 分钟阅读

OmniTalker

OmniTalker 是一个统一的框架,用于从文本生成语音和说话头像视频,以解决现有方法中存在的冗余计算、错误累积以及音视频风格不匹配的问题。它能实时生成与参考视频风格一致的说话头像,并在零样本情况下工作。

核心亮点:

  • 统一的多模态框架: 将文本转语音(TTS)和文本转视频整合到一个模型中,通过跨模态融合实现同步输出。
  • 上下文多模态风格复制: 引入参考引导机制,从参考视频中捕捉语音和面部风格,实现零样本风格迁移。
  • 实时效率: 通过整合流动匹配并保持较小的模型规模,OmniTalker 在保持高保真输出的同时实现了实时推理。
  • 双分支扩散 Transformer 架构: 音频分支合成 mel 频谱图,视觉分支预测头部姿势和面部动态。
  • 音频-视觉融合模块: 集成跨模态信息,确保音频和视觉输出的时序同步和风格一致性。

总而言之,OmniTalker 通过端到端的方式,实现了文本驱动的逼真说话头像生成,解决了传统方法的局限性,具有实时性和风格迁移的优势。