VibeVoice

VibeVoice VibeVoice TTS

1 分钟阅读

VibeVoice

VibeVoice是一款先进的文本转语音模型,专注于生成长篇、富有表现力的多说话人对话音频,例如播客,有效解决了传统TTS系统在可扩展性、说话人一致性和自然对话流方面的难题。该项目通过创新性地使用超低帧率连续语音分词器(声学和语义),并结合一个利用大语言模型理解文本上下文和对话流的下一词元扩散框架,实现了长达90分钟的语音合成和支持最多4个不同说话人的能力,同时还展现了跨语言和自发歌唱的潜力。需要注意的是,它目前仅限于英语和中文,不处理非语音内容或重叠对话,并因其高保真合成能力而存在潜在的深度伪造风险,主要推荐用于研究和开发。