FireRedTTS-2
FireRedTTS-2 FireRedTTS-2 TTS
FireRedTTS-2
FireRedTTS-2 是一个专注于长对话语音生成的高级流式文本转语音(TTS)系统,专为多说话人对话设计,旨在为播客和聊天机器人提供稳定、自然且具备上下文感知韵律的语音输出。其核心功能包括支持多达4位说话人的3分钟长对话生成(并可扩展),提供对英语、中文、日语、韩语、法语、德语和俄语等多语言的零样本跨语言及语码转换语音克隆能力。该系统采用创新的12.5Hz流式语音分词器和双Transformer架构,实现了超低的首次数据包延迟(在L20 GPU上最低可达140毫秒),同时确保了极高的语音相似度和低错误率,并支持随机音色生成,所有这些功能主要用于学术研究目的。