MOSS-Speech

MOSS-Speech MOSS-Speech LLM

1 分钟阅读

MOSS-Speech

MOSS-Speech项目是一个开创性的端到端语音交互模型,其核心创新在于能够直接生成语音,无需文本作为中间指导,从而避免了传统方法中的文本瓶颈,并实现了更自然、高效的语音到语音对话。它通过在预训练文本大型语言模型(LLM)骨干上引入基于模态的层拆分架构和冻结预训练策略,成功地将LLM的强大知识扩展到语音模态,同时保持其原有能力,并在口语问答和语音到语音任务中展现出最先进的性能。