MOSS-Speech

MOSS-Speech MOSS-Speech LLM

2024-01-01 1 分钟阅读

MOSS-Speech

MOSS-Speech项目是一个开创性的端到端语音交互模型，其核心创新在于能够直接生成语音，无需文本作为中间指导，从而避免了传统方法中的文本瓶颈，并实现了更自然、高效的语音到语音对话。它通过在预训练文本大型语言模型（LLM）骨干上引入基于模态的层拆分架构和冻结预训练策略，成功地将LLM的强大知识扩展到语音模态，同时保持其原有能力，并在口语问答和语音到语音任务中展现出最先进的性能。

MOSS-Speech

本指南使用到的工具