Qwen3-Omni

Qwen3-Omni Qwen3-Omni

1 分钟阅读

Qwen3-Omni

Qwen3-Omni 是一个原生的端到端多语言全模态基础模型,旨在处理文本、图像、音频和视频等多种输入,并能以文本和自然语音的形式提供实时流式响应。其核心功能在于实现强大的跨模态理解与生成,在文本、图像、音频及音视频任务上均达到最先进水平,特别是在36个音频/音视频基准测试中,有32个实现了开源SOTA,22个实现了整体SOTA,性能可与Gemini 2.5 Pro和GPT-4o媲美。该项目采用MoE(混合专家)架构的“思考者-说话者”设计,并结合AuT预训练和多编码本设计以实现低延迟和高效性。它支持119种文本语言、19种语音输入语言和10种语音输出语言,提供高度可定制的系统提示以精细控制模型行为,并包含一个专门用于详细音频描述的Qwen3-Omni-30B-A3B-Captioner模型。用户可以通过Hugging Face Transformers、vLLM(推荐用于高性能场景)或DashScope API进行部署和交互,并可通过在线演示和本地Web UI体验其实时多模态对话能力,同时支持输出语音类型的选择和视频内音频的使用。