阿里Qwen团队近日宣布,正式推出新一代原生全模态大模型Qwen3-Omni-Flash-2025-12-01。这款基于Qwen3-Omni升级的模型,实现了文本、图像、音视频等多种模态的无缝输入与实时流式输出,标志着多模态交互技术迈入全新阶段。
在交互体验层面,新模型重点优化了多模态融合能力。通过实时流式响应技术,用户输入的文本、图像、音视频信息可同步转化为高质量文本与自然语音输出。针对语音交互场景,模型突破了传统语音生成机械呆板的局限,能够根据文本内容自适应调整语速、停顿与韵律,语音自然度与拟人化程度接近真人水平,显著提升了对话流畅性。
系统提示控制能力的升级成为本次更新的核心亮点。研发团队全面开放了System Prompt自定义权限,用户可通过精细化参数设置调控模型行为模式。无论是设定特定人设风格如“甜妹”“御姐”,还是调整口语化表达偏好与回复长度,模型均能精准响应。这一功能为个性化交互场景提供了技术支撑,例如虚拟主播、智能客服等领域可实现更灵活的角色扮演。
跨语言支持方面,模型展现出强大的全球化服务能力。支持119种文本语言交互、19种语音识别语言及10种语音合成语言,确保在多语言场景下保持响应准确性与一致性。这一特性为跨国企业、国际教育等场景提供了高效解决方案,有效降低了语言障碍带来的沟通成本。
客观性能指标显示,新模型在多项基准测试中取得突破性进展。逻辑推理任务(ZebraLogic)得分提升5.6,代码生成(LiveCodeBench-v6)提升9.3,多学科视觉问答(MMMU)提升4.7。这些数据表明,模型不仅在图像视频内容理解上更加精准,在复杂指令遵循与深度逻辑分析方面也达到行业领先水平。
针对口语化场景的“降智”痛点,新模型通过增强音视频指令理解能力,显著提升了多轮对话的稳定性与连贯性。在复杂语境下,模型能够准确捕捉用户意图,避免语义歧义,为智能助手、教育辅导等场景提供了更可靠的交互基础。此次升级标志着多模态大模型从技术探索向实用化落地迈出关键一步。















