阿里通义千问团队近日宣布推出全球首个原生语言世界模型(Language World Model, LWM)——Qwen-AgentWorld。该模型通过模拟七大领域的智能体交互环境,实现了跨领域知识迁移能力,在AgentWorldBench评测基准中超越了GPT-5.4、Claude Opus 4.8及Gemini 3.1 Pro等国际主流模型。
模型构建覆盖文本类(MCP、Search、Terminal、SWE)与GUI类(Web、OS、Android)七类交互场景。针对图形界面环境,研发团队创新采用可渲染代码替代传统像素帧作为环境观测输入,使纯文本建模即可完整表征视觉信息。这种设计突破了多模态建模的常规路径,为智能体训练提供了更高效的解决方案。
训练体系采用CPT→SFT→RL三阶段架构,形成完整的原生世界建模闭环。在预训练阶段,模型通过分析超千万条真实交互轨迹,引入轮次级信息论损失掩码技术,精准识别承载环境信息的对话轮次。指令微调阶段将状态预测转化为思维链推理模式,强化学习阶段则通过混合奖励信号优化输出质量。这种贯穿全流程的环境建模机制,使模型具备原生世界理解能力,而非简单叠加环境模拟模块。
同步发布的AgentWorldBench评测基准包含七大领域测试集,每条样本均配备真实环境执行的ground-truth观测数据。实验数据显示,3970亿参数版本Qwen-AgentWorld-397B-A17B取得58.71分的综合成绩,在Terminal和SWE领域较GPT-5.4提升显著。350亿参数版本通过三阶段训练提升8.66分,性能超越Claude Sonnet 4.6,验证了小规模模型的高效训练路径。
研发团队提出两种互补的世界建模应用范式:作为独立环境模拟器时,模型可为强化学习提供可控的虚拟训练场,其塑造智能体行为的能力远超纯真实环境训练;作为基础模型时,经LWM预训练的智能体可直接迁移至多轮任务,无需额外微调即可展现优异性能。目前模型与评测基准已在Hugging Face和ModelScope平台开源,为智能体研究提供新的技术路径。














