从推理到行动：林俊旸揭秘Qwen试错，大模型未来转向智能体思维

发布时间：2026-03-28 19:19 来源：快讯作者：冯璃月

在人工智能领域，一场关于发展方向的深刻讨论正愈演愈烈。近期，前阿里千问技术负责人林俊旸在离职后首次公开发声，凭借一篇题为《从“推理”思维到“智能体思维”》的长文，为这场讨论注入了新的思考，引发了行业内的广泛关注。他明确指出，大模型的未来并非单纯比拼推理链的长度，而是要学会“为行动而思考”，通过与世界的互动来解决实际问题。

这篇长文不仅是对千问研发历程的深度复盘，更是对整个AI行业未来走向的一次重新审视。当OpenAI的o1、DeepSeek-R1等模型将“推理模型时代”推向高潮时，林俊旸却提出了一个更为根本的问题：大模型究竟应该以何种方式思考？答案，或许就隐藏在从“推理思维”到“智能体思维”的范式转变之中。

回顾千问团队的探索历程，2025年初的一次大胆尝试令人印象深刻。团队试图将“思考模式”与“指令模式”融合于同一模型之中，打造出后来的Qwen3。林俊旸的初衷十分美好：一个先进的模型应当具备自动调节算力投入的能力，根据问题的难易程度灵活应对——简单问题直接作答，复杂问题深入思考，难题则全力推演。然而，现实却给了他们沉重的一击。合并后的模型在思考时变得啰嗦犹豫，指令模式也失去了原有的干脆、稳定与低成本优势。问题并非出在模型架构上，而是源于两种模式在数据分布和行为目标上的巨大差异，强行融合只会导致“两头受损”，而非相互补充。

这次失败让林俊旸深刻认识到，单纯延长推理链、堆砌算力并非AI发展的终极答案。当整个行业都在热衷于探讨“如何让模型思考得更久”时，他却开始思考：AI的思考究竟应该服务于什么目的？

要解答这个问题，就需要深入理解推理思维与智能体思维这两种截然不同的“大脑”模式。推理思维，以OpenAIo1、DeepSeek-R1为代表，其核心在于静态、内部、独白式的长推理链。它的目标在于追求思考的质量和正确性，例如解数学题、编写代码或通过基准测试。在实现方式上，模型在封闭环境中独自思考，通过延长推理链、增加计算量来输出越来越长的“思考过程”文本。然而，这种思维模式的局限性也十分明显：它只能回答问题，却无法解决问题——即便知道答案，也缺乏将其付诸实践的能力；能够生成方案，却无法确保方案的落地执行。

相比之下，智能体思维则是一种全新的方向。它强调为行动而思考，在环境中思考，并通过反馈闭环不断修正自身。其目标并非“思考得足够久”，而是“利用思考来支撑有效行动”，在与世界的互动中持续推进任务。在实现方式上，模型不再孤立地进行推演，而是边思考边行动——调用各种工具、获取反馈信息、在失败后调整计划，并在多轮交互中保持思路的一致性。这种思维模式赋予了模型处理纯推理模型无法解决的问题的能力，例如何时停止思考并采取行动、选择何种工具、整合嘈杂的环境信息、修订计划以及维持多轮交互的一致性等。

Anthropic的Claude系列为林俊旸提供了关键启发。Claude3.7作为“可控预算的混合推理模型”，以及Claude4在推理与工具调用之间的交错进行，都表明思考不再仅仅是为了展示，而是为了服务于编码、工具调用、长时任务和智能体工作流等实际需求。

智能体思维的落地实施，离不开一个核心概念——HarnessEngineering（驾驭工程）。林俊旸将其比喻为AI的“脚手架”和模型的“操作系统”。如果把大模型比作“引擎”，那么Harness就是围绕引擎打造的“车”——没有它，再强大的引擎也无法发挥作用。从本质上讲，Harness是为AI搭建一个包含环境、工具、约束、反馈循环和多智能体协同机制的完整系统。它的作用在于将“裸模型”转化为能够在现实任务中持续行动、修正并完成工作的Agent（智能体）。用公式表示就是：Agent=Model+Harness——模型是大脑，而Harness则是手脚、眼睛和控制系统。

Harness的核心价值在于解决“执行难题”。很多时候，模型执行任务失败并非因为不够聪明，而是由于外部系统过于复杂混乱，导致模型迷失方向、重复失败或忘记目标。Harness正是为了解决这些问题而设计的：它能够协调模型调用API、数据库、代码执行器等工具，使“思考”能够落地为“行动”；通过将行动结果反馈给模型，让它了解“做对了没有”，并据此修正策略；设定规则和沙箱环境，防止模型“作弊”（如直接搜索答案、滥用工具）；协调规划器、领域专家和子智能体之间的分工，使复杂任务能够高效推进。

然而，在智能体时代，核心竞争力将转向系统工程能力。环境设计将成为“一等研究对象”，环境的稳定性、真实性、覆盖面和反馈丰富度将变得至关重要——就像在SFT时代人们痴迷于数据多样性一样，现在需要痴迷于环境质量。训推协同也将成为关键，训练和推理需要紧密结合，使模型能够在接近生产的环境中学习，解决“推理侧等待反馈、训练侧断粮”的低效问题。反作弊与鲁棒性也不容忽视，需要防范“奖励作弊”行为，提升评估器和环境的抗利用能力。同时，多智能体接口的设计也至关重要，需要建立高效的协同机制，让不同智能体能够各司其职，控制上下文，避免污染。

智能体思维的终极意义在于推动AI从“被动回答问题的百科全书”转变为“主动解决问题的数字行动者”。以安排商务晚宴为例，传统大模型可能会为你生成菜单、推荐餐厅并撰写邀请函，但联系餐厅、预订、发送邀请和确认等后续工作仍需你自己完成。而AI智能体则只需你提供“下周三8人晚宴，人均500元，CEO海鲜过敏”等基本信息，它就能自动查询日历、筛选餐厅、预订场地、发送邀请并提醒你进行最终确认。

这场从推理思维到智能体思维、从训练模型到训练系统、从比拼算法到比拼Harness工程能力的变革，并非技术细节的简单优化，而是AI从“能思考”到“能做事”的本质跨越。随着这一变革的深入推进，真正的AI强者将不再是“会解题的学霸”，而是“能办事的实干家”。我们也将迎来一个AI真正融入日常生活、切实解决实际问题的新时代。

更多>同类内容