从推理到行动:林俊旸揭秘Qwen试错,大模型未来转向智能体思维

   发布时间:2026-03-28 19:19 作者:冯璃月

在人工智能领域,一场关于发展方向的深刻讨论正愈演愈烈。近期,前阿里千问技术负责人林俊旸在离职后首次公开发声,凭借一篇题为《从“推理”思维到“智能体思维”》的长文,为这场讨论注入了新的思考,引发了行业内的广泛关注。他明确指出,大模型的未来并非单纯比拼推理链的长度,而是要学会“为行动而思考”,通过与世界的互动来解决实际问题。

这篇长文不仅是对千问研发历程的深度复盘,更是对整个AI行业未来走向的一次重新审视。当OpenAI的o1、DeepSeek-R1等模型将“推理模型时代”推向高潮时,林俊旸却提出了一个更为根本的问题:大模型究竟应该以何种方式思考?答案,或许就隐藏在从“推理思维”到“智能体思维”的范式转变之中。

回顾千问团队的探索历程,2025年初的一次大胆尝试令人印象深刻。团队试图将“思考模式”与“指令模式”融合于同一模型之中,打造出后来的Qwen3。林俊旸的初衷十分美好:一个先进的模型应当具备自动调节算力投入的能力,根据问题的难易程度灵活应对——简单问题直接作答,复杂问题深入思考,难题则全力推演。然而,现实却给了他们沉重的一击。合并后的模型在思考时变得啰嗦犹豫,指令模式也失去了原有的干脆、稳定与低成本优势。问题并非出在模型架构上,而是源于两种模式在数据分布和行为目标上的巨大差异,强行融合只会导致“两头受损”,而非相互补充。

这次失败让林俊旸深刻认识到,单纯延长推理链、堆砌算力并非AI发展的终极答案。当整个行业都在热衷于探讨“如何让模型思考得更久”时,他却开始思考:AI的思考究竟应该服务于什么目的?

要解答这个问题,就需要深入理解推理思维与智能体思维这两种截然不同的“大脑”模式。推理思维,以OpenAIo1、DeepSeek-R1为代表,其核心在于静态、内部、独白式的长推理链。它的目标在于追求思考的质量和正确性,例如解数学题、编写代码或通过基准测试。在实现方式上,模型在封闭环境中独自思考,通过延长推理链、增加计算量来输出越来越长的“思考过程”文本。然而,这种思维模式的局限性也十分明显:它只能回答问题,却无法解决问题——即便知道答案,也缺乏将其付诸实践的能力;能够生成方案,却无法确保方案的落地执行。

相比之下,智能体思维则是一种全新的方向。它强调为行动而思考,在环境中思考,并通过反馈闭环不断修正自身。其目标并非“思考得足够久”,而是“利用思考来支撑有效行动”,在与世界的互动中持续推进任务。在实现方式上,模型不再孤立地进行推演,而是边思考边行动——调用各种工具、获取反馈信息、在失败后调整计划,并在多轮交互中保持思路的一致性。这种思维模式赋予了模型处理纯推理模型无法解决的问题的能力,例如何时停止思考并采取行动、选择何种工具、整合嘈杂的环境信息、修订计划以及维持多轮交互的一致性等。

Anthropic的Claude系列为林俊旸提供了关键启发。Claude3.7作为“可控预算的混合推理模型”,以及Claude4在推理与工具调用之间的交错进行,都表明思考不再仅仅是为了展示,而是为了服务于编码、工具调用、长时任务和智能体工作流等实际需求。

智能体思维的落地实施,离不开一个核心概念——HarnessEngineering(驾驭工程)。林俊旸将其比喻为AI的“脚手架”和模型的“操作系统”。如果把大模型比作“引擎”,那么Harness就是围绕引擎打造的“车”——没有它,再强大的引擎也无法发挥作用。从本质上讲,Harness是为AI搭建一个包含环境、工具、约束、反馈循环和多智能体协同机制的完整系统。它的作用在于将“裸模型”转化为能够在现实任务中持续行动、修正并完成工作的Agent(智能体)。用公式表示就是:Agent=Model+Harness——模型是大脑,而Harness则是手脚、眼睛和控制系统。

Harness的核心价值在于解决“执行难题”。很多时候,模型执行任务失败并非因为不够聪明,而是由于外部系统过于复杂混乱,导致模型迷失方向、重复失败或忘记目标。Harness正是为了解决这些问题而设计的:它能够协调模型调用API、数据库、代码执行器等工具,使“思考”能够落地为“行动”;通过将行动结果反馈给模型,让它了解“做对了没有”,并据此修正策略;设定规则和沙箱环境,防止模型“作弊”(如直接搜索答案、滥用工具);协调规划器、领域专家和子智能体之间的分工,使复杂任务能够高效推进。

然而,在智能体时代,核心竞争力将转向系统工程能力。环境设计将成为“一等研究对象”,环境的稳定性、真实性、覆盖面和反馈丰富度将变得至关重要——就像在SFT时代人们痴迷于数据多样性一样,现在需要痴迷于环境质量。训推协同也将成为关键,训练和推理需要紧密结合,使模型能够在接近生产的环境中学习,解决“推理侧等待反馈、训练侧断粮”的低效问题。反作弊与鲁棒性也不容忽视,需要防范“奖励作弊”行为,提升评估器和环境的抗利用能力。同时,多智能体接口的设计也至关重要,需要建立高效的协同机制,让不同智能体能够各司其职,控制上下文,避免污染。

智能体思维的终极意义在于推动AI从“被动回答问题的百科全书”转变为“主动解决问题的数字行动者”。以安排商务晚宴为例,传统大模型可能会为你生成菜单、推荐餐厅并撰写邀请函,但联系餐厅、预订、发送邀请和确认等后续工作仍需你自己完成。而AI智能体则只需你提供“下周三8人晚宴,人均500元,CEO海鲜过敏”等基本信息,它就能自动查询日历、筛选餐厅、预订场地、发送邀请并提醒你进行最终确认。

这场从推理思维到智能体思维、从训练模型到训练系统、从比拼算法到比拼Harness工程能力的变革,并非技术细节的简单优化,而是AI从“能思考”到“能做事”的本质跨越。随着这一变革的深入推进,真正的AI强者将不再是“会解题的学霸”,而是“能办事的实干家”。我们也将迎来一个AI真正融入日常生活、切实解决实际问题的新时代。

 
 
更多>同类内容
全站最新
热门内容
本栏最新