AI视觉新突破:强化学习打破传统瓶颈,LENS引领技术新方向

   发布时间:2026-01-04 22:04 作者:顾雨柔

在人工智能视觉领域,一场关于技术路径的深刻变革正在悄然展开。传统监督式微调方法长期占据主导地位,但其静态模式匹配的特性导致泛化能力受限,尤其在处理复杂推理任务时表现乏力。近期AAAI 2026会议上,LENS框架的提出为突破这一瓶颈提供了全新思路,其通过强化学习机制重新定义了视觉分割的范式。

传统方法的核心问题在于将"思考"与"执行"过程割裂。以同期Seg-Zero为代表的非端到端架构,需先由推理模型生成边界框,再由分割模型执行操作。这种分离式设计导致误差单向传播——初始定位偏差会直接导致最终失败,且缺乏自我修正能力。实验数据显示,在复杂指令场景下,此类方法的性能衰减幅度超过30%。

LENS框架通过端到端联合优化机制破解了这一难题。其核心创新在于构建了"推理-桥接-分割"三位一体架构:多模态大语言模型(如Qwen2.5-VL-3B-Instruct)作为认知中枢,负责生成思维链推理和初步定位;上下文模块充当信息转换器,将推理轨迹转化为分割提示;SAM2-Large分割模型则完成最终像素级输出。这种设计使系统具备动态纠错能力,即便初始定位存在偏差,仍能通过反馈闭环实现自我优化。

研究团队特别设计的统一强化学习奖励机制是关键突破。该机制包含三个监督维度:格式奖励确保推理过程符合结构规范,边界框IoU奖励监控定位精度,分割掩码IoU奖励评估像素级质量。通过将Group Relative Policy Optimization目标与监督损失结合,LENS实现了推理改进与分割优化的双向驱动。实验表明,这种设计使系统在定位错误率达15%时仍能保持82%的分割准确率。

在性能验证环节,LENS展现出显著优势。RefCOCO系列基准测试中,其平均cIoU达到81.2%,刷新世界纪录;在更具挑战性的GroundingSuite-eval零样本测试中,以78.3%的cIoU领先第二名近10个百分点。特别在处理长尾指令和域外数据时,LENS的泛化能力较传统方法提升40%以上,验证了强化学习路径的普适价值。

这项研究重新定义了视觉语言系统的构建逻辑。不同于传统方法依赖海量标注数据的模式,LENS通过奖励机制实现动态学习,更接近人类认知过程。其端到端特性不仅解决了误差传播难题,更开创了推理与分割协同优化的新范式。随着强化学习在视觉领域的深入应用,这类自适应系统有望推动人工智能向更通用、更稳健的方向发展。

 
 
更多>同类内容
全站最新
热门内容
本栏最新