字节跳动旗下火山引擎近日宣布,豆包大模型家族迎来重要升级,其全模态理解模型Doubao-Seed-2.0-lite正式发布。该模型突破传统多模态技术框架,首次实现视频、图像、音频、文本的原生统一理解,标志着人工智能在跨模态信息处理领域迈出关键一步。
在视觉理解维度,新模型展现出显著优势。针对物理、医疗等需要高阶推理的复杂场景,其性能表现已超越此前发布的pro版本。特别是在细粒度感知与具身理解等前沿领域,该模型达到当前业界最高水平(SOTA),能够精准识别图像中的微观特征,并建立与物理世界的动态关联。音频处理能力同样实现突破,支持19种语言的语音转写,可完成中英文与14种语言的互译任务,在语音识别准确率和翻译流畅度两项核心指标上均优于国际主流模型Gemini-3.1-Pro。
技术团队同步推出Doubao-Seed-2.0-mini轻量化版本,通过优化计算架构将模型思考长度缩短30%,同时提升Token使用效率25%。这两个版本均已部署至火山方舟平台,开发者可通过标准化接口快速调用模型能力。此次升级特别强化了Agent协同与深度搜索功能,支持多智能体动态调度,可构建更复杂的任务处理流程。















