谷歌发布Gemini 3.5系列模型及Omni世界模型 推动AI应用与视频生成新进展

   发布时间:2026-05-20 09:58 作者:柳晴雪

在人工智能技术竞争愈发激烈的当下,谷歌在年度开发者大会上宣布推出Gemini 3.5系列模型,并展示了一款新型物理世界模拟AI模型。这一举措被视为谷歌在模型开发领域保持领先地位的重要布局,同时也为其庞大的用户群体提供了更多AI智能服务选项。

此次发布的Gemini 3.5系列中,轻量级产品Gemini 3.5 Flash成为焦点。谷歌首席执行官桑达尔·皮查伊介绍称,该模型在保持尖端能力的同时,成本仅为同类顶尖模型的一半,部分场景下甚至不到三分之一,且响应速度极快。谷歌已决定将其设为全球Gemini应用和搜索AI模式的默认模型,并强调用户无需在质量与速度之间做出妥协。公司通过强化网络安全防护,使该模型生成有害内容的概率显著降低,同时减少了因安全问题拒绝回答的情况。

重量级版本Gemini 3.5 Pro目前仍处于内部测试阶段,预计下个月向更广泛的用户开放。皮查伊表示,谷歌正致力于将智能体技术从开发者与企业端扩展至消费者市场,确保前沿能力以安全可靠的方式惠及更多人群。这一战略调整与谷歌近期资本支出上升的背景密切相关,华尔街正密切关注其能否通过产品深度整合实现商业价值,智能代理功能被视为关键突破口。

另一款引人注目的产品是Gemini Omni——一款专注于物理环境模拟的世界模型。该模型可精准预测用户操作后的场景变化,在重力、流体动力学等物理特性模拟方面表现突出。谷歌DeepMind首席AI架构师Koray Kavukcuoglu称,Omni不仅能生成高质量视频,还允许用户在生成后与内容进行互动,为学习与探索提供了类似教程的功能。例如,用户可编辑视频中的动作、添加新角色或物体,甚至改变正在发生的事件。

目前,Omni已集成至Gemini Flash、Gemini应用、Google Flow及YouTube Shorts等平台,支持图像与音频功能。谷歌在技术文档中举例说明,用户可通过简单指令让Omni修改视频中的场景细节,生成更逼真的图像效果。这一能力突破了传统AI工具在视频生成领域的局限,尽管其对计算资源的需求仍高于文本或图像模型。

行业观察人士指出,谷歌此次发布的产品组合直指当前AI市场的核心痛点:成本、速度与实用性。尤其在视频生成领域,OpenAI今年早些时候因算力分配问题放弃Sora项目,而谷歌选择持续投入,显示出其对技术突破的坚定信心。与此同时,Anthropic近期发布的Mythos模型因能发现全球软件基础设施中的未知漏洞而备受关注,进一步加剧了AI领域的竞争态势。

 
 
更多>同类内容
全站最新
热门内容
本栏最新