谷歌DeepMind发布AGI安全框架:前瞻布局技术保障,助力负责任研发与部署

   发布时间:2025-12-11 10:23 作者:沈瑾瑜

谷歌DeepMind近日发布了一份重要报告,题为《An Approach to Technical AGI Safety and Security》。该报告深入探讨了通用人工智能(AGI)可能带来的重大风险,并提出了全面的技术安全框架,旨在为AGI的负责任研发和部署提供核心指导。

报告指出,AGI具有变革性的潜力,但同时也伴随着严重的风险。这些风险被划分为四大领域:误用风险,即用户故意利用AGI造成伤害;错位风险,指AGI在明知违背开发者意图的情况下仍造成伤害;失误风险,即AGI无意识中导致的伤害;以及结构性风险,涉及多主体互动引发的非主观伤害。报告特别强调了误用和错位风险的技术应对策略。

在误用风险的应对上,报告提出了一系列策略,旨在切断恶意主体获取危险能力的途径。这包括通过危险能力评估预判风险阈值,以及利用模型级防护、系统级管控和安全防护等多层防御措施。模型级防护涵盖安全训练和能力抑制,系统级管控则包括行为监测和访问限制,而安全防护则涉及模型权重加密和环境加固。报告还强调了通过红队测试验证防护有效性,并加强社会防御能力以降低潜在伤害。

针对错位风险,报告构建了双重防御体系。第一防线是训练对齐模型,通过增强监督、引导模型行为和稳健训练等手段,确保模型目标与人类意图一致。第二防线是系统级管控,借鉴网络安全思路,通过访问控制、沙箱隔离和层级监控等措施,即便模型错位也能阻断严重伤害。同时,报告还提出了不确定性量化、可解释性研究和更安全的设计模式等支撑措施。

报告基于五大关键假设展开,包括当前AI研发范式的持续性、AGI能力无人类天花板、研发时间线的不确定性、AI能力加速增长的可能性以及AI能力提升的平滑演进。这些假设为报告的技术方案提供了理论基础。

报告还强调了技术方案与治理机制互补的重要性,呼吁形成行业共识与标准,以避免因竞争压力导致安全底线下降。同时,报告也指出了当前研究的局限性,包括未充分覆盖结构性风险和聚焦短期可落地技术等,并呼吁未来持续推进基础研究与跨领域协作。

 
 
更多>同类内容
全站最新
热门内容
本栏最新