设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

灵御人工智能大模型安全攻防评估平台发布

2025-06-10 09:18:46 来源: 中国科学报

 QrT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,2025全球数字经济大会数字安全主论坛暨2025北京网络安全大会在京召开。会上,灵御(PandaGuard)大模型安全攻防评估平台正式发布,该平台创新性地采用多智能体系统建模方法对越狱攻击进行系统性评估。该框架在现有研究基础上实现了重要突破,为构建安全可控的人工智能生态提供了重要保障。QrT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京前瞻人工智能安全与治理研究院院长、人工智能安全与超级对齐北京市重点实验室主任、中国科学院自动化研究所人工智能伦理与治理中心主任曾毅介绍,灵御平台通过将大语言模型越狱安全概念化为多智能体系统来解决这些挑战。在这个系统中,攻击者、防御者、目标模型和安全判断器相互作用。框架抽象并模块化了每个组件,支持即插即用的实验,包含19种攻击算法、12种防御机制和多种判断策略,对49个开源和闭源大语言模型安全性进行了系统化评估。QrT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“灵御平台的这种设计促进了可控的、可重现的评估,并使得能够对模型安全中的跨组件权衡进行深度分析。”曾毅表示,平台实践证明,世界上提出的所有安全护栏没有一个可以防护住所有的攻击算法,也没有一个攻击算法可以突破所有的安全护栏,“在人工智能安全防护领域还有很长的路要走。”QrT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

研究发现,不同时间发布的人工智能大模型并没有随着模型能力的提升而同时获得模型的安全性,近期发布的国内外能力更强大的人工智能模型安全性并没有展现出显著的优势,“一些较新的模型在某些安全指标上可能不如早期版本,这揭示了一个重要事实,即安全性能的提升需要专门的优化投入,而不是模型能力提高的自然副产品。”曾毅说。QrT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

曾毅表示:“现在国内外没有一个绝对安全的人工智能大模型,但通过类似灵御平台这样的AI安全护栏加固,每一个大模型都可以做到更安全。”QrT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,灵御人工智能安全攻防平台的核心框架已开源开放,研究团队发布了完整的代码、配置和评估结果,以支持大语言模型安全领域的透明和可重现研究。QrT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“安全与治理是人工智能的核心能力,将加速人工智能稳健发展与应用。我们的前沿研究表明,如果把安全与模型能力比作鱼与熊掌,实则可以兼得。没有安全治理框架的人工智能不仅是没有‘刹车’,更是没有‘方向盘’。”曾毅说。QrT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:灵御人工智能大模型安全攻防评估平台发布http://www.sushuapos.com/show-11-21811-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 《中国菊科植物彩色图鉴》(上下卷)出版

下一篇: 第七届下一代数据驱动网络国际学术会议举办

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜