灵御人工智能大模型安全攻防评估平台发布

发布时间: 2025-06-10 09:18:46 来源：中国科学报

观看：138

近日，2025全球数字经济大会数字安全主论坛暨2025北京网络安全大会在京召开。会上，灵御(PandaGuard)大模型安全攻防评估平台正式发布，该平台创新性地采用多智能体系统建模方法对越狱攻击进行系统性评估。该框架在现有研究基础上实现了重要突破，为构建安全可控的人工智能生态提供了重要保障。

北京前瞻人工智能安全与治理研究院院长、人工智能安全与超级对齐北京市重点实验室主任、中国科学院自动化研究所人工智能伦理与治理中心主任曾毅介绍，灵御平台通过将大语言模型越狱安全概念化为多智能体系统来解决这些挑战。在这个系统中，攻击者、防御者、目标模型和安全判断器相互作用。框架抽象并模块化了每个组件，支持即插即用的实验，包含19种攻击算法、12种防御机制和多种判断策略，对49个开源和闭源大语言模型安全性进行了系统化评估。

“灵御平台的这种设计促进了可控的、可重现的评估，并使得能够对模型安全中的跨组件权衡进行深度分析。”曾毅表示，平台实践证明，世界上提出的所有安全护栏没有一个可以防护住所有的攻击算法，也没有一个攻击算法可以突破所有的安全护栏，“在人工智能安全防护领域还有很长的路要走。”

研究发现，不同时间发布的人工智能大模型并没有随着模型能力的提升而同时获得模型的安全性，近期发布的国内外能力更强大的人工智能模型安全性并没有展现出显著的优势，“一些较新的模型在某些安全指标上可能不如早期版本，这揭示了一个重要事实，即安全性能的提升需要专门的优化投入，而不是模型能力提高的自然副产品。”曾毅说。

曾毅表示：“现在国内外没有一个绝对安全的人工智能大模型，但通过类似灵御平台这样的AI安全护栏加固，每一个大模型都可以做到更安全。”

目前，灵御人工智能安全攻防平台的核心框架已开源开放，研究团队发布了完整的代码、配置和评估结果，以支持大语言模型安全领域的透明和可重现研究。

“安全与治理是人工智能的核心能力，将加速人工智能稳健发展与应用。我们的前沿研究表明，如果把安全与模型能力比作鱼与熊掌，实则可以兼得。没有安全治理框架的人工智能不仅是没有‘刹车’，更是没有‘方向盘’。”曾毅说。

2019年，我国新能源汽车产销量刚刚迈过100万辆的关口不久，当时市场渗透率约为5%。之后的5年时间，我国新能源汽车的发展 ·“由于猫只在很短的时间内排出生物体，因此人类通过与它们一起生活的猫接触而感染弓形虫的机会相对较小。也就是近日，“张雪峰称文科都是服务业”这一词条引发网友关注与热议。此前，“考研名师”张雪峰还说过，即使把孩子打晕，也 12月18日晚，甘肃临夏州积石山县发生6.2级地震，震源深度10公里，已致多人遇难，部分水、电、交通、通讯等基础设施受损。应急管 12月18日，以“云智融合·共筑未来”为主题的首届龙蜥操作系统大会在北京举行。 “将云计算时代、大数据时代冰岛气象局当地时间12月30日说，雷克雅内斯半岛渔港小镇格林达维克附近一座火山的岩浆在地下岩浆通道内积聚，当地可能再。

本文链接：灵御人工智能大模型安全攻防评估平台发布http://www.sushuapos.com/show-11-21811-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：《中国菊科植物彩色图鉴》（上下卷）出版

下一篇：第七届下一代数据驱动网络国际学术会议举办

灵御人工智能大模型安全攻防评估平台发布

热门资讯

推荐资讯

科学最热文章