设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

给大模型“定规矩”,FlagSafe大模型安全平台发布

发布时间: 2026-05-13 12:07:23 来源: 北京日报客户端

随着大模型从虚拟对话加速迈向物理世界,人工智能时代的复合型安全风险日益凸显。5月9日,北京智源人工智能研究院宣布联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等国内知名机构,发布FlagSafe大模型安全平台,构建覆盖风险发现、防御治理与机理解释的高标准安全平台。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,大模型正加速从虚拟对话迈向物理世界,随之而来的跨模态、跨场景复合风险日益严峻。面对模型内在欺骗、具身智能失控、多模态恶意对齐等层出不穷的前沿威胁,传统安全能力往往局限于单一模态、单一视域或单一防护环节,难以应对复合型风险。FlagSafe以“全面安全”为核心目标,致力于为行业提供一套“评估、防御、可解释”相结合的大模型安全资源池与评测体系。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI安全治理的首要任务在于确立明确的系统行为边界。基于《北京 AI 安全国际共识》,FlagSafe平台确立了五项安全红线:防范未经人类批准的自主复制或改进;禁止通过不当手段获取权力与影响力;严禁协助设计大规模杀伤性武器;禁止自主发动破坏性网络攻击;防范系统对监管者的欺骗与误导。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

围绕这些规范,平台目前已联合多家顶尖科研机构,初步构建了涵盖三大维度的安全能力矩阵:红队演练负责主动发现风险,扮演“自动化压力测试”角色;蓝队防御负责构建系统防线,将安全准则转化为防护能力;白盒透视负责解释与修正风险根因,聚焦模型内部机理与数据来源。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

例如在红队演练中,当模型具备更强推理和规划能力后,可能出现表面遵循要求、内部隐藏真实意图,或在回答、计划和执行之间表现不一致的风险。智源研究院联合北京大学、北京邮电大学何召锋教授团队研发并接入的大模型策略性欺骗检测平台,通过静态基准与动态对抗相结合的方式,评估模型在文本、多模态和智能体场景中的一致性、诚实性与可控性。由此,FlagSafe 将风险发现从模型输出扩展到模型行动和策略行为,让风险在可控环境中提前暴露。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在应用治理方面,智源研究院联合中国科学院计算技术研究所许倩倩老师团队研发的动态可信网络空间风险内容监测系统,是FlagSafe 蓝队能力的重要落地场景。随着AIGC降低内容生产和传播门槛,违法违规、虚假误导、极端偏激等风险内容呈现规模化、隐蔽化和快速扩散趋势。该系统通过“大小模型协同、有效域感知、事件演化追踪、数据飞轮优化”的技术闭环,构建从海量内容筛查到动态风险事件研判的完整流程,将碎片化内容组织成可追踪、可解释、可处置的动态事件链。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“构建大模型时代的安全防线是一项长期的系统工程,期望以此平台为枢纽,构建“前沿研究 - 工具平台 - 产业应用”的良性闭环。我们诚挚邀请更广泛的学术界与产业界伙伴加入,协同推进大模型安全技术的创新与标准建设,共同为人工智能技术的高质量、可信赖发展保驾护航。”智源研究院相关负责人表示。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

随着大模型从虚拟对话加速迈向物理世界,人工智能时代的复合型安全风险日益凸显。5月9日,北京智源人工智能研究院宣布联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等国内知名机构,发布FlagSafe大模型安全平台,构建覆盖风险发现、防御治理与机理解释的高标准安全平台。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,大模型正加速从虚拟对话迈向物理世界,随之而来的跨模态、跨场景复合风险日益严峻。面对模型内在欺骗、具身智能失控、多模态恶意对齐等层出不穷的前沿威胁,传统安全能力往往局限于单一模态、单一视域或单一防护环节,难以应对复合型风险。FlagSafe以“全面安全”为核心目标,致力于为行业提供一套“评估、防御、可解释”相结合的大模型安全资源池与评测体系。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI安全治理的首要任务在于确立明确的系统行为边界。基于《北京 AI 安全国际共识》,FlagSafe平台确立了五项安全红线:防范未经人类批准的自主复制或改进;禁止通过不当手段获取权力与影响力;严禁协助设计大规模杀伤性武器;禁止自主发动破坏性网络攻击;防范系统对监管者的欺骗与误导。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

围绕这些规范,平台目前已联合多家顶尖科研机构,初步构建了涵盖三大维度的安全能力矩阵:红队演练负责主动发现风险,扮演“自动化压力测试”角色;蓝队防御负责构建系统防线,将安全准则转化为防护能力;白盒透视负责解释与修正风险根因,聚焦模型内部机理与数据来源。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

例如在红队演练中,当模型具备更强推理和规划能力后,可能出现表面遵循要求、内部隐藏真实意图,或在回答、计划和执行之间表现不一致的风险。智源研究院联合北京大学、北京邮电大学何召锋教授团队研发并接入的大模型策略性欺骗检测平台,通过静态基准与动态对抗相结合的方式,评估模型在文本、多模态和智能体场景中的一致性、诚实性与可控性。由此,FlagSafe 将风险发现从模型输出扩展到模型行动和策略行为,让风险在可控环境中提前暴露。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在应用治理方面,智源研究院联合中国科学院计算技术研究所许倩倩老师团队研发的动态可信网络空间风险内容监测系统,是FlagSafe 蓝队能力的重要落地场景。随着AIGC降低内容生产和传播门槛,违法违规、虚假误导、极端偏激等风险内容呈现规模化、隐蔽化和快速扩散趋势。该系统通过“大小模型协同、有效域感知、事件演化追踪、数据飞轮优化”的技术闭环,构建从海量内容筛查到动态风险事件研判的完整流程,将碎片化内容组织成可追踪、可解释、可处置的动态事件链。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“构建大模型时代的安全防线是一项长期的系统工程,期望以此平台为枢纽,构建“前沿研究 - 工具平台 - 产业应用”的良性闭环。我们诚挚邀请更广泛的学术界与产业界伙伴加入,协同推进大模型安全技术的创新与标准建设,共同为人工智能技术的高质量、可信赖发展保驾护航。”智源研究院相关负责人表示。K7a速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

英国《自然》周刊网站3月12日刊登题为《OpenAI的文生视频工具Sora会如何改变科学——以及社会》的文章,作者为乔纳森·奥卡拉汉,内容编译如下:美国开放人工智能研究中心(OpenAI 日本《朝日新闻》近日发表题为《深海之光——极端环境是创意宝库》的文章,作者是樱井林太郎,编译如下:在被称为最后未开垦地的深海,有着低温、高压、黑暗等极限环境。能否从这些极限环 英国科学家首次创造了一个新颖的实验平台,即“量子龙卷风”。它能模拟超流体氦中的黑洞,使研究人员能更详细地观察类似黑洞的行为以及与周围环境的相互作用。通过对超流体氦表面微波动力学的观 记者3月21日获悉,由中国科学院自动化研究所和中国科学院香港创新研究院联合研发的医疗领域AI多模态大模型——CARES Copilot 1.0日前在香港正式发布,现已面向香港神经外科医生开放使 3月23日消息,据媒体报道,iPhone与百度公司已达成合作协议,百度将为苹果内置的生成式人工智能大模型提供技术支持。报道指出,iPhone生成式人工智能大模型的合作伙伴包含谷歌、百度、OpenAI等公司。国 3月25日消息,国内一场经济高峰论坛上,iPhone总裁蒂姆·库克再次成为焦点。然而,引起人们关注的并非库克的讲话内容,而是一张自拍照片。在论坛现场,一位观众与库克自拍合影,但引人注目的是她手中 。

本文链接:给大模型“定规矩”,FlagSafe大模型安全平台发布http://www.sushuapos.com/show-2-16232-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 人工智能终端迎来“体检表”

下一篇: 科研成果要走出书斋闯市场

热门资讯

  • 数字化管理已在故宫广泛应用

    在今天的故宫,工作人员使用的数字化办公平台名叫“内务辅”,这款应用的开发者,是与故宫博物院合作的钉钉(中国)信息技术有限公司(以下简称“钉钉”)。3月1

  • 我科学家发现的两种新矿物获国际认定

    记者19日从西北大学获悉,该校地质学系、大陆动力学国家重点实验室刘鹏副教授与中国地质大学(北京)李国武教授团队申请的两种新矿物,近日经国际矿物学学

  • 马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI

      马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI  《科创板日报》3月18日讯(编辑 宋子乔) 似乎是为了表明自己始终坚持对AI模型开源,马斯克做出了与阿尔特曼全然

  • 人工智能探究癌症发展机理

    据英国《金融时报》网站3月13日报道,科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”,并开发一种可能很强大的癌症检测、监测和治疗新

  • 英伟达发布AI“超级芯片” 自称“非常、非常强大”

    据法新社3月18日报道,周一,美国半导体巨头英伟达公司发布了其最新型号的电子芯片,这些芯片旨在支持人工智能(AI)革命,英伟达正努力巩固其作为人工智能领

  • 新疆筹建国家级融合算力中心

    记者从近日举办的新疆筹建融合算力中心研讨会上获悉,新疆将构建具备国家级算力水平的涵盖超算、智算的融合算力中心。到2024年底,建成超算算力(FP64)不

  • 光储行业迎来2000V新时代

    3月21日,由安徽省工业和信息化厅指导、中国光伏行业协会主办、阳光电源股份有限公司承办的“PAT2024爱光伏一生一世”先进技术研讨会在合肥举办。光

  • AI伴侣能否带来亲密关系

    自2023年以来,人工智能的“触角”已延伸到生活的方方面面。其中,“人工智能+情感”的赛道正悄然崛起。目前,国内外已经出现了多款较为成熟的AI伴侣应

  • 2999元!卢伟冰:xiaomiCivi 4 Pro可能是2024年最轻薄的电话

    3月22日消息,xiaomi集团的卢伟冰在微博上表示,xiaomiCivi 4 Pro有可能是2024年最轻薄的电话。这款电话的厚度仅为7.45mm,重量为179.3g。尽管拥有超轻薄的

  • 2999元!xiaomiCivi 4 Pro供不应求:春野绿配色好多门店缺货

    3月22日消息,xiaomi集团的许斐在微博上表示,xiaomiCivi 4 Pro的预售业绩远超预期,尤其是春野绿配色,许多门店都出现了缺货情况。据了解,xiaomiCivi 4 Pro的

  • 电子导盲犬可能要来了!相关研究在我国取得新突破

    “啪嗒啪嗒......”一只机器狗在街上迈着规律的步伐,拉着牵引绳的盲人,在它的带领下越过沿路障碍,平稳地行走着,电子导盲犬能否取代传统导盲犬,解决视障

  • 中广核:用创新技术提升核电站“智”力

    在近日开幕的中国国际核工业展览会上,中国核学会理事会党委书记、理事长王寿君表示,中国内地现有在运核电机组55台、居全球第三;在建核电机组26台,保持

推荐资讯

  • 日榜
  • 周榜
  • 月榜