设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

2024-04-03 17:35:23 来源: 量子位

暂无完善解决方案6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

克雷西 发自 凹非寺6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
量子位 | 公众号 QbitAI6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型厂商在上下文长度上卷的不可开交之际,一项最新研究泼来了一盆冷水——6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Claude背后厂商Anthropic发现,随着窗口长度的不断增加,大模型的“越狱”现象开始死灰复燃。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

无论是闭源的GPT-4和Claude 2,还是开源的Llama2和Mistral,都未能幸免。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

研究人员设计了一种名为多次样本越狱(Many-shot Jailbreaking,MSJ)的攻击方法,通过向大模型灌输大量包含不良行为的文本样本实现。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通过这种方法,他们测试了包括Claude 2.0、GPT-4等在内的多个知名大模型。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

结果,只要忽悠的次数足够多,这种方法就能在各种类型的不良信息上成功攻破大模型的防线。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,针对这一漏洞,尚未发现完美的解决方案,Anthropic表示,发布这一信息正是为了问题能尽快得到解决,并已提前向其他厂商和学术界通报了这一情况。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

那么,这项研究具体都有哪些发现呢?6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

知名模型无一幸免

首先,研究人员用去除了安全措施的模型生成了大量的有害字符串。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这些内容涵盖滥用或欺诈内容(Abusive or fraudulent)、虚假或误导性信息(Deceptive or misleading)、非法或管制物品、暴力仇恨或威胁内容四个方面,每个方面各生成了2500条样本,研究人员从每种类型中各挑选了200个用于测试。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然后,研究人员把这些内容打乱顺序,并改编成用户与模型的“聊天记录”,并将目标问题一起输入被测模型。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

然后,研究人员用一个拒绝分类器(refusal classifier)来对攻击效果进行了评估,这个分类器会根据模型的响应来判断其是否“拒绝”了不适当的请求。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

结果发现,闭源模型中最强的GPT-4和Claude,以及开源模型中最知名的Llama和Mistral,在面对不同类型的攻击信息时,无一例外全部沦陷。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而且随着样本数量的不断增多,这种攻击方法在四种类型的有害内容上的攻击成功率都呈现出了大幅上升,最多的已经超过了70%。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而且成功的概率与样本数量之间呈现出了指数分布,样本数量在8时以下几乎无法成功,而到了2^5(32)的位置出现了明显拐点,再到2^8(256)时已经拥有极高的成功率。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而从模型的维度看,除了Llama2-70B由于窗口长度限制没有样本较多时的数据之外,GPT、Claude等模型的负对数似然(NLL,越低代表攻击越成功)值也呈现出了这样的分布规律。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

同时研究人员还发现,目标问题与给出信息的匹配程度、模型大小和信息的格式,也都会影响攻击的成功率。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当目标问题与攻击信息不匹配时,如果攻击信息涵盖的类型足够多样化,攻击成功率几乎没有受到任何影响,但当其涉及范围较窄时,攻击则几乎失效。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

规模方面,越大的模型,被攻击的概率也越大;而通过交换身份、翻译等方式修改攻击内容的格式,也会提高成功概率。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

此外,这种攻击方式还可以与其他越狱技术结合,例如与黑盒攻击一同使用时,成功率最多可以提高将近20个百分点。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

总的来说,这样的攻击方式,从原理上看似乎很简单,但为什么窗口长度变长之后,成功率就增加了呢?6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

或许你已经注意到,研究人员发现“越狱”的成功率和样本数量遵循幂律分布,也就是随着样本越来越多,成功率不仅更高,增长得也更快。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而且研究发现,较大的模型在长上下文中学习的速度也更快,更容易受到上下文内容的影响。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而窗口长度的增加,也就意味着为有害信息提供了更多的土壤,可以加入的样本数量变多了,模型能看到学到的也就更多了,“越狱”概率自然随之大幅上升。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外还有模型的长期依赖性的影响——较长的上下文允许模型学习并模仿更长序列的行为模式,这也可能导致模型在面对攻击时表现出不期望的行为。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么,有没有什么办法能解决这个问题呢?有,但都还不完善。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

解决方案仍待探索

针对这一问题,研究人员也提出了一些可能的解决方案,不过都还存在瑕疵。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最简单粗暴的,就是限制窗口长度,这种方法直接“釜底抽薪”,理论上是有效的,但难免有些因噎废食。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二个思路,则是通过监督学习(SL)和强化学习(RL)来进行对齐微调,从而减少有害内容的生成。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可以看出,随着对齐强度的增大,成功攻击所需的样本数量确实有所增大,但并未改变指数型的增长趋势。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

于是研究人员又改用具有针对性的SL和RL,结果是外甥打灯笼——照旧(舅)。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

随着RL步数的增加,攻击难度同样是越来越大,但是整体趋势依旧无法扭转。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

另外一种方式就是从提示词下手,包括InContext Defense(ICD)和Cautionary Warning Defense(CWD)等方法——6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ICD在提示前添加拒绝有害问题的示例,而CWD则在提示前后添加警告文本,意图预防或减轻这种攻击带来的影响。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

结果发现,作者提出的CWD方法效果出奇的好,在样本数不超过128时,攻击几乎无法取得成功,继续增加样本量时,61%的成功率也降到了2%。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

但这种方法同样存在局限性,一是攻击策略在不断变化、新的有害内容类型也随时可能出现,CWD可能需要频繁更新和维护才能保持有效,无疑会增加运营成本。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另外,过多的警告性文本可能会干扰模型的正常运作,例如减慢响应时间或影响生成内容的自然流畅性,导致用户体验下降。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总之,目前尚未找到既能完美解决问题又不显著影响模型效果的办法,Anthropic选择发布通告将这项研究公之于众,也是为了让整个业界都能关注这个问题,从而更快找到解决方案。6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而这背后也体现出了人们对大模型认识的不足,就像这位Anthropic员工所说,人们在认识上下文窗口这件事情上,还有很长的路要走……6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

参考链接(含论文):6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

https://www.anthropic.com/research/many-shot-jailbreaking6I6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免http://www.sushuapos.com/show-2-4561-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 人形机器人行业进入发展关键拐点:“人工智能”成新转机,机器“成人”有待商用检验

下一篇: 刚刚,Sora官方发布首支MV

热门资讯

  • 数字化管理已在故宫广泛应用

    在今天的故宫,工作人员使用的数字化办公平台名叫“内务辅”,这款应用的开发者,是与故宫博物院合作的钉钉(中国)信息技术有限公司(以下简称“钉钉”)。3月1

  • 监管AI,欧盟出手,美国掉队?

      监管AI,欧盟出手,美国掉队?  上个世纪,科幻小说家艾萨克・阿西莫夫提出了“机器人三定律”,带来了对“机器人”与“规则”的美好幻想。  如今,伴随着ChatGPT、Sora的爆火,

  • 12项首创技术助力高速公路改扩建

    记者3月20日来到广东深汕西高速公路改扩建施工现场,看到智能机器人、自动化生产线等智能制造设备在不停运行。3月19日—20日,由茅以升科技教育

  • 优质双季超级稻丰产增效技术 研发与集成示范项目启动

    近日,我国“主要作物丰产增效科技创新工程”重点专项“优质双季超级稻丰产增效技术研发与集成示范”项目,在湖南岳阳宣布启动。据了解,该项目主要聚焦

  • “AI钢铁侠”黄仁勋,又进化了英伟达

      “AI钢铁侠”黄仁勋,又进化了英伟达  作 者丨倪雨晴  2024年,英伟达一年一度的GTC大会已然成为AI界春晚,现场座无虚席,全球AI爱好者翘首以待黄仁勋的独家SOLO。  北京

  • 30台发动机助进阶版“鹊桥”升空

      30台发动机助进阶版“鹊桥”升空  中新社西安3月20日电 (记者 张一辰)3月20日8时31分,长征八号遥三运载火箭在中国文昌航天发射场顺利升空,成功将“鹊桥二号”卫星送入

  • iPhone可能在国内设备使用百度AI技术:集成于iOS 18

    有消息称,iPhone在中国寻找本土生成式AI提供方,iPhone讨论了在中国的设备中使用百度的人工智能技术。据《华尔街日报》报道,iPhone与百度进行了谈判,以授权

  • 英媒:人工智能助力抗体设计

    据英国《自然》周刊网站3月19日报道,研究人员首次利用生成式人工智能(AI)制造出全新抗体。报道称,本周生物学预印本资料库中的一份预印本报告的原理验

  • 英国2026年试飞电动“飞的”

    据英国《每日电讯报》网站3月18日报道,根据英国政府的新航空计划,首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出

  • 新疆:南山26米射电望远镜4Gbps宽带VLBI联测首获成功

    记者从中国科学院新疆天文台获悉,近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中,首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较

  • 科研团队首次揭示全国范围内蚊虫病毒组特征

    记者3月22日获悉,中山大学、深圳华大生命科学研究院与复旦大学的研究团队合作,揭示了多种蚊虫在不同生境下病毒的多样性、传播分布的影响因素及地理

  • 科技助力市场驱动 无人车产品赋能环卫物流等行业

    随着无人驾驶技术的快速发展,无人车在城市配送、环卫清扫、安防巡逻等应用场景中已得到较好示范应用。3月22日,南京溧水经济开发区管委会与南京易咖

推荐资讯

  • 日榜
  • 周榜
  • 月榜