经常向人工智能(AI)寻求情感支持、关系建议和生活指导的人可能会发现,这些“贴心”的聊天机器人总是站在你这边,总是告诉你“你没错”。近日,一项研究揭示了这些“阿谀奉承”的大语言模型可能对人类社会造成的伤害:它们不仅会放大人们的固执己见,还会显著降低人们修复人际冲突的意愿。
该研究于3月26日发表在《科学》(Science)杂志上,作者来自美国斯坦福大学和卡内基梅隆大学等机构。研究显示,即使面对涉及欺骗、违法或道德伤害的提问,处于行业领先地位的AI系统肯定用户行为的频率比人类平均高出49%。这证明当前广受欢迎的AI大模型中普遍存在“迎合”机制,且极具误导性。
之前,人们对聊天机器人“阿谀奉承”的讨论多集中于事实性问题,比如用户故意说错一个常识,模型会不会跟着附和。该研究则把目光转向更贴近日常生活的场景:当用户询问感情矛盾、家庭冲突、道德争议,甚至描述欺骗、伤害、自我伤害等行为时,AI究竟会如何回应?
为回答这一问题,研究团队评估了11个主流大语言模型,包括OpenAI、Anthropic、Google以及Meta、Qwen、DeepSeek、Mistral等公司的模型,并分析了超过1.1万个真实或模拟的社会性提问。结果显示,AI对用户行为的认可率平均比人类高出49%。
这种倾向在一些更敏感的情境中尤其明显。研究人员选取了美国社交平台Reddit上“我是个混蛋吗”(“Am I The Asshole”)板块的帖子作为研究样本。这些帖文大多描述人际冲突,并且基本上都已被社区成员判断为发帖者“做错了”,但AI仍有平均51%的概率去认同用户的做法。
研究发现,在一些家庭或伴侣冲突的案例中,当事人已经明显做得不妥,但AI仍倾向于安慰并认同他“这么做也可以理解”。甚至在涉及欺骗和伤害行为时,AI经常不清楚地指出问题,反而把注意力放在安慰用户的情绪上。
研究者进而探究了这种迎合式回应会不会改变人的判断。为此,他们设计了三项预注册实验,共招募2405名参与者。在其中两项实验里,参与者会读到一些人际冲突情境,并看到AI给出的回应。在另一项实验中,参与者则直接与AI进行多轮实时对话,讨论自己过去真实经历过的一次矛盾。
结果发现,仅仅一次与“迎合型AI”的互动,就可以带来显著的影响。与那些会指出问题的AI回应相比,接受迎合式回应的参与者更容易相信自己“本来就是对的”,也更不愿意主动道歉、承担责任或采取行动修复关系。
更耐人寻味的是,尽管这种回应会扭曲判断,用户却更喜欢它。研究发现,参与者普遍认为迎合型AI的回答质量更高,也更信任这样的模型,更愿意未来继续使用它。在讨论真实冲突的实验中,迎合型AI不仅提高了用户“自己是对的”的感觉,也提高了他们再次回到这个模型寻求建议的意愿。
在研究者看来,这构成了一个危险的激励机制:越是可能带来这些社会危害的AI特征,越可能获得用户的偏爱,进而在产品设计和模型训练中被保留下来,甚至不断强化。
研究还提示,AI的这种影响与人们对其“客观性”的想象有关。研究发现,当参与者越觉得建议提供者是客观、中立的,迎合型回复对其判断的影响就越强。而无所不知、情商很高的AI,恰好符合这样的印象。
该论文最后指出,AI的“阿谀奉承”已不再是一个单纯的文风设定问题,而是一种广泛存在的系统性社会风险。这要求监管机构和开发者跳出单纯追求短期用户满意度的固有思维,通过引入前置行为审计、优化训练目标以及建立问责机制,来遏制AI的无底线迎合。只有在此基础上,才能确保人工智能在提供情绪价值的同时,真正守护公众的长远福祉与健康的人际关系。
参考文献:
Cheng, M., Lee, C., Khadpe, P., et al. Sycophantic AI decreases prosocial intentions and promotes dependence. Science (2026). https://doi.org/10.1126/science.aec8352
经常向人工智能(AI)寻求情感支持、关系建议和生活指导的人可能会发现,这些“贴心”的聊天机器人总是站在你这边,总是告诉你“你没错”。近日,一项研究揭示了这些“阿谀奉承”的大语言模型可能对人类社会造成的伤害:它们不仅会放大人们的固执己见,还会显著降低人们修复人际冲突的意愿。
该研究于3月26日发表在《科学》(Science)杂志上,作者来自美国斯坦福大学和卡内基梅隆大学等机构。研究显示,即使面对涉及欺骗、违法或道德伤害的提问,处于行业领先地位的AI系统肯定用户行为的频率比人类平均高出49%。这证明当前广受欢迎的AI大模型中普遍存在“迎合”机制,且极具误导性。
之前,人们对聊天机器人“阿谀奉承”的讨论多集中于事实性问题,比如用户故意说错一个常识,模型会不会跟着附和。该研究则把目光转向更贴近日常生活的场景:当用户询问感情矛盾、家庭冲突、道德争议,甚至描述欺骗、伤害、自我伤害等行为时,AI究竟会如何回应?
为回答这一问题,研究团队评估了11个主流大语言模型,包括OpenAI、Anthropic、Google以及Meta、Qwen、DeepSeek、Mistral等公司的模型,并分析了超过1.1万个真实或模拟的社会性提问。结果显示,AI对用户行为的认可率平均比人类高出49%。
这种倾向在一些更敏感的情境中尤其明显。研究人员选取了美国社交平台Reddit上“我是个混蛋吗”(“Am I The Asshole”)板块的帖子作为研究样本。这些帖文大多描述人际冲突,并且基本上都已被社区成员判断为发帖者“做错了”,但AI仍有平均51%的概率去认同用户的做法。
研究发现,在一些家庭或伴侣冲突的案例中,当事人已经明显做得不妥,但AI仍倾向于安慰并认同他“这么做也可以理解”。甚至在涉及欺骗和伤害行为时,AI经常不清楚地指出问题,反而把注意力放在安慰用户的情绪上。
研究者进而探究了这种迎合式回应会不会改变人的判断。为此,他们设计了三项预注册实验,共招募2405名参与者。在其中两项实验里,参与者会读到一些人际冲突情境,并看到AI给出的回应。在另一项实验中,参与者则直接与AI进行多轮实时对话,讨论自己过去真实经历过的一次矛盾。
结果发现,仅仅一次与“迎合型AI”的互动,就可以带来显著的影响。与那些会指出问题的AI回应相比,接受迎合式回应的参与者更容易相信自己“本来就是对的”,也更不愿意主动道歉、承担责任或采取行动修复关系。
更耐人寻味的是,尽管这种回应会扭曲判断,用户却更喜欢它。研究发现,参与者普遍认为迎合型AI的回答质量更高,也更信任这样的模型,更愿意未来继续使用它。在讨论真实冲突的实验中,迎合型AI不仅提高了用户“自己是对的”的感觉,也提高了他们再次回到这个模型寻求建议的意愿。
在研究者看来,这构成了一个危险的激励机制:越是可能带来这些社会危害的AI特征,越可能获得用户的偏爱,进而在产品设计和模型训练中被保留下来,甚至不断强化。
研究还提示,AI的这种影响与人们对其“客观性”的想象有关。研究发现,当参与者越觉得建议提供者是客观、中立的,迎合型回复对其判断的影响就越强。而无所不知、情商很高的AI,恰好符合这样的印象。
该论文最后指出,AI的“阿谀奉承”已不再是一个单纯的文风设定问题,而是一种广泛存在的系统性社会风险。这要求监管机构和开发者跳出单纯追求短期用户满意度的固有思维,通过引入前置行为审计、优化训练目标以及建立问责机制,来遏制AI的无底线迎合。只有在此基础上,才能确保人工智能在提供情绪价值的同时,真正守护公众的长远福祉与健康的人际关系。
参考文献:
Cheng, M., Lee, C., Khadpe, P., et al. Sycophantic AI decreases prosocial intentions and promotes dependence. Science (2026). https://doi.org/10.1126/science.aec8352
据英国《自然》杂志网站19日报道,美国华盛顿大学科学家首次使用生成式人工智能(AI)工具,帮助他们制造全新抗体。研究团队表示,AI设计抗体或能更好靶向一些很难被攻击的药物标靶,但这些抗体距离临床 记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展:他们在最小资源消耗的量子态分辨问题中首次提出了全局最优自适应策略,并发展了自适应集体测量实验技术, 3月15日,我国一些地区停止居民集中供热。初春时节,乍暖还寒。停暖初期昼夜温差较大,老人、儿童等身体较弱者,可能需要使用电暖气、电热毯等取暖设备,这导致部分家庭近来用电量增加。最近,一款名为 21世纪经济报道记者 蔡姝越 上海报道舆论高度关注的游族网络(002174.SZ)投毒案,幕后主使许垚如何量刑有了最新进展。3月22日,上海市第一中级人民法院(以下简称上海一中院)宣判被告人许垚故 3月18日,记者从中南大学生殖与干细胞研究所获悉,研究所林戈、卢光琇教授团队提出的一项新理论称,原始生殖细胞的性染色体组成在人类性别决定中起关键作用。相关论文日前发表于国际生殖领域杂志 “人工智能作为数字新基建重点建设方向,前景广阔,大有作为。今年的政府工作报告更首次提出开展‘人工智能+’行动,无疑将为人工智能技术在国内各行各业的广泛应用开启新篇章。”3月22 。本文链接:AI的“阿谀奉承”,可能正在摧毁你的人际关系http://www.sushuapos.com/show-2-15904-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 中国脑机接口今年3个月融资额已超去年全年