生成式AI“幻觉”困境如何破解

发布时间: 2025-02-05 15:38:45 来源：中国科技网

观看：135

人工智能（AI）技术正以前所未有的速度发展，生成式AI凭借其惊人的创造力，不断刷新人们的认知。然而，即便是看似“聪明绝顶”的AI，也难逃“幻觉”的困扰。这里的“幻觉”，指的是AI生成看似合理但实际不准确或虚假的信息。

英国《自然》杂志网站在1月22日的报道中指出，AI“幻觉”可能会引发严重后果，科学家正各出奇招，力求降低其发生率。这些措施包括增加事实核查、对AI进行“脑部扫描”等，以促进AI的健康、高效发展。

主因是数据模糊

各种生成式AI，包括由大语言模型驱动的聊天机器人，常常会编造信息。它们有时会模糊事实与虚构，在看似真实的陈述中夹杂错误信息。这既是其创造力的体现，也是其不足之处。

美国佐治亚理工学院理论计算机科学家桑托什·威姆帕拉解释称，大语言模型的设计原理并非输出准确事实，而是通过模式识别生成答案。其内部复杂的运行机制迄今仍像一个“黑匣子”，人们难以洞悉其推理过程。

美国加州Vectara公司旨在减少生成式AI的“幻觉”。其联合创始人阿姆尔·阿瓦达拉表示，在训练过程中，这些模型会压缩数万亿个单词间的关系，随后通过一个庞大的网络模型重新展开这些信息。尽管这些模型能够重构出接近98%的训练内容，但剩下2%的内容却会让其“误入歧途”，生成不准确或虚假信息。

导致AI出现“幻觉”的原因多种多样，其中训练数据中的模糊性和错误是常见因素。也有人认为，即使训练数据准确无误，AI也有可能产生“幻觉”。这种现象与某一事实的稀缺程度密切相关。因此，即使经过人类反馈调整过的聊天机器人，也无法完全避免出错。

多领域面临考验

AI的“幻觉”可能会给人们的工作和生活带来较大影响。

在新闻领域，大语言模型可能生成虚假新闻事件，扰乱信息传播秩序，误导公众认知。Vectara公司针对文档内容开展的研究表明，一些聊天机器人编造事实、虚构信息的几率高达30%。世界经济论坛发布的《2025年全球风险报告》显示，错误和虚假信息是2025年全球面临的五大风险之一。

在法律领域，它可能引用虚构的法律条文和案例。比如，2023年美国律师史蒂文·施瓦茨就因“轻信”ChatGPT，在法庭文件中引用了并不存在的法律案例。而在医学领域，它可能提供错误的诊断和治疗建议，危及患者生命。

《自然》在报道中指出，AI“幻觉”在科学参考文献方面出现错误的情况也极为普遍。2024年的一项研究发现，各类聊天机器人在提及参考文献时的出错率在30%至90%之间。它们至少会在论文标题、第一作者或发表年份上出现偏差。虽然聊天机器人都带有警告标签，提醒用户对重要信息进行二次核实。但如果用户对聊天机器人的回复深信不疑，可能会引发一系列问题。

多举措减少“幻觉”

为进一步提升AI的精确度，科学家正想方设法降低其“幻觉”。

例如，增加模型训练参数和训练时长可有效减少“幻觉”。但这种方法需要付出高昂的计算成本，并可能削弱聊天机器人的其他能力，如机器学习算法对未知数据的预测和处理能力。

此外，使用更大、更干净的数据集进行训练，也是降低AI模型“幻觉”出现的有效途径。然而，当前可用数据的有限性限制了这一方法的应用。

检索增强生成（RAG）技术也为减少AI“幻觉”提供了新思路。该方法通过让聊天机器人在回复问题前参考给定的可信文本，从而确保回复内容的真实性，以此减少“幻觉”的产生。在医疗和法律等需要严格遵循经过验证的知识的领域，RAG技术备受青睐。

不过，美国斯坦福大学计算机科学家米拉柯·苏兹根表示，尽管RAG能提升内容真实性，但其能力有限。苏兹根团队的研究表明，一些为法律研究开发的、号称“无幻觉”的RAG增强模型虽有所改进，但仍存在不足。

开发者也可以使用一个与AI训练方式不同的独立系统，通过网络搜索对聊天机器人的回复进行事实核查，谷歌的“双子星”系统便是一个典型例子。该系统提供了“双重核查响应”功能：内容如果突出显示为绿色，表示其已通过网络搜索验证；内容如果突出显示为棕色，则表示其为有争议或不确定的内容。但是，这种方法计算成本高昂且耗时，而且系统仍会产生“幻觉”，因为互联网上错误信息泛滥。

在去年6月出版的《自然》杂志上，英国牛津大学科学家刊发论文称，他们利用“语义熵”，通过概率来判断大语言模型是否出现了“幻觉”。语义熵是信息熵的一种，被用于量化物理系统中所包含的信息量。通过评估AI模型在特定提示词下生成内容的不确定性，来计算模型的困惑程度，从而为用户或模型提供警示，提醒其采取必要的循证措施，确保更准确的答案输出。

美国卡内基梅隆AI研究人员安迪·邹采用的方法是在大语言模型回答问题时，绘制其内部计算节点的激活模式。他形象地称之为“给AI做脑部扫描”。利用不同的计算节点活动模式，可以告诉我们AI模型是在“说真话”，还是在“胡说八道”。

人工智能（AI）技术正以前所未有的速度发展，生成式AI凭借其惊人的创造力，不断刷新人们的认知。然而，即便是看似“聪明绝顶”的AI，也难逃“幻觉”的困扰。这里的“幻觉”，指的是AI生成看似合理但实际不准确或虚假的信息。

英国《自然》杂志网站在1月22日的报道中指出，AI“幻觉”可能会引发严重后果，科学家正各出奇招，力求降低其发生率。这些措施包括增加事实核查、对AI进行“脑部扫描”等，以促进AI的健康、高效发展。

主因是数据模糊

各种生成式AI，包括由大语言模型驱动的聊天机器人，常常会编造信息。它们有时会模糊事实与虚构，在看似真实的陈述中夹杂错误信息。这既是其创造力的体现，也是其不足之处。

美国佐治亚理工学院理论计算机科学家桑托什·威姆帕拉解释称，大语言模型的设计原理并非输出准确事实，而是通过模式识别生成答案。其内部复杂的运行机制迄今仍像一个“黑匣子”，人们难以洞悉其推理过程。

美国加州Vectara公司旨在减少生成式AI的“幻觉”。其联合创始人阿姆尔·阿瓦达拉表示，在训练过程中，这些模型会压缩数万亿个单词间的关系，随后通过一个庞大的网络模型重新展开这些信息。尽管这些模型能够重构出接近98%的训练内容，但剩下2%的内容却会让其“误入歧途”，生成不准确或虚假信息。

导致AI出现“幻觉”的原因多种多样，其中训练数据中的模糊性和错误是常见因素。也有人认为，即使训练数据准确无误，AI也有可能产生“幻觉”。这种现象与某一事实的稀缺程度密切相关。因此，即使经过人类反馈调整过的聊天机器人，也无法完全避免出错。

多领域面临考验

AI的“幻觉”可能会给人们的工作和生活带来较大影响。

在新闻领域，大语言模型可能生成虚假新闻事件，扰乱信息传播秩序，误导公众认知。Vectara公司针对文档内容开展的研究表明，一些聊天机器人编造事实、虚构信息的几率高达30%。世界经济论坛发布的《2025年全球风险报告》显示，错误和虚假信息是2025年全球面临的五大风险之一。

在法律领域，它可能引用虚构的法律条文和案例。比如，2023年美国律师史蒂文·施瓦茨就因“轻信”ChatGPT，在法庭文件中引用了并不存在的法律案例。而在医学领域，它可能提供错误的诊断和治疗建议，危及患者生命。

《自然》在报道中指出，AI“幻觉”在科学参考文献方面出现错误的情况也极为普遍。2024年的一项研究发现，各类聊天机器人在提及参考文献时的出错率在30%至90%之间。它们至少会在论文标题、第一作者或发表年份上出现偏差。虽然聊天机器人都带有警告标签，提醒用户对重要信息进行二次核实。但如果用户对聊天机器人的回复深信不疑，可能会引发一系列问题。

多举措减少“幻觉”

为进一步提升AI的精确度，科学家正想方设法降低其“幻觉”。

例如，增加模型训练参数和训练时长可有效减少“幻觉”。但这种方法需要付出高昂的计算成本，并可能削弱聊天机器人的其他能力，如机器学习算法对未知数据的预测和处理能力。

此外，使用更大、更干净的数据集进行训练，也是降低AI模型“幻觉”出现的有效途径。然而，当前可用数据的有限性限制了这一方法的应用。

检索增强生成（RAG）技术也为减少AI“幻觉”提供了新思路。该方法通过让聊天机器人在回复问题前参考给定的可信文本，从而确保回复内容的真实性，以此减少“幻觉”的产生。在医疗和法律等需要严格遵循经过验证的知识的领域，RAG技术备受青睐。

不过，美国斯坦福大学计算机科学家米拉柯·苏兹根表示，尽管RAG能提升内容真实性，但其能力有限。苏兹根团队的研究表明，一些为法律研究开发的、号称“无幻觉”的RAG增强模型虽有所改进，但仍存在不足。

开发者也可以使用一个与AI训练方式不同的独立系统，通过网络搜索对聊天机器人的回复进行事实核查，谷歌的“双子星”系统便是一个典型例子。该系统提供了“双重核查响应”功能：内容如果突出显示为绿色，表示其已通过网络搜索验证；内容如果突出显示为棕色，则表示其为有争议或不确定的内容。但是，这种方法计算成本高昂且耗时，而且系统仍会产生“幻觉”，因为互联网上错误信息泛滥。

在去年6月出版的《自然》杂志上，英国牛津大学科学家刊发论文称，他们利用“语义熵”，通过概率来判断大语言模型是否出现了“幻觉”。语义熵是信息熵的一种，被用于量化物理系统中所包含的信息量。通过评估AI模型在特定提示词下生成内容的不确定性，来计算模型的困惑程度，从而为用户或模型提供警示，提醒其采取必要的循证措施，确保更准确的答案输出。

美国卡内基梅隆AI研究人员安迪·邹采用的方法是在大语言模型回答问题时，绘制其内部计算节点的激活模式。他形象地称之为“给AI做脑部扫描”。利用不同的计算节点活动模式，可以告诉我们AI模型是在“说真话”，还是在“胡说八道”。

随着历史的车轮驶入2024年，大模型、AIGC等话题引发广泛热议，云计算与AI技术展现出了前所未有的深度融合趋势，就如同寒武纪的生物大爆发，激发着各行各业的创新浪潮。新质生产力时代到来，政企用云进患者只需吸入特制的“氙气”，3.5秒后一幅人体肺部磁共振3D影像就呈现出来。影像中，气体可抵达肺部的位置清晰可见，患者的肺部微结构、气体交换功能情况等一目了然。日前，中国科学院精密测量科学据阿根廷布宜诺斯艾利斯经济新闻网报道，一项国际研究发现，阿尔茨海默病的早期症状可能表现在视力上。研究显示，即便眼科检查结果正常，但阅读、估计距离和触及物体的困难都是可能揭示阿尔茨海默病荷兰阿姆斯特丹大学医学院科学家开展的一项新研究证明，利用最新CRISPR-Cas基因编辑技术，能消除实验室中受感染细胞内所有艾滋病病毒（HIV）的痕迹，为治愈该病带来新希望。相关研究论文将提交于4月27 近日，美国纽约州立大学石溪分校科学家菲格罗阿等人在一篇发表于《自然·量子信息》上的论文中称，他们通过把两个独立的光子存储在铷气里，首次在室温条件下构建了一个量子存储器网络。鉴于据英国《每日电讯报》网站3月18日报道，根据英国政府的新航空计划，首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出租车在2030年广泛使用铺平道路。尽管在最初。

本文链接：生成式AI“幻觉”困境如何破解http://www.sushuapos.com/show-2-10430-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：标记速度、均匀性和多功能性超出以往，新技术可高效标记细胞蛋白质

下一篇：顶夸克遵循狭义相对论通过最强测验

生成式AI“幻觉”困境如何破解

热门资讯

推荐资讯

科技最热文章