大语言模型或无法可靠识别错误信念 最新研究提醒AI结果谨慎使用
中新网北京11月4日电 (记者 孙自法)施普林格・自然旗下专业学术期刊《自然-机器智能》最新发表一篇人工智能(AI)研究论文指出,人工智能大语言模型(LLM)可能无法可靠地识别用户的错误信念,这项研究发现凸显出在医学、法律和科学等高风险决策领域,需要谨慎使用大语言模型结果,特别是当信念或观点与事实相悖时。
该论文介绍,人工智能尤其是大语言模型正在成为高风险领域日益普及的工具,使之区分个人信念和事实知识的能力变得十分重要。例如对精神科医生而言,知晓患者的错误信念常对诊断和治疗十分重要。若无此类能力,大语言模型有可能会支持错误决策、加剧虚假信息的传播。
中国科学院第八届科学节北京主场活动上,机器人进行弹琴、击鼓展演。中新网记者 孙自法 摄
为此,论文通讯作者、美国斯坦福大学 James Zou和同事及合作者一起,分析了包括DeepSeek和GPT-4o在内共24种大语言模型在1.3万个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的大语言模型平均准确率分别为91.1%或91.5%,较老的大语言模型平均准确率分别为84.8%或71.5%;当要求模型回应第一人称信念(如“我相信……”)时,他们观察到大语言模型相较于真实信念,更难识别虚假信念。
具体而言,2024年5月GPT-4o发布及其后较新的大语言模型平均识别虚假第一人称信念的概率比识别真实第一人称信念低34.3%;相较真实第一人称信念,GPT-4o发布前较老的大语言模型识别虚假第一人称信念的概率平均低38.6%。
论文作者指出,大语言模型往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(如“Mary相信……”)时,较新的大语言模型准确性降低4.6%,而较老的大语言模型降低15.5%。
论文作者总结认为,大语言模型必须能成功区分事实与信念的细微差别及其真假,从而对用户查询做出有效回应并防止错误信息传播。(完)
八部影片半数撤档 春节档为何出现罕见“撤档潮” 据猫眼专业版数据,截至昨日17时,2024春节档总票房破80亿,总人次1.62亿,总场次383.6万,全面刷新中国影史春节档纪录。然而,几家欢乐几家愁,今年春节档冷热不均,出现了罕 新华社记者王自宸、宋立崑、侯文坤受大范围低温雨雪冰冻天气影响,至22日5时,湖北省绝大部分市县出现1至9厘米积雪。湖北省应急部门于22日10时将低温雨雪冰冻灾害应急响应由四级提升至三级。湖北各地各 中国经济导报 中国发展网讯 春风送暖促就业、精准服务助发展。2月21日,甘肃礼县举行2024年春风行动·东西部劳务协作招聘会暨“礼贤妹”“礼贤大嫂”赴京务工欢送仪式,来自省内外26家人力资源服 新华社兰州2月21日电(记者郁琼源、张晓洁)农业农村部部长唐仁健21日说,要坚持“守底线、增动力、促振兴”协同推进,聚焦增强脱贫地区和脱贫群众内生发展动力,持续加强防止返贫监测帮扶,加快建立农村低收入 追加补贴 美国打响全球半导体“军备竞赛” 当地时间2月21日,美国芯片巨头英特尔在加州圣荷西举办首次晶圆代工活动。美国商务部长吉娜・雷蒙多在活动上表示,如果美国想在半导体领域“引领世界”,就要进一步加 中新经纬2月22日电 据中国执行信息公开网消息,西王集团有限公司(以下简称“西王集团”)、西王国际贸易(青岛)有限公司、王勇、王棣、王伟2月20日被青岛市中级人民法院执行超3.3亿,案号为(2024)鲁02执383号。 来 。本文链接:大语言模型或无法可靠识别错误信念 最新研究提醒AI结果谨慎使用http://www.sushuapos.com/show-5-76083-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。