设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

分不清9.9与9.11谁大? 大模型数学能力堪忧

发布时间: 2024-07-19 16:25:29 来源:

  分不清9.9与9.11谁大? 大模型数学能力堪忧  xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  每经记者 可杨 每经编辑 梁枭xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  13.11%和13.8%哪个大?9.9和9.11哪个大?xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  两道小学数学难度的题目难倒了众多主流大模型,在比大小的过程中,不少大模型给出了错误的答案。此外,此前《每日经济新闻》发布的《每日经济新闻大模型评测报告(第1期)》中,主流大模型被要求计算企业营业收入复合增长率时,没有一家大模型计算出正确答案。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  7月17日,有大模型企业人士向记者表示,对于大模型而言,这不是很难解决的技术问题,只要“喂”了这方面的数据,就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  大模型比大小“翻车”xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  由综艺节目《歌手2024》排名引发的热议蔓延到了大模型领域,也成了一场针对大模型数学能力的小测。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在《每日经济新闻》记者7月17日的测试中,对于13.11%与13.8%谁大的问题,除了智谱清言外,文心一言、通义千问、Kimi、商汤商量、百川智能百小应等大模型均给出了正确回答。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  大部分大模型都在给出答案的同时呈现了推理过程。智谱清言给出的推理过程显示,在比较13.11%和13.8%时,13.11%是更大的数值。这是因为当比较两个百分数时,首先比较整数部分,如果它们相同,则比较小数部分。在这里,两个数的整数部分都是13,但13.11的小数部分11大于13.8的小数部分8,因此13.11%大于13.8%。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  从推理过程判断,可能由于小数点后数位不同,大模型在比较过程中产生了幻觉。经过两轮提问后,智谱清言给出了正确回答。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  当记者把问题换成“9.9与9.11谁大”,零一万物的万知大模型等同样在一开始给出了错误答案,当记者进一步追问“9.11减9.9等于多少”,甚至有大模型给出了“0.21”的答案。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  万知大模型的推理过程稍显混乱:在比较9.9和9.11时,由于整数部分都是9,所以比较小数点后的第一位数字。9.9的小数点后第一位是9,而9.11的小数点后第一位是1。由于9小于10,所以在比较小数点后第二位数字时,9.9的小数点后第二位是0(隐含的),而9.11的小数点后第二位是1。因此,9.9的小数点后第二位数字(隐含的0)小于9.11的小数点后第二位数字(1),所以9.9小于9.11。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  随后,记者向大模型提问:为何会出现有大模型认为13.11大于13.8的情况?xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  ChatGPT给出的回答显示,出现这种情况的原因可能是由于计算或比较方式的错误。可能的误差原因包括:数值理解错误,有时系统可能会误解数字的小数点位置;字符串比较,如果直接按字符串比较,可能会出现错误。因为字符串比较是按字符顺序逐一比较的,而不是按数值比较;代码实现错误,在编程中,可能存在比较逻辑或转换错误。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  文心一言给出的解答则是,训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面,即大模型在训练过程中,可能接触到了大量包含数字的数据,但这些数据并不总是以比较大小为目的。例如,数字可能出现在版本号、股票代码、基金表现、汇率等上下文中,这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足,模型可能无法学习到正确的比较规则。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  另一方面,可能由于大模型在处理输入文本时,将数字视为字符序列,而不是具有数值意义的实体。因此,在比较数字大小时,模型可能没有正确地将其转换为数值进行比较。另外,模型在处理小数时可能存在困难,特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  这个问题不难解决xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  7月17日,有大模型企业人士在接受记者电话采访时表示,对于大模型而言,这不是很难解决的技术问题,只要“喂”了这方面的数据,其实就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  这也并非大模型的数学能力首次受到关注。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  6月,上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示,三科总分420分,大模型最高分仅303分,其中语文、英语表现相对良好,数学全不及格。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在此前《每日经济新闻》发布的《每日经济新闻大模型评测报告(第1期)》中,对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中,当被要求计算营业收入复合增长率时,没有一家大模型计算出正确答案。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  综 合 来 看 ,Anthropic Claude 3 Opus表现最为出色,以总分136分高居榜首。该模型在计算题的任务一(同比增长率计算)和任务二(毛利率计算)中均获得了较高的分数,但在任务三(复合增长率计算)中未能给出正确答案。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”,以总分133.4分位列第二。该模型在计算题的任务一和任务二中同样表现良好,但在任务三中也未能给出正确答案。不过,在计算复合增长率的任务中,尽管其答案有误,但已掌握了正确的公式。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  零一万物Yi-Large的总分达到了126.4分,该模型尽管“分析写作题”得分略逊一筹,但在计算题的任务一和任务二中表现稳定。该模型在计算复合增长率时,同样给出了错误答案,但也给出了正确的公式。xXe速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  “年轻人报复性挤爆3.5分餐厅” 砸了谁的锅  不能仅靠年轻人“挤爆3.5分餐厅”的一身反骨,而要靠净化网络平台信用环境、提升完善评价体系  有一句流行语“股票反着买,别墅靠着海”,意思是要拒绝从众心理,反向操   网红自热火锅为何变冷了?  不插电、不用火,就能吃上热腾腾的小火锅。  作为一种便捷、快速的食品,自热火锅曾受到不少消费者的追捧,这背后是快节奏生活中,“懒人”群体和宅经济的逐步兴起,让自热火锅一度成为一个新 中国经济导报、中国发展网讯 为加快构建“一区三圈四园”产业发展新格局,发挥商务楼宇安商引商的引擎作用,2月21日,《海口市秀英区促进楼宇经济高质量发展扶持政策(试行)》(以下简称《扶持政策》)发布实施, 本报讯 记者付朝欢报道 为贯彻落实《数字中国建设整体布局规划》工作部署,摸清数据资源底数,加快数据资源开发利用,更好发挥数据要素价值,国家数据局综合司、中央网信办秘书局、工业和信息化部办公厅、   中新经纬2月23日电 (周奕航)“和以往相比,今年的订单量足足翻了四五倍。”山东省菏泽市曹县的汉服加工厂老板陆平(化名)对中新经纬表示。  这个春节,马面裙火了。许多年轻人身穿马面裙,行走在大街小巷、灯展庙会间   “中新免签朋友圈”效应:春节赴新游同比涨960% 带动“新马泰”线路  21世纪经济报道 胡慧茵  春节是新加坡重要的节日。每到农历新年,新加坡的大街小巷就洋溢起浓浓的年味。  “在新加坡唐人街牛车水,我们看 。

本文链接:分不清9.9与9.11谁大? 大模型数学能力堪忧http://www.sushuapos.com/show-5-22261-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 光伏行业“组团”转战中东 多家公司拿下沙特大单

下一篇: 暑期档何以如此热力十足

热门资讯

推荐资讯

  • 韩国乐天集团决定出售沈阳乐天城项目

      近日,据业界消息,乐天集团决定将中途停建的沈阳“乐天城”项目出售给沈阳市皇姑区一国企。这距离该项目因“萨德”矛盾被中断已过8年。据消息,乐天集团已与沈阳皇姑诚信发

  • 支付宝发布出境游消费新趋势

      近日,支付宝发布出境游消费新趋势:可持续出游成为出境游的新方式。国内游客除了想要更多的目的地优惠、更好的汇率、更地道的攻略,还希望去远方旅行时继续实践可持续低碳行

  • 上海北外滩金辉索菲特酒店启幕

    近日,上海北外滩金辉索菲特酒店启幕,酒店前身为绿地九龙宾馆,2021年金辉集团收购上海九龙宾馆有限公司100%股权,并对原九龙宾馆进行升级修缮,与雅高集团合作打造上海金辉索菲特酒

  • 国家移民管理局出台便民利企出入境管理六项政策措施

      近日,国家移民管理局决定自5月6日起出台便民利企出入境管理六项政策措施,旨在提供更好地服务促进高水平对外开放,进一步便利内地人员出入境。  这六项措施包括:在北京等20

  • 携程推出首个“上海入境免费半日游”项目

      自4月15日起,携程推出首个“上海入境免费半日游”项目,通过向中转上海的国际旅客提供免费半日游产品,不仅提供免费交通接送及外文向导讲解,还提供外币兑换及免费上网服务等

  • 走近名家日常,回忆一个时代

    《近处看名家》是由一位资深编辑倾情撰写的与名家交往故事的散文集。在书中,通过一位资深编辑的回忆,便可走近一个时代的大家风采,走近杨宪益、铁凝、

  • 石基信息2023年营收27.49亿元,同比增长5.93%

    4月30日,石基信息发布2023年全年业绩报告。从营收和利润方面看,公司本报告期实现营业总收入27.49亿元,同比增长5.93%,净亏损1.05亿元,亏损同比减少86.57%。从资产方面看,公司报告

  • 戏曲进校园,师生在北二外“相遇梅兰芳”

    4月25日,为纪念梅兰芳先生诞辰130周年,梅葆玖先生诞辰90周年,“相遇梅兰芳—戏曲进校园”活动在北京第二外国语学院举办。北京第二外国语学院、

  • 当你唱起金翅鱼之歌

    《金翅鱼之歌》是一部在生态保护的底色下,讲述一个北漂秉持人与自然和谐发展的信念,而历经曲折与现实对抗的小说。作者用了“伪纪实”的方法来构思小

  • Ivy Kwan女士出任嘉佩乐酒店集团市场销售高级副总裁

      (2024 年 4 月 29 日,中国上海)嘉佩乐酒店集团近日宣布由Ivy Kwan女士出任集团市场销售高级副总裁,任命于 2024 年 4 月 1 日生效。Ivy拥有超过三十年丰富的奢华酒店管理

  • 宏昆酒店集团五一假期业绩创新高

    5月8日,据中国日报消息,五一期间,宏昆酒店集团五一假期业绩创新高。数据显示,5月2日为酒店入住客流最高峰,单日酒店整体出租率95%,综合RevPAR近500元,单日满房门店20家,单日综合营收

  • 大酒店:香港半岛酒店一季度平均可出租客房收入同比增54.39%

    5月8日,香港上海大酒店有限公司发布一季度数据。香港半岛酒店一季度平均可出租客房收入3,327港元,同比增长54.39%;平均房租7169港元,按年增长29.69%;出租率为46%,上年同期为39%。

  • 日榜
  • 周榜
  • 月榜