设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AI参加高考,为何偏科严重

2024-07-04 13:07:30 来源: 科技日报

大模型参加高考,能考多少分?近日,科技创新交流平台极客公园发布高考新课标Ⅰ卷大模型评测报告,在参试大模型中,GPT-4o以562分的成绩排名文科第一。参加评测的8款国产大模型中,字节跳动旗下的豆包成绩是542.5分,其后依次是百度文心一言4.0的537.5分和百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,以上3款国产大模型均超过河南文科一本线521分。GPT-4o的562分在河南文科考生中可排名8811名,相当于前2.45%;豆包处于前4.27%,接近顶尖大模型的水平。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

文综评测中,GPT-4o获237分,优于多数人类考生。国产大模型中,豆包文综成绩最高,得分224.5分,其中历史达到82.5分,在所有9款大模型中排第一。地理考卷有大量图片考题,图像理解能力较强的GPT-4o得到最高分,但仅有68分。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

语文、英语评测中,多家大模型在客观题上拿满分。但写作文是弱项。多次参加全国高考语文阅卷的北京市级骨干教师、怀柔区语文学科带头人夏老师是本次评测的作文阅卷人。她认为,“AI作文有清晰完整的结构,有逻辑性,语言通顺流畅,但缺乏感情和感染力”。同理,在40分的英语写作考试中,大模型的最高分只有29分,主要丢分在表达空泛、缺少细节上。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得注意的是,大模型高考呈现出严重的偏科现象:数学、物理、化学等数理学科全线不及格,总分最高分不到480。而河南理科一本线是511分。最顶尖的大模型无法进入理科考生的前30%。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数学评测中,仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分)。大模型能准确运用求导公式和三角函数定理,但面对较为复杂的推导和证明问题就很难得分。物理有一道送分的选择题,人类考生根据“时间不会倒流”可以轻易选对答案,大模型则全军覆没。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“目前的大语言模型本质上是文字接龙,基于海量资料,预测下一个最可能出现的词句。通过不断预测,生成连贯和完整的文本。应对文科考试,大模型的用词不准或用了近义词,不太影响评分。但理科考试考验推理和计算,比如一道题有五步推理,大模型走偏一步,答案就全错。而且大模型的训练数据中,文科语料要远远大于理科语料。”国内一位大模型研发专家告诉科技日报记者。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近期,有一些国内外大模型在奥数题评测(非奥数现场比赛)上拿到不错的成绩。对此,该专家解释,用大家都训练过的公开数据集评测,大模型的准确率很高;但用比较新的数据集去测试,准确率就大大下降。最新的高考题是哪家大模型都没有训练过的,考验的是数学推理和计算的泛化能力,这就暴露了大模型的短板。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京大学计算语言学研究所教授穗志方近日也表示,大模型在中国高考、公务员考试和美国SAT考试等标准化考试中的表现是优劣兼具的。一些大模型在SAT数学测试中表现优异,但在复杂推理或特定知识领域中的表现不够出色。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“在大模型内在机理没有探究清楚的情况下,我们目前的评测路径只能依靠从外部表现来推测内在能力。”穗志方说,未来应发展更系统的评测大纲、更具挑战的评测任务、更科学的评测方法。AI是否比人类更适合考试?尚未可定论。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型参加高考,能考多少分?近日,科技创新交流平台极客公园发布高考新课标Ⅰ卷大模型评测报告,在参试大模型中,GPT-4o以562分的成绩排名文科第一。参加评测的8款国产大模型中,字节跳动旗下的豆包成绩是542.5分,其后依次是百度文心一言4.0的537.5分和百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,以上3款国产大模型均超过河南文科一本线521分。GPT-4o的562分在河南文科考生中可排名8811名,相当于前2.45%;豆包处于前4.27%,接近顶尖大模型的水平。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

文综评测中,GPT-4o获237分,优于多数人类考生。国产大模型中,豆包文综成绩最高,得分224.5分,其中历史达到82.5分,在所有9款大模型中排第一。地理考卷有大量图片考题,图像理解能力较强的GPT-4o得到最高分,但仅有68分。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

语文、英语评测中,多家大模型在客观题上拿满分。但写作文是弱项。多次参加全国高考语文阅卷的北京市级骨干教师、怀柔区语文学科带头人夏老师是本次评测的作文阅卷人。她认为,“AI作文有清晰完整的结构,有逻辑性,语言通顺流畅,但缺乏感情和感染力”。同理,在40分的英语写作考试中,大模型的最高分只有29分,主要丢分在表达空泛、缺少细节上。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得注意的是,大模型高考呈现出严重的偏科现象:数学、物理、化学等数理学科全线不及格,总分最高分不到480。而河南理科一本线是511分。最顶尖的大模型无法进入理科考生的前30%。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数学评测中,仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分)。大模型能准确运用求导公式和三角函数定理,但面对较为复杂的推导和证明问题就很难得分。物理有一道送分的选择题,人类考生根据“时间不会倒流”可以轻易选对答案,大模型则全军覆没。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“目前的大语言模型本质上是文字接龙,基于海量资料,预测下一个最可能出现的词句。通过不断预测,生成连贯和完整的文本。应对文科考试,大模型的用词不准或用了近义词,不太影响评分。但理科考试考验推理和计算,比如一道题有五步推理,大模型走偏一步,答案就全错。而且大模型的训练数据中,文科语料要远远大于理科语料。”国内一位大模型研发专家告诉科技日报记者。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近期,有一些国内外大模型在奥数题评测(非奥数现场比赛)上拿到不错的成绩。对此,该专家解释,用大家都训练过的公开数据集评测,大模型的准确率很高;但用比较新的数据集去测试,准确率就大大下降。最新的高考题是哪家大模型都没有训练过的,考验的是数学推理和计算的泛化能力,这就暴露了大模型的短板。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京大学计算语言学研究所教授穗志方近日也表示,大模型在中国高考、公务员考试和美国SAT考试等标准化考试中的表现是优劣兼具的。一些大模型在SAT数学测试中表现优异,但在复杂推理或特定知识领域中的表现不够出色。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“在大模型内在机理没有探究清楚的情况下,我们目前的评测路径只能依靠从外部表现来推测内在能力。”穗志方说,未来应发展更系统的评测大纲、更具挑战的评测任务、更科学的评测方法。AI是否比人类更适合考试?尚未可定论。jRo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:AI参加高考,为何偏科严重http://www.sushuapos.com/show-2-7360-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 做强小种子 实现大丰收

下一篇: 国内首条正穿冰川公路隧道掘进机始发

热门资讯

推荐资讯

  • 得力集团就“辞退跛脚员工”致歉,将问责涉事人员

      中新经纬9月30日电 据得力集团官方微博30日消息,得力集团就“员工因跛脚入职当天被辞退”致歉。  得力集团在声明中表示,昨日,网络上出现关于“因跛脚入职当天被辞退”的

  • 广文集团原董事长黄科宏被“双开”

      中新经纬9月30日电 中央纪委国家监委网站30日通报,广西文化产业集团有限公司原党委书记、董事长黄科宏被开除党籍和公职。  据广西壮族自治区纪委监委消息:经广西壮

  • 国资委:着力破解科技创新瓶颈障碍

      中新经纬9月30日电 据国务院国资委网站30日消息,9月28日,国务院国资委召开国有企业改革深化提升行动2025年第三次专题推进会。国务院国资委党委委员、副主任李镇出席会议

  • 中再资产未按规定运用保险公司资金被罚300万

      中新经纬10月11日电 国家金融监管总局11日公布行政处罚信息公示列表,因未按照规定运用保险公司资金,国家金融监管总局对中再资产管理股份有限公司罚款300万元;对刘凡、周金

  • 北方稀土及关联方包环保公司被监管警示

      中新经纬10月13日电 据上交所网站消息,2025年10月10日,上交所对中国北方稀土(集团)高科技股份有限公司(下称北方稀土)及关联方内蒙古包环保新材料有限公司(下称包环保公司

  • 香港交易所:胡智恒任董事总经理兼交易营运主管

      中新经纬10月13日电 13日,香港交易所宣布,委任胡智恒为董事总经理兼交易营运主管。  胡智恒将于2025年10月20日加入香港交易所,负责领导现货及衍生产品市场的交易营运团

  • 沪指跌0.19% 稀土永磁概念逆市活跃

      中新经纬10月13日电 周一,沪指低开后回升,尾盘一度接近平盘。  截至收盘,上证指数跌0.19%,报3889.50点;深证成指跌0.93%,报13231.47点;创业板指跌1.11%,报3078.76点。科创50指

  • 稀土概念逆市狂飙!两巨头再提价,“或稳中有进”

      中新经纬10月13日电 (张澍楠)周一,稀土板块逆市大涨!  截至13日午盘,Wind稀土指数(8841089)涨近8%,成份股全部飘红,其中华宏科技、包钢股份涨停,北方稀土涨超9%,中国稀土、盛

  • 海关总署:初步测算前三季度跨境电商进出口增6.4%

      中新经纬10月13日电 13日,国新办就2025年前三季度进出口情况举行新闻发布会。海关总署新闻发言人、统计分析司司长吕大良在发布会上表示,初步测算,前三季度,我国跨境电商进

  • A股低开 贵金属、稀土概念股逆势走强

      中新经纬10月13日电 13日,A股三大股指集体低开,上证指数跌2.49%报3800.11点,深证成指跌3.88%报12837.25点,创业板指跌4.44%报2975.03点。  盘面上,贵金属逆势走强,电池、消

  • 市场监管总局:对高通公司立案调查是日常执法工作

      中新经纬10月12日电 市场监管总局网站12日消息,日前,市场监管总局反垄断二司负责人就对高通公司违反《中华人民共和国反垄断法》(以下简称《反垄断法》)立案调查事回答了

  • 贵州哲服定制服饰有限公司完成叁百万元天使轮融资

    贵州哲服定制服饰有限公司于10月13日宣布完成叁百万元天使轮融资,投资方为知名投资机构。贵州哲服定制负责人詹学波透露,此次融资将用于技术研发投入及市场拓展,进一步巩固其在

  • 日榜
  • 周榜
  • 月榜