设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

GPT-5大提升,o3对抗赛夺冠,但OpenAI越来越难让人惊艳了?

发布时间: 来源: 观察者网

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(文/观察者网 张广凯 编辑/吕栋)vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京时间8月8日凌晨,备受期待的OpenAI最新大模型ChatGPT-5终于正式发布,就在同时,谷歌举办的首届大模型国际象棋对抗赛中,o3也以4-0完胜Grok 4夺冠。这本该是对OpenAI双喜临门的一天,但作为一款关注度如此之高的产品,网友也很快发现了GPT-5的一些小小的瑕疵。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尽管大模型的能力仍然在快速进步,但其进步幅度越来越难以给人带了惊艳感了。这不是OpenAI自己的问题,甚至某种意义上,这也不是一件坏事,因为是之前人们的预期已经被拉到过高。但无论如何,在现有的算法范式下,AI大模型或许也离瓶颈越来越近了。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

GPT-5水平如何?vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作为OpenAI今年最受期待又屡屡跳票的重磅产品,ChatGPT-5今天的确给出了一些颇具说服力的测评数据,证明其推理能力有着显著进步。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

例如,在数学能力测试AIME 2025上,GPT-5 Pro在开启推理模式并调用工具(Python)的情况下,拿下满分成绩。即使不调用工具,GPT-5 Pro仍能拿下96.7的高分,GPT-5标准版也能拿到94.65分,显著高于o3的88.9分。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

编程方面,GPT-5在SWE-bench Verified上得到74.9分,高于o3的69.1和4o的30.8分。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

博士水平的科学知识测试GPQA Diamond中,不调用工具的GPT-5 Pro推理模式拿到88.4分,创造新纪录。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多模态方面,GPT-5得到84.2分,比o3的82.9分有小幅提升。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

高难度的Humanity's Last Exam(人性终极测试)上,GPT-5 Pro和GPT-5在不调用工具时分别得到30.7和24.8分,较o3的14.7分大幅提升。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型竞技场LM Arena的评分也已经出炉,GPT-5横扫所有单项的第一名。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,GPT-5推理模式的幻觉数量比o3少了六倍,成本方面则可以减少50-80%的token输出量。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这些数据都证明,GPT-5算得上是一次成功的大版本升级。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但另人尴尬的是,在发布会后,网友迅速发现GPT-5在解一道极其简单的方程时又犯了计算错误:vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

看起来,GPT-5还是没能解决小数比大小的问题。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而OpenAI发布会PPT里的小瑕疵,也引起了网友热议。大家发现在这张图表里,柱状图的高度出现了明显错误,但并不知道这是人为错误还是由AI生成。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有网友指出,在关于机翼升力原理的回答中,GPT-5也引用了一个广为流传的错误观点。当然,这样的问题归咎于AI未免过于苛刻。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克则“嘴硬”称,Grok 4在ARC-AGI测试中仍然打败了GPT-5。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

做题好是不是真的好?vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么,如何评价GPT-5的真实水平,或许日前的大模型国际象棋对抗赛恰好给我们提供了一个很好的参考。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同样在今天凌晨结束的对抗赛上,OpenAI旗下的o3以4-0完胜Grok 4,夺得最终冠军。尽管Grok 4在此前两轮中都表现出色,但在决赛中,随着对局长度增加,Grok 4也开始表现出棋力下降。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

例如在第一局中,Grok 4莫名其妙地放弃了自己的象,并且没有获得任何明显的回报,而Grok 4也并未在推理中说明理由。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

o3尽管表现相对出色,在昨天的半决赛中还下出过正确率评分100%的棋局,但纵观整个比赛过程,也不乏低级失误。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

或许有人会质疑,让AI下棋究竟能证明什么?AI对抗赛的胜负,是不是仅仅取决于它们使用了多大规模的训练数据?DeepSeek下棋不好,但是作诗是不是更好?vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

事实上,如果只纠结于下棋或者作诗的技能水平,说明并未理解谷歌采用这种比赛形式的逻辑。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此次国际象棋比赛的意义,并非考验大模型的算力,而是考验其推理能力。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如果大模型在接受了大量棋谱训练之后,体现出高超棋力,这只能证明AI的记忆力或者算力强大,而这件事在2017年就已经被AlphaGo证明过了。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但是由于这些通用大模型都没有接受过专门的棋谱训练,因此往往只能在开局阶段凭借记忆下出经典开局。在几个回合之后,大模型已经无法找到人类棋谱作为参考,它们的思维结构也并非像AlphaGo那样专为下棋设计。因此,这时候的AI推理,是跟人类相同的推理方式,通过语言逻辑来推演棋盘变化。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

上述无工具的数学测试,起到的也是类似作用:考验AI用人类逻辑进行计算的能力,而不是使用专门的机器算法。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因为无论是AlphaGo也好,还是计算工具也好,这样的AI在特定任务中无比强大,但是却毫无泛化性,不能解决任何其它问题。只有使用人类逻辑推理的模型,才能在人类世界中拥有最好的泛化性。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在这个维度上,我们可以看到,无论是o3、Grok 4,还是最新升级的GPT-5,哪怕他们大部分时间都能够解决复杂问题,但也还会犯下对人类来说的低级错误。这是现有的Next Token Predicting范式下仍然难以完全克服的问题,也说明它们或许离AGI的最终形态还有遥远距离。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

OpenAI显然也不再希望把外界的胃口掉得过高。在本次发布会上,我们可以看到OpenAI花了更多时间介绍GPT-5在垂直场景应用的能力,例如生成小游戏、回答健康问题的能力,这都是为了让AI与人类更好地共存与协作。vF5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  【宅男财经|专家面对面】3月10日,人民币兑美元中间价报6.8982,大幅调升176基点,中间价创2023年4月25日以来新高。  “人民币近两日的快速升值是内外部多重因素共振的结果。”星图金融研究院常务副院长、苏商银   中新经纬3月9日电 (谢婧雯)“你就忘了我们是做什么的了吗?”北京中关村一家“一人公司”的老板苏魁敲着键盘,提示他的“新员工”改进选题。弹窗很快出现:“抱歉,这是事实――我确实不知道。”  他口中的“新员工”   中新经纬3月9日电 国家统计局网站9日披露数据显示,2月份工业生产者出厂价格同比降幅收窄,环比继续上涨。  国家统计局称,2月份,全国工业生产者出厂价格同比下降0.9%,降幅比上月收窄0.5个百分点;环比上涨0.4%,涨幅与上 鹿优选商城的先享卡额度可以提现吗?当然可以,卫星1024370571 方法千万种,当你知道其中原理,你应该就不会再为这件事而疑惑,像羊小咩商城里的便荔卡享花卡一样,可以通过以下8个秒回 。

本文链接:GPT-5大提升,o3对抗赛夺冠,但OpenAI越来越难让人惊艳了?http://www.sushuapos.com/show-3-151659-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 筹划发行H股,绽家母公司若羽臣欲“双重上市”

下一篇: 增收不增利大跌8%,中芯国际称国内客户需求猛涨

热门资讯

  • 创指半日涨2.47%,CPO概念持续走强

      中新经纬3月10日电 周二,A股市场早盘高开震荡,创业板指领涨。  Wind截图  截至午盘,沪指涨0.39%,深成指涨1.57%,创业板指涨2.47%。  盘面上,算力硬件产业领涨,CPO、电路

  • 净利大增超10倍,*ST松发申请“摘星脱帽”

        中新经纬3月10日电 广东松发陶瓷股份有限公司(下称*ST松发或公司)2025年净利润同比增超10倍,申请“摘星脱帽”。  *ST松发9日晚披露2025年年度报告,期内实现营业收

  • 沪指半日跌超1%,电网设备概念逆市走强

      中新经纬3月9日电 周一午盘,A股三大指数集体调整,沪指跌超1%,创业板指、深成指半日跌超2%。  Wind截图  截至午间收盘,沪指跌1.13%,深成指跌2.14%,创业板指跌2.42%。  

  • 羊小咩便荔卡包怎么套现精选流程讲解

    羊小咩便荔卡作为一款备受欢迎的购物支付卡,为广大用户提供便捷的支付体验。然而,许多用户在提现时遇到了难题。本文将为您推荐八种羊小咩便荔卡提现的方法,让您轻松搞定提现问

  • 羊小咩便荔卡包如何套出来2026更新攻略

    羊小咩便荔卡包如何套出来2026更新攻略羊小咩便荔卡作为一款备受欢迎的购物支付卡,为广大用户提供便捷的支付体验。然而,许多用户在提现时遇到了难题。本文将为您推荐八种羊小

  • 便利卡包怎么套简单实用技巧分享

    羊小咩便荔卡作为一款备受欢迎的购物支付卡,为广大用户提供便捷的支付体验。然而,许多用户在提现时遇到了难题。本文将为您推荐八种羊小咩便荔卡提现的方法,让您轻松搞定提现问

  • 羊小咩便荔卡包怎么秒回秒到实操攻略

    羊小咩便荔卡作为一款备受欢迎的购物支付卡,为广大用户提供便捷的支付体验。然而,许多用户在提现时遇到了难题。本文将为您推荐八种羊小咩便荔卡提现的方法,让您轻松搞定提现问

  • 羊小咩购物额度怎么变现实用渠道科普

    羊小咩便荔卡作为一款备受欢迎的购物支付卡,为广大用户提供便捷的支付体验。然而,许多用户在提现时遇到了难题。本文将为您推荐八种羊小咩便荔卡提现的方法,让您轻松搞定提现问

  • 李晓静:西方“一刀切”禁未成年用社媒,中国为何不能跟?

    针对未成年人受不良网络信息影响、沉迷网络游戏等问题,今年全国两会期间,全国政协委员于本宏就建议,研究制定未成年人社交媒体保护性管理规定,明确将十六周岁设定为未成年人注

  • 全国人大代表、蒙牛集团史玉东:聚焦“适老食品”

    在今年全国两会上,全国人大代表、蒙牛集团全球研发创新中心研发总监史玉东围绕“加强科技创新 加快推进乳制品产业转型”“加快推进乳制品精深加工发展”“持续强化奶产业链

  • 全国人大代表、舍得酒业陈柏蓉:加快中国酒业新文化建设,助推行业高质量发展

    今年两会,连续四年履职的全国人大代表、国家一级品酒师、舍得酒业技术研究院酒体设计师陈柏蓉,聚焦酒业高质量发展,建议加快中国酒业新文化建设,推动酿酒产业传承与创新。 加

  • 鹿优选额度怎么提现 实用流程步骤讲解

    鹿优选商城的先享卡额度可以提现吗?当然可以,卫星1024370571 方法千万种,当你知道其中原理,你应该就不会再为这件事而疑惑,像羊小咩商城里的便荔卡享花卡一样,可以通过以下8个秒回

推荐资讯

  • 日榜
  • 周榜
  • 月榜