设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

发布时间: 来源: 量子位

新增「AI挑战赛」w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型要在数学竞赛上跟人类同场竞技啦!w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最新消息,阿里巴巴全球数学竞赛,今日官宣开启报名。依然不限年龄、国籍、职业,有意思的是,这次甚至突破了碳基硅基的限制——w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首次向AI开放,诚邀全球大模型参赛。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不仅如此,获胜AI最高还可获得10000美元(约合7.2万元人民币)奖金。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如此因崔斯汀的消息,当即引起了网友们的关注。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们还打听到,国内外有不少高校研究团队和大模型创业公司已经表达出浓厚兴趣,准备参赛。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新设「AI挑战赛」

具体来看规则。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2024阿里全球数赛,在预选赛阶段增设了一场AI挑战赛w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

和参加常规赛的人类选手一样,大模型们也要对同一套预赛试题作出解答,考核内容的难度相当于数学本科一年级水平,重点考察AI的数学逻辑推理与问题解决的能力。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

赛制方面,数赛官网已在今天(3月14日)开放统一报名通道,大模型参赛团队须在报名页勾选AI参赛选项。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

完成报名后,官方会提供历届数赛初赛的真题和答案,让大模型选手们可以在正式比赛前先刷刷题练练手。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

4月13日-15日,官网将开启初赛考试通道,参赛选手需要在此期间完成答题,并在系统中提交人类评委看得懂的答卷。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

组委会将根据大模型在此过程中展现出的创新性、解题效率、解题过程的逻辑性等因素综合评分,并给出具体评语。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终得分排名前三的AI将依次获得10000美元5000美元2000美元的奖金。如果所有AI均不能有效作答,则奖金会累积滚动到下届赛事的奖金池。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得一提的是,AI挑战赛允许人类使用提示词工程来调教大模型。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但为了确保公平竞赛,避免人类替考,参赛者需要在开赛前就提交模型代码或Prompt,以供校验复现。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(这波是反向防作弊了)w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型挑战数学竞赛·实测版

正式比赛尚未开始,但显然,面对数学竞赛题,AI具体会有怎样的表现,已经成为这届阿里数学竞赛的关注焦点之一。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了满足大家伙儿(包括我们自己)的好奇心,量子位已经率先要到了历届初赛的真题和参考答案,咱们就请出当前最强的两位通用大模型选手——GPT-4和Claude 3,来个真题演练,先睹为快。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Round 1:选择题w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开胃小菜。先来这道2023年阿里数学竞赛初赛的一道图论题:w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

还是先来看GPT-4的表现。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在代码解释器的加持之下,GPT-4成功选对了C选项,即90≤S≤100。并且,GPT-4也给出了具体的解释:w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它通过简化模型估算出等待总时间最小可能值是81,考虑到实际线路中可能出现更多必须直行和左转的情况,结合选项,S值会更接近90而小于100。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△GPT-4真的很话痨w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同样的题目抛给Claude 3:w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Claude 3成功判断了题型,但很遗憾回答错误。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过如果我们稍稍给点提示,比如:是否能将小明行驶的路线看成一个100边形,来尝试解题。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Claude 3瞬间就get到了思路,这次计算正确:S=96,选C。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这么看来,大模型的表现还是可圈可点的。它们在工具加持又或者在人类点拨的情况下,能够给出正确答案的同时,还能给出具体的解题思路。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Round 2:证明题w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

选择题之外,证明题也是阿里数学竞赛必出的题型。我们也挑选了一道题来进行测试。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

先说正确结论:对于第一问,答案是存在;对于第二问,答案是不存在。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

来看GPT-4的答题情况:w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Claude 3的答案:w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这一次,打分权交给你,你觉得GPT-4和Claude 3各能得几分?w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总结一下,从测试结果来看,大模型们挑战阿里数学竞赛题,还是难度不小。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尽管基础知识丰富,能够初步判断出所考题型;计算速度也飞快,但也常会出现胡言乱语的状况,仍需要人类的指正和点拨。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“AI改变数学的时代正在到来”

在我们的初步测试中,大模型的解题表现虽然不如那些能闯入决赛的人类选手,但已经可以想见,在这种新的碰撞中,我们可以期待看到更多AI在抽象思维、逻辑思辨和巧妙解题方面能力的展示。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对此,阿里全球数学竞赛组委会也做出了阐释:w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

早在ChatGPT刚开始流行之时,以陶哲轩等人为代表的数学家们,就对大模型保持高度关注。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

陶哲轩本人不仅将多种AI工具都纳入了自己的工作流,还大胆预言:w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当与形式证明验证器、互联网搜索和数学符号包等工具整合时,2026年的AI,如果使用得当,将成为数学研究中值得信赖的共同作者,并且在许多其他领域也是如此。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而《纽约时报》更是在对多位知名数学家进行采访后,给出了这样的评论:w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

现在,阿里全球数学竞赛这样备受关注的赛事主动拥抱AI,再次印证了这一新趋势。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

背后透露出的,还有数学界面对新一轮技术变革所产生的期待。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于人类选手而言,AI与数学更深入的结合趋势已经显现,这样的比赛,可以作为新一类接触的桥梁。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于数学家和AI研究者们而言,这样的平台为AI for Math提供了一个测试研究成果的基准,有助于推动更多数学与AI的前沿研究。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而对于大众,这也是进一步理解AI能力,和数学魅力的一扇窗口。w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据说,此次大赛主办方还将联合魔搭社区,准备招募更多的开发者来参与;到时候一些国内主流的开源数学模型也出来打配合,同开发者一道与一众数学爱好者们同场竞技!w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

哦莫,已经可预见的是,数学界的人机混战一触即发~w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所以广大开发者们也不要光看了,赶紧来试试,没准儿还能赚点生活费……w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

你说是吧~w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

— 完 —w3S速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

民俗有言:桃花开,痴子忙。昨日,一大学生患“桃花癫”登上微博热搜,引发热议。该大学生认为周围女生都喜欢自己,并向全校的女生分别告白。不仅如此,由于精神的持续亢奋,该大学生还经常出现整晚不睡觉 3月17日,记者从陆军军医大学西南医院获悉,该院消化内科教授陈磊团队联合陆军军医大学教授张定林首次提出,活性氧响应性纳米材料能够把程序性死亡配体-1蛋白精准传递到肠道炎症部位,有效缓解肠炎 3月17日记者获悉,哈尔滨医科大学公共卫生学院副院长、教授田懋一与副研究员叶鹏鹏团队在一项研究中提出,应将预防老年人跌倒与国家基本公共卫生服务中各项服务流程融合起来。该研究全面梳理了 “截至2023年底,与2018年同期相比,京津冀治理区浅层地下水位平均回升2.59米,深层承压水水位平均回升7.06米。”3月22日世界水日到来之际,水利部水资源管理司副司长张鸿星21日接受科技日报记者采 近日有消息称,huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型,huaweiMate60的停产意味着huawei新款旗舰或即将上市,接替Mate60。2023年8月29日,huaweiMate60 Pro、huaweiMate60等 近日,民航华东地区管理局向峰飞科技公司颁发V2000CG无人驾驶航空器系统型号合格证,这也是中国民航系统颁发的首个无人驾驶吨级电动垂直起降航空器型号合格证。航空器型号合格证取证是保障航空 。

本文链接:我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走http://www.sushuapos.com/show-2-3870-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 零一万物API开放平台出场!通用Chat多模态通通开放,还有200K超长上下文版本

下一篇: 合作2000家企业,国产大模型公司智谱AI的商业化落地新解法

热门资讯

  • 我国科研团队揭示非洲猪瘟病毒感染致病机制

    记者3月18日从兰州大学获悉,该校动物医学与生物安全学院郑海学教授团队解析了非洲猪瘟病毒(ASFV)在猪体内感染的靶细胞,以及在靶细胞内延长感染的机制

  • 全国爱肝日丨专家提醒注意“小心肝”

    3月18日是第24个“全国爱肝日”。今年活动的主题是,“早防早筛,远离肝硬化”。重庆多所医院开展义诊咨询活动,通过普及肝病的防治知识,让民众主动筛查

  • 新AI系统可提供足球制胜战术

    未来的足球场,人工智能(AI)当“大脑”?《自然·通讯》19日发表一项来自谷歌深度思维的最新成果,研究团队报告了一个名为“TacticAI”的系统,能在足

  • 239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远

      239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远  239万元/架的无人驾驶载人航空器也看上了电商渠道。  3月18日,亿航智能设备(广州)有限公司(下称“亿航

  • 每12个恒星或有一个吞过行星

    据《自然》20日消息称,天文学家对91对恒星所作的光谱分析显示,大约每12个恒星中就有一个可能吞噬了一个行星。在吞噬一个行星后,恒星的化学构成可能发

  • 借AI“慧眼”鉴别可疑论文图片

    今年1月,英国分子生物学家肖尔托·戴维发表文章,指控美国哈佛大学医学院附属丹娜-法伯癌症研究所科学家通过修改图片伪造数据。随后该研究所正

  • 最小资源消耗的量子态分辨实现

    记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展:他们在最小资源消耗的量子态分辨问题中首次提出了全局最优

  • 科学新发现丨有史以来最大的三维宇宙地图发布

    根据《天体物理学杂志》的最新报道,一个国际天文学家团队利用欧洲空间局的盖亚(Gaia)太空望远镜收集的数据,创建了迄今为止最庞大的三维宇宙地图。该地

  • 我国首个制氢加氢一体站团体标准发布

    我国制氢加氢一体站建设有了团体标准。记者从中国石化获悉,为推动我国氢能交通产业发展,中国石化联合国内数十家氢能头部企业发布了国内首个《制氢加

  • 世界睡眠日:别让你的良好睡眠被手机夺走

    再打一局游戏就睡,再刷几个视频就睡,终于放下手机,关灯睡觉了……结果翻来覆去睡不着,半夜醒来再也睡不着,为什么明明睡着了,睡眠质量却不高

  • AI+智能家居赋能健康睡眠

    3月21日是第二十五个“世界睡眠日”,中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》(以下简称《白皮书》)。《白皮书》指出,

  • iPhone总裁库克访问中国:女子手持huaweiMate60与其合影

    3月25日消息,国内一场经济高峰论坛上,iPhone总裁蒂姆·库克再次成为焦点。然而,引起人们关注的并非库克的讲话内容,而是一张自拍照片。在论坛现场,一

推荐资讯

  • 日榜
  • 周榜
  • 月榜