设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AGI走到分岔路口 大模型“思考力”被低估

2024-12-25 17:26:28 来源:

21世纪经济报道记者孔海丽 北京报道H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

OpenAI的圣诞节惊喜比原定多持续了一天,第13天,OpenAI CEO 塞姆·奥特曼(Sam Altman)宣布,圣诞假期期间为所有plus用户提供无限次使用Sora的机会,这原本是月费200美元的Pro用户才有的待遇。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

连续12天的新品发布中,OpenAI先后拿出了完整版o1、加强版Sora、ChatGPT Search、电话功能、新模型o3。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尤其是o3,被评为OpenAI的“大杀器”,也就是推理模型o1的第二代。为了避开与英国知名电信运营商o2可能的知识产权纠纷,OpenAI推理模型系列跳过o2,直接命名为o3。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但OpenAI的ChatGPT-5却迟迟不见动静。据知情人士透露,该项目已开发超过18个月,成本花费巨大,却仍未取得预期成果——Scaling Law的暴力美学似乎已经遇到瓶颈,更大的参数、更多的数据,已经不能为AI大模型带来质的飞跃。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当扩大AI大模型的训练规模失去“高回报”,OpenAI强调推理时间、思考时长的o系列,会是解题思路吗?H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

被低估的推理路线H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

OpenAI o系列发布时,就有观点认为,“当大模型具备了‘思考’能力,通往AGI再也没有障碍”。如今,o3较o1获得大幅进步,也再次证明了增加推理时间是一条有效路径。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

OpenAI知名研究员、o1研究团队的核心科学家诺姆·布朗(Noam Brown)近期表达了对“推理时计算”技术的乐观期待。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所谓“推理时计算”技术,是扩展推理过程中的计算量,让大模型能够在推理阶段进行更深入的思考和计算,从而解决更复杂的问题。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

诺姆·布朗认为,在Scaling Law法则下,通过扩大预训练规模来提升模型性能虽行之有效,但其所伴随的高昂成本问题不容忽视,并且从长远来看,这种方式必然会遭遇发展瓶颈,难以为继。而“推理时计算”技术的出现,为解决这一瓶颈提供了全新的思路,将加速AGI的到来。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

o1和o3大模型是“推理时计算”技术迭代出来的大模型,可以自主学习策略、拆解任务、识别并纠正错误,更深入地推理和解决更复杂的问题。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

并且,据透露,OpenAI内部也意识到了靠扩大预训练规模无法实现AGI,“推理时计算”也是他们寻找的新突破口。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“‘推理时计算’技术的意义被大大低估了,而且目前这项技术处于早期发展阶段,未来会有巨大的提升空间。” 诺姆·布朗介绍说,当大模型“思考”更长时间时,它开始展现出一些原本需要人工添加到模型中的能力,比如尝试不同的策略、将复杂问题拆解成数个子问题、识别并自我纠正错误。这也是研究人员们相信“推理时计算”是通往AGI的关键路径的原因。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

o3被寄予厚望

作为推理模型的升级版,o3的多项性能表现堪称卓越,从测试成绩看称得上是碾压目前市面上的大模型。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在真实世界软件任务评估(HumanEval-Verified)中,o3编程能力的准确率为71.7%,比o1提升20%以上;在竞争性代码编程平台(Competition Code)上,评分为2727分,超过了OpenAI首席科学家的2665分,而o1为1891分。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数学推理能力方面,在美国数学奥林匹克考试(AIME)中,o3只漏掉了一个题,准确率为96.7%,在博士级科学问题测试(GPQA Diamond)中,准确率为87.7%,而人类专家的平均水平为70%。在前沿数学基准测试EpochAI Frontier Math中,准确率超过o1 10倍。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最让业界震惊的,是它在Arc AGI测试中的表现。Arc AGI是法国人工智能开发者弗朗索瓦·肖莱(François Chollet)2019年设计的,目前公认为衡量AI系统在数学和逻辑问题水平的一种权威测试。在该项测试中,o3低算力配置下的准确率为75.7%,高算力下的准确率为87.5%,而人类平均水平为85%。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这些性能表现,尤其是在Arc AGI的测试成绩,表明AI在即时学习新规则和进行推理方面,已经胜过人类。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有从业者甚至表示,OpenAI o3是通往AGI(通用人工智能)的关键一步,或者说在通往AGI的路上已经没有任何障碍。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

狂热的另一面

也有不少研究者和科学家冷静看待。在o3测试中,有两个问题引起了从业人员的关注。一是太过昂贵。Arc AGI研究人员透露,在高算力配置下,o3完成每个任务需要花费3400美元。短期内,这种高昂成本是其商业化的绊脚石。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型训练是典型的“烧钱游戏”。据透露,GPT-4的训练成本超1亿美元,而正在研发中的GPT-5,6个月的训练仅算力成本就达5亿美元。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

二是o3还会犯简单的推理错误。弗朗索瓦·肖莱认为,o3能够适应以前从未遇到过的任务,在ARC-AGI领域接近人类水平。但是,通过ARC-AGI测试拿到高分并不等同于实现AGI,“实际上,我认为o3还不是AGI。o3在一些非常简单的任务上仍然会失败,这表明它与人类智能存在根本性的差异。”H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弗朗索瓦·肖莱后面的这句话,也正是一些科学家所强调的。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI机器视觉知名学者、香港大学计算与数据科学学院院长兼数据科学研究院院长马毅说,现在的大模型只有Knowledge(知识),没有intelligence(智能),“知识是智能活动的积分,而智能是知识的微分”。GPT-4有知识,但没有智能;新生儿有智能,不一定有知识,但一个新生儿很可能变成下一代爱因斯坦。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一位在硅谷工作的AI工程师说,o3虽然多项性能表现卓越,但仍然只是OpenAI推理模型的第二代,不宜过分拔高。而且其测试样本(人数)有限,不能就此得出结论说它的智慧就已经在整体上达到甚至超越人类的专家水平。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

幻觉难题待解

能思考、懂推理的人工智能,会不会犯错?H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人工智能近两年的快速发展,尤其是大模型的高速迭代,涌现了一些需要重新厘定的新问题。比如,谷歌发布量子芯片Willow后,阿里云创始人王坚院士就提出,特定装置下量子计算的“计算”,与传统计算机的“计算”,是不是同一个定义,值得探索。同样,以OpenAI o3在编程和数学推理能力表现出的intelligence,与人类的intelligence,是不是同一个定义,也值得探讨。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

至今仍存在的大模型幻觉问题是一项行业难题。所谓幻觉,是指大模型或垂直模型生成的部分信息,貌似合理却自相矛盾,一本正经却完全错误。这类似于人类的说谎。在金融、医疗、公共安全等领域,如果模型生成的关键信息不准确,而人工在后期又不加以甄别,可能酿成严重后果。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

OpenAI 的语音转写工具Whisper 最近被曝出现较大比例的幻觉现象。密歇根大学研究员发现,Whisper 每10份音频转录中有8份出现幻觉;有机器学习工程师称其分析的超100小时转录文件约一半出现幻觉。今年10月有媒体报道,美国很多医生和医疗机构利用Whisper来转录医生与患者的会诊,比如包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内的超30000名临床医生和40个医疗系统,使用由Nabla公司基于Whisper开发的工具,该工具已用于转录约700万次医疗就诊。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

虽然去年5月OpenAI 就宣布找到了防止或减少模型幻觉的办法,也就是该公司官方论文所说的,“通过过程监督改进数学推理”,但Whisper转录的医疗诊断或用药诊断,出现如此高比例的幻觉,依然令业界惊讶。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

幻觉正是ChatGPT、谷歌Bard等大模型在知识领域突飞猛进,在智能方面却存在明显缺陷的典型表现。人类说谎,轻则报以道德训诫,重则施以法律规制,而对付机器说谎,也必须“与人类对齐”。这是包括OpenAI在内,在通往AGI的路上必须解决的重大课题。H3F速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:AGI走到分岔路口 大模型“思考力”被低估http://www.sushuapos.com/show-2-9856-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 评论丨“臭车风波”背后:司机生存困境与平台整改难题

下一篇: 深圳“天空之城”这一年:政策基建充当排头兵 低空应用探索紧随其后

热门资讯

  • 我国成功研制可靶向送药的磁驱软体机器人

    中国科学院深圳先进技术研究院15日发布消息称,该院科研团队研发了一种具有靶向送药功能的磁驱软体机器人,该机器人能够根据器官内部环境的特点选择合

  • AI领域,重磅消息传来!

    AI领域,一则重磅消息传来!最新消息,全球最知名的AI公司——OpenAI将在几个月内发布新版大型语言模型GPT-5,性能将有大幅跃升。目前,ChatGPT使用

  • 日学者提出“深海激励化学”新概念

    日本《朝日新闻》近日发表题为《深海之光——极端环境是创意宝库》的文章,作者是樱井林太郎,编译如下:在被称为最后未开垦地的深海,有着低温

  • 自主研制!哈工大“天都二号”探月卫星成功发射

    科技日报从哈尔滨工业大学获悉,北京时间2024年3月20日8时31分28秒,“天都一号”“天都二号”通导技术试验星伴随探月工程四期鹊桥二号中继星任务搭乘

  • 每12个恒星或有一个吞过行星

    据《自然》20日消息称,天文学家对91对恒星所作的光谱分析显示,大约每12个恒星中就有一个可能吞噬了一个行星。在吞噬一个行星后,恒星的化学构成可能发

  • 科学新发现丨有史以来最大的三维宇宙地图发布

    根据《天体物理学杂志》的最新报道,一个国际天文学家团队利用欧洲空间局的盖亚(Gaia)太空望远镜收集的数据,创建了迄今为止最庞大的三维宇宙地图。该地

  • 原来,中国空间站里“四季如春”

    春,推也。从草从日,草春时生也。进入春日,人们时常能在大地回暖、万物复苏中见证旺盛的生命力。一起解锁空间站里的“春日关键词”,感受太空中的“春日

  • “AI热潮”有人欢喜又有人忧:新兴市场遭资金外流!

      “AI热潮”有人欢喜又有人忧:新兴市场遭资金外流!  财联社3月20日讯(编辑 黄君芝)巴西亿万富翁、巴西金融公司Banco BTG Pactual SA创始人Andre Esteves表示,人工智能(AI

  • vivo X Fold3首发碳纤维龙骨铰链:比苹果 15 Pro Max还轻薄

    3月23日消息,vivo即将于3月26日发布vivo X Fold3系列折叠屏电话,其中包含vivo X Fold3和vivo X Fold3 Pro两款新品。据悉,vivo X Fold3采用了首发的碳纤维

  • 英国2026年试飞电动“飞的”

    据英国《每日电讯报》网站3月18日报道,根据英国政府的新航空计划,首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出

  • 站在“气候行动最前线”,我们该如何行动?

    联合国政府间气候变化专门委员会(IPCC)最新发布的评估报告显示,全球温升预计在2021年至2040年内达到1.5℃。报告指出,自IPCC第五次评估报告发布以来,全

  • 吸烟会增加腹部脂肪

    科学杂志《成瘾》3月21日发表的一项新研究显示,刚开始吸烟和终生吸烟都可能增加腹部脂肪,特别是内脏脂肪。内脏脂肪与心脏病、糖尿病、中风和痴呆症

推荐资讯

  • 日榜
  • 周榜
  • 月榜