快讯科技财经汽车社会旅游娱乐时尚健康生活科学教育

热搜：内地买家入搭载2.8吨京东618全 “十五五” 【好评中国重庆：首批配有十大猥琐

首页 > 科技

AGI走到分岔路口大模型“思考力”被低估

发布时间: 2024-12-25 17:26:28 来源：

观看：180

21世纪经济报道记者孔海丽北京报道

OpenAI的圣诞节惊喜比原定多持续了一天，第13天，OpenAI CEO 塞姆·奥特曼（Sam Altman）宣布，圣诞假期期间为所有plus用户提供无限次使用Sora的机会，这原本是月费200美元的Pro用户才有的待遇。

连续12天的新品发布中，OpenAI先后拿出了完整版o1、加强版Sora、ChatGPT Search、电话功能、新模型o3。

尤其是o3，被评为OpenAI的“大杀器”，也就是推理模型o1的第二代。为了避开与英国知名电信运营商o2可能的知识产权纠纷，OpenAI推理模型系列跳过o2，直接命名为o3。

但OpenAI的ChatGPT-5却迟迟不见动静。据知情人士透露，该项目已开发超过18个月，成本花费巨大，却仍未取得预期成果——Scaling Law的暴力美学似乎已经遇到瓶颈，更大的参数、更多的数据，已经不能为AI大模型带来质的飞跃。

当扩大AI大模型的训练规模失去“高回报”，OpenAI强调推理时间、思考时长的o系列，会是解题思路吗？

被低估的推理路线

OpenAI o系列发布时，就有观点认为，“当大模型具备了‘思考’能力，通往AGI再也没有障碍”。如今，o3较o1获得大幅进步，也再次证明了增加推理时间是一条有效路径。

OpenAI知名研究员、o1研究团队的核心科学家诺姆·布朗（Noam Brown）近期表达了对“推理时计算”技术的乐观期待。

所谓“推理时计算”技术，是扩展推理过程中的计算量，让大模型能够在推理阶段进行更深入的思考和计算，从而解决更复杂的问题。

诺姆·布朗认为，在Scaling Law法则下，通过扩大预训练规模来提升模型性能虽行之有效，但其所伴随的高昂成本问题不容忽视，并且从长远来看，这种方式必然会遭遇发展瓶颈，难以为继。而“推理时计算”技术的出现，为解决这一瓶颈提供了全新的思路，将加速AGI的到来。

o1和o3大模型是“推理时计算”技术迭代出来的大模型，可以自主学习策略、拆解任务、识别并纠正错误，更深入地推理和解决更复杂的问题。

并且，据透露，OpenAI内部也意识到了靠扩大预训练规模无法实现AGI，“推理时计算”也是他们寻找的新突破口。

“‘推理时计算’技术的意义被大大低估了，而且目前这项技术处于早期发展阶段，未来会有巨大的提升空间。” 诺姆·布朗介绍说，当大模型“思考”更长时间时，它开始展现出一些原本需要人工添加到模型中的能力，比如尝试不同的策略、将复杂问题拆解成数个子问题、识别并自我纠正错误。这也是研究人员们相信“推理时计算”是通往AGI的关键路径的原因。

o3被寄予厚望

作为推理模型的升级版，o3的多项性能表现堪称卓越，从测试成绩看称得上是碾压目前市面上的大模型。

在真实世界软件任务评估（HumanEval-Verified）中，o3编程能力的准确率为71.7%，比o1提升20%以上；在竞争性代码编程平台（Competition Code）上，评分为2727分，超过了OpenAI首席科学家的2665分，而o1为1891分。

数学推理能力方面，在美国数学奥林匹克考试（AIME）中，o3只漏掉了一个题，准确率为96.7%，在博士级科学问题测试（GPQA Diamond）中，准确率为87.7%，而人类专家的平均水平为70%。在前沿数学基准测试EpochAI Frontier Math中，准确率超过o1 10倍。

最让业界震惊的，是它在Arc AGI测试中的表现。Arc AGI是法国人工智能开发者弗朗索瓦·肖莱（François Chollet）2019年设计的，目前公认为衡量AI系统在数学和逻辑问题水平的一种权威测试。在该项测试中，o3低算力配置下的准确率为75.7%，高算力下的准确率为87.5%，而人类平均水平为85%。

这些性能表现，尤其是在Arc AGI的测试成绩，表明AI在即时学习新规则和进行推理方面，已经胜过人类。

有从业者甚至表示，OpenAI o3是通往AGI（通用人工智能）的关键一步，或者说在通往AGI的路上已经没有任何障碍。

狂热的另一面

也有不少研究者和科学家冷静看待。在o3测试中，有两个问题引起了从业人员的关注。一是太过昂贵。Arc AGI研究人员透露，在高算力配置下，o3完成每个任务需要花费3400美元。短期内，这种高昂成本是其商业化的绊脚石。

大模型训练是典型的“烧钱游戏”。据透露，GPT-4的训练成本超1亿美元，而正在研发中的GPT-5，6个月的训练仅算力成本就达5亿美元。

二是o3还会犯简单的推理错误。弗朗索瓦·肖莱认为，o3能够适应以前从未遇到过的任务，在ARC-AGI领域接近人类水平。但是，通过ARC-AGI测试拿到高分并不等同于实现AGI，“实际上，我认为o3还不是AGI。o3在一些非常简单的任务上仍然会失败，这表明它与人类智能存在根本性的差异。”

弗朗索瓦·肖莱后面的这句话，也正是一些科学家所强调的。

AI机器视觉知名学者、香港大学计算与数据科学学院院长兼数据科学研究院院长马毅说，现在的大模型只有Knowledge（知识），没有intelligence（智能），“知识是智能活动的积分，而智能是知识的微分”。GPT-4有知识，但没有智能；新生儿有智能，不一定有知识，但一个新生儿很可能变成下一代爱因斯坦。

一位在硅谷工作的AI工程师说，o3虽然多项性能表现卓越，但仍然只是OpenAI推理模型的第二代，不宜过分拔高。而且其测试样本（人数）有限，不能就此得出结论说它的智慧就已经在整体上达到甚至超越人类的专家水平。

幻觉难题待解

能思考、懂推理的人工智能，会不会犯错？

人工智能近两年的快速发展，尤其是大模型的高速迭代，涌现了一些需要重新厘定的新问题。比如，谷歌发布量子芯片Willow后，阿里云创始人王坚院士就提出，特定装置下量子计算的“计算”，与传统计算机的“计算”，是不是同一个定义，值得探索。同样，以OpenAI o3在编程和数学推理能力表现出的intelligence，与人类的intelligence，是不是同一个定义，也值得探讨。

至今仍存在的大模型幻觉问题是一项行业难题。所谓幻觉，是指大模型或垂直模型生成的部分信息，貌似合理却自相矛盾，一本正经却完全错误。这类似于人类的说谎。在金融、医疗、公共安全等领域，如果模型生成的关键信息不准确，而人工在后期又不加以甄别，可能酿成严重后果。

OpenAI 的语音转写工具Whisper 最近被曝出现较大比例的幻觉现象。密歇根大学研究员发现，Whisper 每10份音频转录中有8份出现幻觉；有机器学习工程师称其分析的超100小时转录文件约一半出现幻觉。今年10月有媒体报道，美国很多医生和医疗机构利用Whisper来转录医生与患者的会诊，比如包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内的超30000名临床医生和40个医疗系统，使用由Nabla公司基于Whisper开发的工具，该工具已用于转录约700万次医疗就诊。

虽然去年5月OpenAI 就宣布找到了防止或减少模型幻觉的办法，也就是该公司官方论文所说的，“通过过程监督改进数学推理”，但Whisper转录的医疗诊断或用药诊断，出现如此高比例的幻觉，依然令业界惊讶。

幻觉正是ChatGPT、谷歌Bard等大模型在知识领域突飞猛进，在智能方面却存在明显缺陷的典型表现。人类说谎，轻则报以道德训诫，重则施以法律规制，而对付机器说谎，也必须“与人类对齐”。这是包括OpenAI在内，在通往AGI的路上必须解决的重大课题。

记者从中国科学院金属研究所获悉，该所沈阳材料科学国家研究中心胡卫进研究员与合作者，提出利用缓冲层定量调控薄膜应变，延迟铁电薄膜晶格弛豫从而增强铁电极化强度的策略，成功揭示极化强度同铁电 21世纪经济报道记者孔海丽、实习生邓熙涵北京报道“民以食为天，食与民同欢”，吃得健康、吃得安全是消费者长期以来的普遍共识。当代消费者已不止于填饱肚子，而是讲求“精耕细作”。消美国和法国的科学家联合团队借助新的3D打印技术，开发出一种多层人造皮肤，只需18天即可长成。这种仿真皮肤可用于提升护肤品测试效率，并催生更好的皮肤治疗方法。相关研究发表于新一期《先进功能据英国《每日电讯报》网站3月18日报道，根据英国政府的新航空计划，首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出租车在2030年广泛使用铺平道路。尽管在最初记者3月22日获悉，中山大学、深圳华大生命科学研究院与复旦大学的研究团队合作，揭示了多种蚊虫在不同生境下病毒的多样性、传播分布的影响因素及地理谱系特征，在多维尺度上为研究蚊虫病毒组提供随着无人驾驶技术的快速发展，无人车在城市配送、环卫清扫、安防巡逻等应用场景中已得到较好示范应用。3月22日，南京溧水经济开发区管委会与南京易咖智车科技有限公司联合举办“金陵智地易启未。

本文链接：AGI走到分岔路口大模型“思考力”被低估http://www.sushuapos.com/show-2-9856-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：评论丨“臭车风波”背后：司机生存困境与平台整改难题

下一篇：深圳“天空之城”这一年：政策基建充当排头兵低空应用探索紧随其后

AGI走到分岔路口大模型“思考力”被低估

o3被寄予厚望

狂热的另一面

幻觉难题待解

热门资讯

推荐资讯

科技最热文章

AGI走到分岔路口 大模型“思考力”被低估

o3被寄予厚望

狂热的另一面

幻觉难题待解

热门资讯

推荐资讯

科技最热文章

AGI走到分岔路口大模型“思考力”被低估