OpenAI最新模型打不动了？GPT-5.2因“降智”陷“差评潮”

发布时间: 2025-12-17 10:19:27 来源：界面新闻

观看：70

该模型上线后遭到大量用户吐槽，认为其从常识问答到情感交互，“智商不稳定”。

OpenAI推出不到一周的最新旗舰模型没能等来“好评如潮”。

近日，OpenAI在十周年之际发布了GPT-5.2系列模型，官方数据显示其在GDPval等专业基准测试中超越人类专家，是迄今为止在“专业知识工作方面”表现最好的模型。

据OpenAI官方披露，GPT-5.2在多领域实现技术突破：GDPval测试中覆盖44个职业的任务表现70.9%优于顶尖专家，SWE-bench Pro编程测试获55.6%的SOTA成绩，还将幻觉率较GPT-5.1降低38%。该公司CEO山姆·奥特曼称其为“许久以来最大的升级”，并透露计划2026年1月解除应对谷歌竞争的“红色警报”。

但该模型上线后遭到大量用户吐槽，认为其从常识问答到情感交互，“智商不稳定”。

SimpleBench常识推理测试显示，GPT-5.2得分低于Anthropic发布的Claude Sonnet 3.7，甚至在“garlic有几个r”的基础问题上反复出错——有用户三次测试仅一次答对，而谷歌的Gemini 3.0等竞品均稳定通关。该测试旨在评估大模型在处理普通人认为简单，但对机器而言充满挑战的逻辑推理任务的能力。前AWS总经理Bindu Reddy直言，“不值得从GPT-5.1升级”。

网友晒出的网友晒出GPT-5.2在SimpleBench上的成绩单。

一些编程爱好者则发现，GPT-5.2生成的交通灯模拟代码画面仅达“黑白火柴人级别”，蒙娜丽莎ASCII艺术创作效果远逊于GPT-4o。情感交互中有用户倾诉“恐慌发作”，竟收到“很高兴听到这个消息”的回复，安慰失宠孩童时则机械强调“生物都会停止运作”，缺乏此前版本的亲和力和自然表达。

此外，该版本在处理连续对话时不稳定，甚至在明确选择“高级思考模式”时也会返回低质量的自动响应，令用户不得不重新调整使用方式。

还有用户表示，GPT-5.2的安全策略实施过于严格，在执行普通且无风险的请求时也会拒绝操作并给出无关的安全提示。

有观察人士指出，这轮差评潮背后存在几重因素。一方面，OpenAI推广时着重强调GPT-5.2的专业能力和基准测试成绩，但普通用户更关注日常对话、流畅性和创造性体验，两者的期望存在错位；另一方面，由于竞争加剧和内部发布节奏加快，有观点认为该版本可能发布过早，尚未充分优化在关键使用场景中的稳定性与一致性，因此用户的实际感受出现明显落差。

截至发稿，OpenAI尚未就这轮用户反馈作出公开回应，但公司在官方资料中表示，会持续改善用户体验、优化安全策略，并根据用户反馈推进后续版本的迭代。

当前，OpenAI仍面临来自谷歌的巨大竞争压力。谷歌此前推出的Gemini 3在编程、多模态理解等关键企业应用场景上实现了对ChatGPT的性能超越。11月，谷歌宣布Gemini月活跃用户已突破6.5 亿，较7月报告的4.5亿实现大幅增长，而OpenAI披露的周活跃用户数接近8亿。

为此，奥特曼曾发布“红色代码”警报，决定暂时搁置包括Sora视频生成器在内的长期研发项目，转而在短期内全力通过提升用户活跃度来巩固ChatGPT的大众市场地位。但急转直下的口碑或在很大程度上影响ChatGPT的使用率，OpenAI能否拿出更强有力的“武器”反击谷歌仍存在不确定性。

该模型上线后遭到大量用户吐槽，认为其从常识问答到情感交互，“智商不稳定”。

OpenAI推出不到一周的最新旗舰模型没能等来“好评如潮”。

近日，OpenAI在十周年之际发布了GPT-5.2系列模型，官方数据显示其在GDPval等专业基准测试中超越人类专家，是迄今为止在“专业知识工作方面”表现最好的模型。

据OpenAI官方披露，GPT-5.2在多领域实现技术突破：GDPval测试中覆盖44个职业的任务表现70.9%优于顶尖专家，SWE-bench Pro编程测试获55.6%的SOTA成绩，还将幻觉率较GPT-5.1降低38%。该公司CEO山姆·奥特曼称其为“许久以来最大的升级”，并透露计划2026年1月解除应对谷歌竞争的“红色警报”。

但该模型上线后遭到大量用户吐槽，认为其从常识问答到情感交互，“智商不稳定”。

SimpleBench常识推理测试显示，GPT-5.2得分低于Anthropic发布的Claude Sonnet 3.7，甚至在“garlic有几个r”的基础问题上反复出错——有用户三次测试仅一次答对，而谷歌的Gemini 3.0等竞品均稳定通关。该测试旨在评估大模型在处理普通人认为简单，但对机器而言充满挑战的逻辑推理任务的能力。前AWS总经理Bindu Reddy直言，“不值得从GPT-5.1升级”。

网友晒出的网友晒出GPT-5.2在SimpleBench上的成绩单。

一些编程爱好者则发现，GPT-5.2生成的交通灯模拟代码画面仅达“黑白火柴人级别”，蒙娜丽莎ASCII艺术创作效果远逊于GPT-4o。情感交互中有用户倾诉“恐慌发作”，竟收到“很高兴听到这个消息”的回复，安慰失宠孩童时则机械强调“生物都会停止运作”，缺乏此前版本的亲和力和自然表达。

此外，该版本在处理连续对话时不稳定，甚至在明确选择“高级思考模式”时也会返回低质量的自动响应，令用户不得不重新调整使用方式。

还有用户表示，GPT-5.2的安全策略实施过于严格，在执行普通且无风险的请求时也会拒绝操作并给出无关的安全提示。

有观察人士指出，这轮差评潮背后存在几重因素。一方面，OpenAI推广时着重强调GPT-5.2的专业能力和基准测试成绩，但普通用户更关注日常对话、流畅性和创造性体验，两者的期望存在错位；另一方面，由于竞争加剧和内部发布节奏加快，有观点认为该版本可能发布过早，尚未充分优化在关键使用场景中的稳定性与一致性，因此用户的实际感受出现明显落差。

截至发稿，OpenAI尚未就这轮用户反馈作出公开回应，但公司在官方资料中表示，会持续改善用户体验、优化安全策略，并根据用户反馈推进后续版本的迭代。

当前，OpenAI仍面临来自谷歌的巨大竞争压力。谷歌此前推出的Gemini 3在编程、多模态理解等关键企业应用场景上实现了对ChatGPT的性能超越。11月，谷歌宣布Gemini月活跃用户已突破6.5 亿，较7月报告的4.5亿实现大幅增长，而OpenAI披露的周活跃用户数接近8亿。

为此，奥特曼曾发布“红色代码”警报，决定暂时搁置包括Sora视频生成器在内的长期研发项目，转而在短期内全力通过提升用户活跃度来巩固ChatGPT的大众市场地位。但急转直下的口碑或在很大程度上影响ChatGPT的使用率，OpenAI能否拿出更强有力的“武器”反击谷歌仍存在不确定性。

记者从中国科学院金属研究所获悉，该所沈阳材料科学国家研究中心胡卫进研究员与合作者，提出利用缓冲层定量调控薄膜应变，延迟铁电薄膜晶格弛豫从而增强铁电极化强度的策略，成功揭示极化强度同铁电 3月17日，记者从海南大学获悉，该校化学化工学院副教授李萌婷与相关研究团队合作，合成了多功能复合金纳米花颗粒。该颗粒配合温和光热、光动力、药物控释联合疗法，可有效促进感染性组织再生修复。记者3月17日从浙江大学获悉，该校医学院附属第二医院王良静教授团队、附属邵逸夫医院陈淑洁主任医师团队联合研究发现，一种肠道菌群产生的小分子代谢物吲哚丙酸，可以增强抗癌药物抗PD-1单抗对结　　“AI热潮”有人欢喜又有人忧：新兴市场遭资金外流！　　财联社3月20日讯(编辑黄君芝)巴西亿万富翁、巴西金融公司Banco BTG Pactual SA创始人Andre Esteves表示，人工智能(AI)股票持续上涨导致发展中国家资本市场资金 3月23日消息，京东与OPPO战略合作协议签约仪式举行，双方签订未来三年OPPO在京东全渠道实现销售额同比增长100%的目标。在签约仪式上，OPPO高级副CEO、首席产品官刘作虎表示，2024年线上突破是OPPO中国区 3月24日，据央视财经消息，在今天开幕的中国发展高层论坛2024年年会现场，苹果公司首席执行官蒂姆·库克回应记者提问表示，苹果公司的Apple Vision Pro头显产品将在今年年内于中国市场上市，。

本文链接：OpenAI最新模型打不动了？GPT-5.2因“降智”陷“差评潮”http://www.sushuapos.com/show-2-14526-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：这款锂电池针刺也不燃，可充电1000次

下一篇：空调行业“铝代铜”问题再引关注，格力董明珠最新回应

OpenAI最新模型打不动了？GPT-5.2因“降智”陷“差评潮”

热门资讯

推荐资讯

科技最热文章