IDC、智源最新一期大模型评测结果出炉

发布时间: 2024-06-19 15:38:31 来源：中国科学报

观看：298

6月17日记者获悉，由北京智源研究院（以下简称智源）打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三，GPT-4o、百川、零一万物、kimi等紧随其后。

智源FlagEval榜单截图。来源：智源

据了解，FlagEval天秤大模型评测平台是北京智源研究院推出的开放的大模型评测体系，自2023年发布以来，该评测平台已从主要面向语言模型扩展到视频、语音、多模态模型，实现多领域全覆盖，目前已评测国内外 300 余个开源和商业闭源的语言及多模态大模型。资料显示，FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。6月的评测结果显示，在中文语境下，文心大模型等国内头部语言模型的综合表现出色。

就在上周，国际数据公司（IDC）发布的《中国大模型市场主流产品评估，2024》中，百度文心一言、阿里通义千问和OpenAI GPT-4等也位于第一梯队，其中，百度是唯一一家在问答理解类、推理类、创作表达类、数学类、代码类的基础能力，toC通用场景类、toB特定行业类的应用能力等7个维度上均为“优势厂商”的企业。阿里获6项优势维度，OpenAI GPT-4和商汤分获5项。

?

截图自IDC《中国大模型市场主流产品评估，2024》。

细菌锰离子外排对于锰离子和铁离子稳态均具有重要意义。TerC家族蛋白是存在于所有细菌中的一种保守蛋白质。然而，长期以人工智能的进步 ChatGPT的兴起对今年的科学产生了深远影响。它的创造者，即位于美国旧金山的人工智能研究公司OpenAI，预计当地时间12月17日，美国国家航天航空局（NASA）发表声明称，受不利的天气情况影响，美国国家航天航空局和太空探索技术公司（Spa 12月19日，山东先进制造业人力资源服务供需对接活动在济南举办，活动由山东省人力资源和社会保障厅、山东产业技术研究近日，“张雪峰称文科都是服务业”这一词条引发网友关注与热议。此前，“考研名师”张雪峰还说过，即使把孩子打晕，也不要呼吸道合胞病毒在国内终于有了预防性药物。 2024年1月2日，阿斯利康与赛诺菲共同宣布，长效单克隆抗体尼塞韦单抗（商品名：乐。

本文链接：IDC、智源最新一期大模型评测结果出炉http://www.sushuapos.com/show-11-7354-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：中国科大人工智能与人形机器人前沿论坛举行

下一篇：灵长类动物研究显示：Y染色体进化速度快于X染色体

IDC、智源最新一期大模型评测结果出炉

热门资讯

推荐资讯

科学最热文章