设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

IDC、智源最新一期大模型评测结果出炉

发布时间: 来源: 中国科学报

 MyZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

6月17日记者获悉,由北京智源研究院(以下简称智源)打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三,GPT-4o、百川、零一万物、kimi等紧随其后。MyZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

智源FlagEval榜单截图。 来源:智源MyZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据了解,FlagEval天秤大模型评测平台是北京智源研究院推出的开放的大模型评测体系,自2023年发布以来,该评测平台已从主要面向语言模型扩展到视频、语音、多模态模型,实现多领域全覆盖,目前已评测国内外 300 余个开源和商业闭源的语言及多模态大模型。资料显示,FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。6月的评测结果显示,在中文语境下,文心大模型等国内头部语言模型的综合表现出色。
MyZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

就在上周,国际数据公司(IDC)发布的《中国大模型市场主流产品评估,2024》中,百度文心一言、阿里通义千问和OpenAI GPT-4等也位于第一梯队,其中,百度是唯一一家在问答理解类、推理类、创作表达类、数学类、代码类的基础能力,toC通用场景类、toB特定行业类的应用能力等7个维度上均为“优势厂商”的企业。阿里获6项优势维度,OpenAI GPT-4和商汤分获5项。MyZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  ?MyZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

截图自IDC《中国大模型市场主流产品评估,2024》。MyZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

陈志潜(1903—2000),生于四川成都。公共卫生学家、医学教育家、中国近现代农村公共卫生体系的开创者。1929年毕业于北京协 教育、科技、人才三者相互促进、相辅相成。如何构建符合人才成长规律的教育评价机制,让更多优秀的科技人才脱颖而出?如何 美国哈佛大学校长克洛迪娜·盖伊当地时间1月2日发表声明,宣布辞去哈佛大学校长一职。 盖伊在声明中说,她 省教育厅关于下达2024年普通高校“专转本”计划的通知 苏教学函〔2023〕22号 各有关高校: 根据《省教育厅关于做好2024年 浙江省科学技术厅浙江省自然科学基金委员会关于下达2024年度浙江省基础公益研究计划自筹经费项目的通知 各有关单位: 为 关于2023年度上海市专业技术服务平台建设立项的通知 各有关单位: 为加快实施创新驱动发展战略,进一步推进上海市专业技术 。

本文链接:IDC、智源最新一期大模型评测结果出炉http://www.sushuapos.com/show-11-7354-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 中国科大人工智能与人形机器人前沿论坛举行

下一篇: 灵长类动物研究显示:Y染色体进化速度快于X染色体

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜