设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

2024-04-28 16:06:41 来源: 量子位

视觉语言时代新基准IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节提出新基础模型——ViTamin,专为视觉语言时代设计。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终这一成果,入选计算机视觉顶会CVPR2024IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

视觉语言时代新基准

在视觉语言时代下,如何设计一个更好可扩展的视觉模型?IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。
  • 第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。
  • 第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。
  • 第四,混合架构:在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现,研究人员设计了ViTamin模型IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多项SOTA

零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

来自智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他们借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 – 工程系统 – 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文链接:IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://arxiv.org/pdf/2404.02132.pdfIYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
项目主页:IYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://beckschen.github.io/vitaminIYl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024http://www.sushuapos.com/show-2-5471-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 68万奖金角逐,2024华为软件精英挑战赛全球总决赛获奖名单公布!

下一篇: 谁在领导AI专利竞赛?上榜的有这些公司

热门资讯

  • “桃花癫”是种病,得治

    民俗有言:桃花开,痴子忙。昨日,一大学生患“桃花癫”登上微博热搜,引发热议。该大学生认为周围女生都喜欢自己,并向全校的女生分别告白。不仅如此,由于精

  • 洞悉竹类植物有了称手“利器”

    竹类植物是竹亚科植物的总称,与水稻、小麦、大麦和燕麦同属于禾本科BOP分支,具有重要的经济、生态和文化价值。为更好地服务竹类植物的系统进化和功

  • 新型催化剂为国内柴油发动机尾气氮氧化物处理补短板

    记者3月19日从天津大学获悉,该校环境学院刘庆岭教授团队与吉林大学于吉红院士团队以及天津工业大学梅东海教授团队合作,证明了无有机模板剂合成的具

  • 量子互联网:小荷已露尖尖角

    近日,美国纽约州立大学石溪分校科学家菲格罗阿等人在一篇发表于《自然·量子信息》上的论文中称,他们通过把两个独立的光子存储在铷气里,首次在

  • AI伴侣能否带来亲密关系

    自2023年以来,人工智能的“触角”已延伸到生活的方方面面。其中,“人工智能+情感”的赛道正悄然崛起。目前,国内外已经出现了多款较为成熟的AI伴侣应

  • Sora带来的深层次影响值得关注

    2024年2月,OpenAI公司推出了文生视频人工智能(AI)模型Sora。OpenAI展示了Sora利用少量简短文字提示即可创建逼真视频的能力,并提供了包括一位女士在闪

  • AI芯片巨头低调赚钱

      AI芯片巨头低调赚钱  骆轶琪  在过去一年半导体行业下行周期中,除了英伟达以GPU霸主身份实现业绩快速成长之外,另一些主营虽非GPU,但是立足于AI定制芯片市场的半导体巨

  • huawei回应P70预售时间曝光:假的 最近没有官方消息透露

    3月22日消息,根据huawei旗舰机型迭代策略,今年上半年将发布影像旗舰huaweiP70系列。然而,这两天一张流出的图片声称huaweiP70将于3月23日开始预售,并附有各

  • 曝huaweiMate60已停产!P70蓄势待发:下个月见

    近日有消息称,huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型,huaweiMate60的停产意味着huawei新款旗舰或即将上市,接替Mate60。2023

  • 京东与OPPO重磅合作:销售额3年翻倍!

    3月23日消息,京东与OPPO战略合作协议签约仪式举行,双方签订未来三年OPPO在京东全渠道实现销售额同比增长100%的目标。在签约仪式上,OPPO高级副CEO、首席产

  • 男孩捡17岁女生iPhone电话归还反被讹200元引热议:最终获道歉

    3月24日消息,今日一则#男孩捡17岁女生电话归还反被讹200#的话题登上微博热搜,引发网民热议。据报道,3月23日,山西长治。郭女士父亲捡到一台iPhone电话,归还

  • “捕风捉光”,气象服务助力新能源发电

    今年3月23日是第64个世界气象日,主题是“气候行动最前线”。面对愈加频繁的极端天气和全球变暖等气候危机,减缓气候变化已刻不容缓。发展新能源是应

推荐资讯

  • 日榜
  • 周榜
  • 月榜