设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

何恺明刘壮新作:消除数据集偏差的十年之战

2024-03-17 20:21:54 来源: 量子位

神经网络越来越强大,利用数据集偏差的能力也越来越厉害了pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MIT新晋副教授何恺明,新作新鲜出炉:pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

瞄准一个横亘在AI发展之路上十年之久的问题:数据集偏差。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

该研究为何恺明在Meta期间与刘壮合作完成,他们在论文中指出:pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这不禁让人怀疑:我们在消除数据集偏差的战斗中,真的取得了胜利吗?pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据集偏差之战,在2011年由知名学者Antonio Torralba和Alyosha Efros提出——pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Alyosha Efros正是Sora两位一作博士小哥(Tim Brooks和William Peebles)的博士导师,而Antonio Torralba也在本科期间指导过Peebles。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当时他们发现,机器学习模型很容易“过拟合”到特定的数据集上,导致在其他数据集上表现不佳。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

十多年过去了,尽管我们有了更大、更多样化的数据集,如ImageNet、YFCC100M、CC12M等,但这个问题似乎并没有得到根本解决。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

反而,随着神经网络变得越来越强大,它们“挖掘”和利用数据集偏差的能力也越来越强了!pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了分析这个问题,何恺明团队设计了一个虚构的”数据集分类”任务。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

听名字你可能就猜到了:给定一张图像,模型需要判断它来自哪个数据集。通过看模型在这个任务上的表现,就可以了解它们捕捉数据集偏差的能力。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

现代AI轻松识破不同数据集

在实验中团队发现,各种现代神经网络架构,如AlexNet、VGG、ResNet、ViT等,在数据集分类任务上表现出惊人的一致性:它们几乎都能以超过80%的准确率区分不同数据集的图像!pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

更令人吃惊的是,这个发现在各种不同的条件下都非常稳健:pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不管是不同的数据集组合、不同的模型架构、不同的模型尺寸、不同的训练数据量,还是不同的数据增强方法,神经网络始终能轻松”一眼识破”图像的数据集来源。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么,神经网络是如何做到这一点的呢?是靠单纯的记忆,还是学到了一些更普适的规律?pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了揭开谜底,团队做了一系列对比实验。他们发现,如果把不同的数据集随机混在一起,神经网络就很难再区分它们了(准确率下降到了33%)。这说明,神经网络并不是在单纯地记忆每一张图像,而是真的学到了一些数据集特有的模式。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

更有趣的是,即使在自监督学习的设置下,神经网络也展现出了惊人的”数据集辨识力”。在这种设置下,模型在训练时并没有用到任何数据集的标签信息,但当在这些自监督学习到的特征上训练一个简单的线性分类器时,它依然能以超过70%的准确率区分不同的数据集!pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通过这一系列的实验,何恺明、刘壮等人的研究给我们敲响了警钟:尽管这十年我们一直在努力构建更大、更多样化的数据集,但数据集偏差这个问题似乎并没有得到根本解决。相反,现代神经网络越来越善于利用这些偏差来获得高准确率,但这可能并不代表它们真正学到了鲁棒、普适的视觉概念。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

论文的最后,作者呼吁整个AI社区重新审视数据集偏差这个问题,并重新思考如何在算法和数据两个层面上来应对这一挑战。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

CVPR最佳论文作者的通力合作

本文是何恺明在Meta期间,与Meta研究科学家刘壮合作完成。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

现在,何恺明已经正式在MIT上岗,担任电气工程与计算机科学系的助理教授。他的“开学第一课”开课即火爆,在youtube上已经有2.9万的播放量。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

和何恺明一样,刘壮本科毕业自清华,并且也是CVPR最佳论文奖得主——他是CVPR2017最佳论文DenseNet的第一作者。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2017年,刘壮从清华姚班毕业,进入加州大学伯克利分校攻读博士学位,师从Trevor Darrell,是贾扬清的同门师弟。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

博士毕业后,刘壮进入Meta AI Research工作。在此之前,他已经在Meta实习了一年多时间,期间和谢赛宁合作,发表了ConvNeXt。pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

论文地址:
https://arxiv.org/abs/2403.08632pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
https://twitter.com/liuzhuang1234/status/1768096508082008289pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

— 完 —pHA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:何恺明刘壮新作:消除数据集偏差的十年之战http://www.sushuapos.com/show-2-3865-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 来感受一下“人工智能+”,三甲医院是这样用大模型的

下一篇: 星舰失联了!SpaceX第三次发射功败垂成,但马斯克又把人类推进了一大步

热门资讯

  • 让肺部磁共振成像从“不可看”到“看得清”

    患者只需吸入特制的“氙气”,3.5秒后一幅人体肺部磁共振3D影像就呈现出来。影像中,气体可抵达肺部的位置清晰可见,患者的肺部微结构、气体交换功能情

  • 肺癌蛋白质致命弱点发现

    肺癌是全球死亡率最高的恶性肿瘤。其中非小细胞肺癌(NSCLC)占比达到85%。表皮生长因子受体(EGFR)是NSCLC最常见的驱动突变基因。现在,一个国际科学家团

  • 肠道菌群关键代谢物可增强抗癌药疗效

    记者3月17日从浙江大学获悉,该校医学院附属第二医院王良静教授团队、附属邵逸夫医院陈淑洁主任医师团队联合研究发现,一种肠道菌群产生的小分子代谢

  • 多层人造皮肤18天内长成

    美国和法国的科学家联合团队借助新的3D打印技术,开发出一种多层人造皮肤,只需18天即可长成。这种仿真皮肤可用于提升护肤品测试效率,并催生更好的皮肤

  • 人工纳米流体突触可实现存内计算

    瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬

  • Kimi累趴下了,券商仍看好

    21世纪经济报道记者雷晨 北京报道近日,国内AI领域的明星产品——Kimi智能助手,因流量激增遭遇了短暂的服务中断。月之暗面随后发布公告,对此

  • 中国气象局发布下一代大气数值模式

    中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和

  • 1799元!红米狙击一加Ace3V 简直就是来捣乱的

    一加Ace 3V刚发布,就被红米砍了一刀!随着昨天一加Ace 3V的发布,新一轮中端机的内卷终于拉开了序幕。 而且这电话售价居然还不增反降,直接1999起步。 先来回

  • 新疆:南山26米射电望远镜4Gbps宽带VLBI联测首获成功

    记者从中国科学院新疆天文台获悉,近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中,首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较

  • 新技术破解结核病“早发现早治疗”难题

    3月24日是第29个世界防治结核病日,我国的宣传主题是“你我共同努力,终结结核流行”。在北京大学社会化媒体研究中心21日举办的“技术升级,加速我国终

  • 北京首例负碳示范建筑正式亮相

    3月22日,在2024低碳建筑产业论坛上,北京首例负碳示范建筑——首程时代中心负碳示范建筑正式亮相。活动现场,中国建筑节能协会、北京绿色交

  • 中国气象局发布大地磁暴预警,可能会看到极光

    记者从中国气象局了解到,3月24日、25日和26日三天,将可能出现地磁活动,其中3月25日可能发生中等以上地磁暴甚至大地磁暴,预计地磁活动将持续到26日。在

推荐资讯

  • 日榜
  • 周榜
  • 月榜