设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

当心!AI生成数据模型会崩溃

发布时间: 来源: 中国科学报

 Jix速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

英国科学家研究表示,用AI生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。该研究显示,原始内容会在数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。相关研究7月24日发表于《自然》。Jix速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

生成式AI工具越来越受欢迎,如大语言模型(LLM)等,这类工具主要用人类生成的输入进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。Jix速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

牛津大学的Ilia Shumailov和同事用数学模型演示了AI模型可能会如何出现模型崩溃。研究证明一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集来自我训练。Shumailov和同事还研究了AI模型会如何应对主要用人工智能生成的训练数据集。Jix速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致模型崩溃。他们测试的几乎所有递归训练语言模型都容易出现重复短语。比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。Jix速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

研究者表示,对于使用前几代生成的训练数据集的AI模型来说,模型崩溃的一个不可避免的结局。为了让人工智能成功使用其自身输出进行训练,Shumailov和同事认为用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。Jix速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

相关论文信息:Jix速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

 https://doi.org/10.1038/s41586-024-07566-yJix速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图为在上海科技创新成果展上拍摄的科学刊物展台。新华社记者 方喆摄 一直以来,学者们向学术期刊投稿面临着激烈竞 12月18日,2023年度国家自然科学基金管理工作会议在北京召开。会议回顾总结2023年科学基金资助与管理工作,介绍新时期 12月17日,上海交通大学中银科技金融学院第一届科技成果转化大赛进行决赛。 中国银行上海市分行行长、党委书记张守川,上海 法国政府近日推出“2030国家生物多样性战略”,包括40项措施和200项行动,旨在保护和恢复生态系统、减少对生物多样性的 “这些小胶质细胞在tau蛋白病变有效地扩散到下一个细胞之前就开始吸收并降解tau蛋白。没有tau病理学,就不会有神经退 文 | 《中国科学报》记者 张双虎 1月19日,“国家工程师奖”表彰大会在人民大会堂举行,81名个人被授予“国家卓越工程师” 。

本文链接:当心!AI生成数据模型会崩溃http://www.sushuapos.com/show-11-9250-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 天气湿热巧调理

下一篇: 有更多证据表明带状疱疹疫苗可以预防痴呆

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜