设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

Fake It until You Make It:数据合成技术,LLM时代的「血液提供商」

2024-04-13 16:05:26 来源: 量子位

填补真实数据的不足,同时应对数据稀缺和隐私问题。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

到2024年,60%的数据用于开发AI和分析项目将综合产生。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

以上是研究机构Gartner的最新预测。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它指出,许多公司已经开始使用合成数据来训练AI模型,填补真实数据的不足,同时应对数据稀缺和隐私问题。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年11月,一篇发表在Nature杂志上的研究也表明使用合成数据替代真实医疗保健数据的有效性。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Fake It until You Make It:数据合成技术,LLM时代的「血液提供商」

合成数据和表格合成数据

何为合成数据(Synthetic Data)rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它是通过算法、统计模型或生成人工智生成的数据,而非真实的观测数据。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了生成一组合成数据,需要通过算法分析原始数据从而得到原始数据中的特征分布、特征之间的关联以及特征规律等要素,再进行生成。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总的来说,合成数据具有以下优势:rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 可控性强:可根据需要控制数据的生成规则、分布特征等 ,控制合成数据部分特征;
  • 数据量大:可快速生成大量的数据;
  • 隐私保护:不涉及真实个人信息,避免隐私泄露的潜在风险。

那么,何为表格合成数据(Taublar Synthetic Data)rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

表格合成数据是结构化的数据,具有明确的列和行,适用于需要处理大量结构化数据的情况。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

相比之下,其他合成数据可能是非结构化的文本、图像或音频数据,处理起来更为复杂。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

表格合成数据可以更容易地模拟真实世界中的业务场景和数据分布。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实际业务中,许多公司需要处理大量的结构化数据,如销售数据、客户信息、财务报表等。通过使用表格合成数据,这些公司可以更快地构建和训练AI模型。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为何使用合成数据?

在数据驱动的时代,真实数据在数据分析应用中的价值和效果是显著的,但收集真实数据不仅费时费力,而且成本高昂。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另外,使用真实数据进行分析并公开结果可能引发数据泄露问题,甚至法律纠纷等问题。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

即使数据经过脱敏处理,现代攻击手段如数据推断攻击、数据重构攻击等仍可能恢复出敏感信息。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

来自哈工大(深圳)数据安全研究院的研究人员注意到,通过使用合成数据就是一种规避手段。在某些情况下,它比现实世界中的同类产品更安全、更便宜、同样有效:rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先,更安全rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据不存在现实世界数据的错误或隐私泄漏问题,可以自由共享且不会损害用户隐私rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其次,更便宜rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据还可以定制化地按照规则进行大规模生成。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

再者,同样有效rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

来自数据安全研究院的研究人员创建了一组开源组件(合成数据生成器,SDG),并由研究院的数据科学家、工程师研发了一系列配套的算法,研究人员发现,在超过80%的实际测试中,合成数据可以媲美真实数据的效果。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

表格合成数据的典型应用场景

Fake It until You Make It:数据合成技术,LLM时代的「血液提供商」

合成数据的有以下典型应用场景:rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据集不平衡:通过控制合成数据的标签、特征比例,可以有效解决数据不平衡问题;rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据脱敏:传统数据脱敏场景中,采用遮盖方法屏蔽关键信息,会显著降低数据质量,且仍存在隐私泄漏风险,使用数据合成技术替换脱敏技术,可以有效提升数据质量,并规避隐私风险。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

政务数据开放:和数据脱敏场景类似,合成数据可以最大限度避免数据开放所带来的隐私泄漏风险。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI模型训练:合成数据已经大量用于AI模型训练,用于应对数据的不足,数据稀缺,隐私等问题。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

业务系统测试:合成数据可以模拟真实数据的情况,帮助测试人员在不接触真实数据的情况下进行测试,提高测试效率和准确性。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

专用于表格数据合成的开源组件

合成数据生成器(Synthetic Data Generator,SDG)是由哈工大(深圳)刘川意教授团队开源的一款专注于结构化表格数据快速生成的组件。目前在GitHub上关注度已有1.8K stars,并已有多位Contributor。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

SDG支持多种模型,并针对执行速度、内存等方面进行专门优化,例如:合成数据生成器处理千万级别数据,这是当前其他数据合成组件做不到的。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Fake It until You Make It:数据合成技术,LLM时代的「血液提供商」

此外,合成数据生成器还集成了使用大模型的仿真技术生成模型,通过学习原始数据或者表格的元数据,LLM模型能够生成符合自然世界基本特点的数据表,与现有模型相比,这种方法支持无原始数据的合成数据生成,不需要进行繁琐的特征工程,仅凭原始数据表格的元数据(metadata)来快速生成数据表,节省了大量的时间和人力成本。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其示例如下图所示:rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Fake It until You Make It:数据合成技术,LLM时代的「血液提供商」

此外,合成数据生成器还支持表外特征的自动推断,通过学习数据表的元数据和用户提供的表外特征信息,大语言模型根据数据表的元数据和其所掌握的知识,生成高质量的表外特征数据。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

例子如下:rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Fake It until You Make It:数据合成技术,LLM时代的「血液提供商」

合成数据生成器团队还将持续维护组件,保持对工业界、学术界的最新情况追踪,适时增加新的模型;同时会根据Issue 以及实际业务需求情况,持续添加新特性以满足业务要求。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

下一步,团队将进一步推出基于大模型微调的数据合成模型。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

SDG使用Apache-2.0开源协议,并设有微信技术交流群和 Slack 交流群,欢迎开发者进行使用、反馈,提出建议。rvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

项目源码:https://github.com/hitsz-ids/synthetic-data-generator/tree/main
项目网站:https://sdg.idslab.iotrvT速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:Fake It until You Make It:数据合成技术,LLM时代的「血液提供商」http://www.sushuapos.com/show-2-4824-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 清华率先发布首份汽车行业大模型白皮书

下一篇: 喜马拉雅再度赴港IPO:2023年全年净利2.24亿元,月活用户破3亿

热门资讯

  • 人工智能重新定义职场技能

    据阿根廷布宜诺斯艾利斯经济新闻网2月19日报道,在人工智能(AI)迅速重新定义就业格局的今天,通常被称为“软”技能的人类技能成为最有韧性、最有价值

  • 专家:警惕常见睡眠认知误区

    3月21日是世界睡眠日,中国主题为“健康睡眠 人人共享”。近日发布的《2023年中国居民睡眠白皮书》显示,我国居民平均睡眠时长6.75小时,平均在零点后入

  • 甘肃首座特高压换流站迎来“新成员”

    3月18日,伴随着搬运车的轰鸣声,全国首个大规模清洁能源特高压直流输电工程的送端±800千伏特高压祁连换流站迎来了一位“新成员”—&mdas

  • 与狗互动有助放松和提高注意力

    据韩国建国大学研究人员发表在最新一期开放获取期刊《公共科学图书馆·综合》上的一项研究,与狗共度美好时光可减轻压力,同时可增强与放松和注

  • 突发!Kimi,崩了!

    因流量突然剧增,3月21日,陆续有用户在社交平台上表示,月之暗面旗下大模型应用Kimi智能助手的APP和小程序均无法正常使用。截至记者发稿时,相关

  • 植物避盐性的关键基因被发现

    记者3月21日从安徽农业大学获悉,该校生命科学学院韩毅教授课题组与国内外专家合作,发现了植物避盐性的关键基因。该研究对于提高植物耐盐性,帮助盐碱

  • 企业联合遥感数据平台 加速遥感应用迈向普惠时代

    记者3月21日获悉,商汤科技与遥感数据平台吉林一号网、四维地球、星图地球等展开合作,此举标志着“SenseEarth智能遥感云”平台数据源全面升级,将为行

  • 小龙虾能将锂离子转入食物链

    从手机到手表再到电动汽车,锂离子充电电池为众多设备提供动力。但随着消费者丢弃电子产品的增加,越来越多的锂可能会进入环境。研究人员在美国化学会

  • 限量抢!xiaomiCivi 4 Pro限定色真机照来了:3599元

    3月23日消息,xiaomi集团王晓雁晒出了xiaomiCivi 4 Pro限定色真机照,该系列共有三款颜色,分别是蓝色、粉色和黑与白,定价为3599元,将于4月1日开始发售。据了

  • 不用贴膜了!huaweiMate 70系列搭载“玄武镀膜”:防划、防反光

    3月25日消息,去年huawei在Mate 60系列上首发了玄武机身架构,采用一体化金属机身,搭配上超耐用锦纤材质,使整机的抗挤压能力提高10倍,使用更放心。“玄武”是

  • 电子导盲犬可能要来了!相关研究在我国取得新突破

    “啪嗒啪嗒......”一只机器狗在街上迈着规律的步伐,拉着牵引绳的盲人,在它的带领下越过沿路障碍,平稳地行走着,电子导盲犬能否取代传统导盲犬,解决视障

  • 第三颗“厦门造”卫星出征

    3月23日,“天卫科技03星”暨“华祥苑壹号”卫星在厦门举行出征仪式,这是由厦门本土企业天卫科技制造研发的第三颗服务当地建设的商业卫星,标志着厦门

推荐资讯

  • 日榜
  • 周榜
  • 月榜