21世纪经济报道记者林典驰 实习生林绮蓓 深圳报道
4月9日至11日,第十三届中国电子信息博览会(简称“电博会”)在深圳会展中心举行。
中国电子首席科学家蒋国飞在会上发表主题演讲,系统阐述了数据如何驱动人工智能发展,强调在算力与模型能力逐步拉平的竞争格局下,高质量数据集已成为AI发展的核心驱动力,而数据基础设施建设与数据处理技术创新是破解行业应用落地瓶颈的关键路径。
数据流通基础设施加速数据开放共享
蒋国飞谈到,人工智能发展要素可归纳为算力、数据、模型与应用四大维度。
从长期竞争来看,芯片供给能力与模型开源趋势将逐步消弭技术壁垒,而数据作为具有强知识产权属性的核心要素,正成为AI竞争的主战场。尤其是生成式AI的发展,对大规模高质量数据产生刚性需求。
他以历史经验佐证,2009年美国通过构建大规模图像数据库,为计算机视觉研究提供标准化数据集,推动了从早期深度学习到当前大模型的技术演进。
“在Scaling Law规则下,AI模型参数规模已突破2万亿级,理论上需要同等量级的有效数据支撑,否则庞大参数将无法转化为实际效能。”蒋国飞强调,数据规模与质量直接决定大模型的学习精确度与泛化能力,当前大模型训练已消耗50万亿token,预计2025年将触及人类数据总量边界。
针对行业AI应用面临的数据困境,蒋国飞指出,互联网领域的海量数据积累催生了豆包、元宝、DeepSeek等大模型发展,但进入垂直行业时,数据分散化、碎片化、质量不足等问题成为主要瓶颈。
因此,大模型非常需要建设数据流通的基础设施,加速数据开放共享,同时归集数据之后才能推动人工智能的发展。最下面一层是数据基础设施,不断汇集原材料,加工高质量数据集,利用这些数据集训练AI模型。
近两年,国家高度重视数据流通基础设施建设,提出了数场、数联网、数据元件、数据空间、隐私计算和区块链六条技术路线。中国电子作为“数据元件”概念提出者,正在北京、西安等地推进国家数据基础设施试点,致力于构建跨行业数据流动的底层架构。
高质量数据集成为AI应用发展的重点支点
数据技术归集后,更大的挑战在于如何加工高质量数据集。
谈及高质量数据集的核心特征,蒋国飞定义其为“将分散、碎片、杂乱的数据加工为高价值、高密度、标准化的数据集合”,这一过程涵盖数据归集、清洗、标注、评测等多个环节,且对技术创新提出更高要求。
在技术层面,传统数据标注正从劳动密集型向知识密集型转型。以医疗影像标注为例,医疗行业的图片只有医生能标注,非常难适应AI时代对数据的要求。
AI学习的本质是在高维的空间里学习复杂的曲线,基于足够的样本拟合曲线。针对医生资源稀缺问题,可通过任务分解技术将复杂标注拆分为普通人可完成的子任务,再经算法合成最终结果。
其次,真实数据的稀缺性导致模型训练很难覆盖到各个场景。
数据定义存在认知边界,很多时候数据分布不均匀,必然导致大模型在某些区域的认知盲区,机器从来没有见过,那便会出现幻觉等问题,因为它根本不知道这个区域应该是怎样的结果。
蒋国飞提出,数据合成技术可通过行业知识引导实现“举一反三”,例如在自动驾驶场景中对特定车辆或路况进行多样化模拟,填补数据分布盲区。质量评测环节则需结合行业知识库,通过算法剔除违背专业逻辑的数据,确保生成数据的真实性与场景适配性。
他分享了中国电子在交通物流、建筑供应链、农业等领域的实践案例:通过处理千万级行业数据构建智能问答模型,服务物流场景决策;基于数据集开发供应链匹配系统,提升建筑材料采购效率;利用1TB农业数据训练图像识别模型,实现精准施肥指导。
他强调,行业数据处理必须形成“数据流动-处理建设-智能应用”的完整闭环,方能释放数据要素价值。 “基于大模型,行业数据若未经有效归集处理,100万条低质量数据在万亿级大模型训练中犹如‘一滴盐融入大海’,难以产生实质作用。”
新快报讯 二月初二“龙抬头”是祈福的好日子,今年恰好又是龙年喜庆加倍!这也是东莞东坑镇举行“卖身节”的日子,当天,年轻男女聚集在大街小巷泼水作乐,洒一身吉祥带回一年、一生的好运气! 2024年东坑镇“二月二 东坑见” 2月28日上午由江南米道科技有限公司主办的“博鳌健康食品科学大会-低GI稻米创新分论坛”在博鳌正式召开,开启了一场低GI稻米产业发展深度交流的盛宴。本次论坛邀请了食品行业各领域的众多重磅专家及 南方财经全媒体记者高慧超 实习生卢秀颖 卢诗文 北京报道预制菜再度成为两会代表委员热议的焦点。尽管各种关于预制菜的争议仍在继续,但并不妨碍预制菜在龙年春节登上年夜饭饭桌,线 3月4日,台“立法院”就“2·14恶性撞船事件”展开激烈质询,民进党当局和国民党“立委”展开言辞攻防。本文从台方对事件的定性、赔偿问题以及台湾“海巡署”行为等方面进行分析,指出质询虽激烈但未触及事件本质。对于台 最近,“北欧响应2024”军演规模空前,13国9万多部队参与其中,引发国际关注。与此同时,中国 *** 欧亚事务特别代表李辉再次展开劝和促谈之旅,访问俄罗斯、欧盟总部、波兰、乌克兰、德国和法国,为解决俄乌冲突寻求和平解决之道 据新华社电 5日提请审议的政府工作报告提出,坚持以人民为中心的发展思想,履行好保基本、兜底线职责,采取更多惠民生、暖民心举措,扎实推进共同富裕,促进社会和谐稳定,不断增强人民群众的获得感、幸福感、安全感。 今年的政 。本文链接:中国电子首席科学家蒋国飞:高质量数据集是AI发展核心驱动力http://www.sushuapos.com/show-1-40271-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 广州城市创新指数报告(2024)发布,天河位列第二!
下一篇: 电博会上,我们看到了AI硬件的新变化