设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

文档解析技术破解大模型语料“饥荒”难题

发布时间: 来源: 中国科学报

 cXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,由中国图象图形学学会主办的2024中国图象图形大会在西安开幕。大会通过20多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个图像图形领域的进展。cXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型一路“高歌猛进”的背后,隐藏着一场关于模型训练语料的“能源危机”。根据人工智能研究人员小组Epoch研究估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。现阶段,大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。文档解析技术的进步,让机器能够识别文档中的多种元素,更好地处理文本、表格、图像等多类型数据,还原文档阅读顺序,加速大模型训练与应用。cXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大会期间,由CSIG文档图像分析与识别专委会与上海合合信息科技股份有限公司(简称“合合信息”)联合主办了“大模型技术及其前沿应用”论坛。论坛上,合合信息智能创新事业部研发总监常扬表示,文档解析的难点在于如何准确识别文档中的各个元素,并理解其之间的逻辑关系,需要关注“物理版面分析”和“逻辑版面分析”。cXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据常扬介绍,物理版面分析侧重于视觉特征、文档布局,主要任务是把相关性高的文字聚合到一个区域,比如一个段落,一个表格等等,并选用目标检测任务进行建模,使用基于回归的单阶段检测模型进行拟合,从而获得文档中各种各样的布局方式;逻辑版面分析侧重于对语义特征的分析,主要任务是把不同的文字块根据语义建模,例如通过语义的层次关系,形成一个目录树结构。cXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,文档解析技术中文档元素检测、文字表格识别、文档版面分析、阅读顺序还原等任务涉及对版面元素和版面整体布局的判断,是文档处理领域典型的技术难题。cXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们研究过程中发现,真实世界的文档有着极为丰富的布局类型,没法单纯地用单栏,双栏、三栏等类别去定义。”常扬表示,近年来的开放词汇目标检测,视觉语义对齐等工作,以及生成式模型等前沿进展,将给版面分析带来新的研究思路。cXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

 cXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

 cXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

 cXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据《自然》消息,与不到10年前相比,每年发表60篇以上论文的研究人员数量增加了四倍。11月24日发表在bioRxiv上的一篇预印本 12月20日,由中国工程院院刊Engineering评选的 “2023全球十大工程成就”在京发布,期刊执行主编、中国工程院陈建峰院士发 2023年,对中国高等教育而言,是内外激荡的一年。 ChatGPT的横空出世让高等教育界猝不及防;疫情的结束使得公众对校园 12月17日,记者从北京协和医院获悉,由该院儿科主编的《儿童风湿免疫病标准数据集》(以下简称数据集)正式发布。专家表示,作为 编者按 世界在变,变化中不断积蓄着突破的力量。局势纵横看似山重水复,历史规律昭示未来终将柳暗花明。2023年与我们挥 问:据媒体报道,一名中国留学生在美国犹他州疑似遭遇绑架。中国使馆能否证实此事并介绍情况? 答:中国驻美国大使馆高度重视 。

本文链接:文档解析技术破解大模型语料“饥荒”难题http://www.sushuapos.com/show-11-6605-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 范宣梅:杰青项目是我地震探索之路的基石

下一篇: 国内首套双模式推进系统实现在轨成功应用

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜