支持109种语言，百度多模态文档解析模型开源

发布时间: 2025-10-18 12:45:45 来源：中国科学报

观看：78

10月16日，百度发布并开源自研多模态文档解析模型PaddleOCR-VL。其核心模型参数仅0.9B，轻量高效，能够在极低计算开销下，精准识别文本、手写汉字、表格、公式、图表等复杂元素，支持109 种语言，覆盖中文、英语、法语、日语、俄语、阿拉伯语、西班牙语等多语场景，广泛适用于政企文档管理、知识检索、档案数字化、科研信息抽取等文档智能任务。

作为文心4.5衍生模型，PaddleOCR-VL-0.9B通过融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型，在精度与效率上取得了新的突破。

精度方面，PaddleOCR-VL在文本编辑距离、公式识别、表格识别、阅读顺序预测误差等方面有着出色表现，其在复杂文档、手写稿、历史档案识别等高难度场景中亦表现稳定。

推理方面，在单张A100 GPU上，PaddleOCR-VL每秒可处理1881个Tokens，推理速度较现有模型有翻倍性能的提升。

据介绍，区别于传统OCR仅能逐行识别文字，PaddleOCR-VL能够读懂、理解复杂版面结构，精准提取财报表格、数学公式、课堂手写笔记等多元信息，并在识别后自动还原符合人类阅读习惯的阅读顺序，精准区分标题、正文、图片与图注，确保信息无遗漏、逻辑不混乱。

另据了解，在架构上，PaddleOCR-VL 创新性地采用两阶段架构：第一阶段由PP-DocLayoutV2 模型负责版面检测与阅读顺序预测；第二阶段由PaddleOCR-VL-0.9B识别并结构化输出文字、表格、公式、图表等元素。相较端到端方案，能够在复杂版面中更稳定、更高效，有效避免多模态模型常见的幻觉与错位问题。

细菌锰离子外排对于锰离子和铁离子稳态均具有重要意义。TerC家族蛋白是存在于所有细菌中的一种保守蛋白质。然而，长期以中国科协办公厅关于开展2023年度国家科学技术奖提名工作的通知各全国学会、协会、研究会，各省、自治区、直辖市科 12月18日23时59分，甘肃省临夏回族自治州积石山保安族东乡族撒拉族自治县发生6.2级地震，震源深度10公里。截至19日16时，此次法国政府近日推出“2030国家生物多样性战略”，包括40项措施和200项行动，旨在保护和恢复生态系统、减少对生物多样性的中新社北京1月1日电 (记者阮煜琳)中国自然资源部海啸预警中心消息，日本本州西岸近海海域1月1日发生7.4级地震已引发文｜卜金婷田瑞颖《自然》近日发文警告，对人工智能（AI）的不当使用或将催生大量不可靠或无用的研究，导致可重复性。

本文链接：支持109种语言，百度多模态文档解析模型开源http://www.sushuapos.com/show-11-27168-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：蒋荣猛：肝炎防治应打通基层“最后一公里”

下一篇： “天府智农AI大模型”在四川发布

支持109种语言，百度多模态文档解析模型开源

热门资讯

推荐资讯

科学最热文章