百度用一个仅0.9B参数的模型,在权威的文档解析评测榜单OmniDocBench V1.5上,拿下了92.6分的综合成绩,位列全球第一。
这个叫作PaddleOCR-VL的模型,发布不到一天,就在技术圈的开源社区Hugging Face上冲到了全球热度榜首。现在仍然霸榜。
它不只是总分高,在文本识别,公式识别,表格理解和阅读顺序这四个文档解析最核心的能力维度上,全都做到了业界最佳水平,是目前唯一一个在这四项上全部登顶的模型。
它还能处理109种语言,从常见的中文,英文,日文,韩文,到结构复杂的俄语(西里尔字母),阿拉伯语,印地语(天城文)和泰语,基本覆盖了全球主要语言体系。
这个事儿有意思的地方在于,当下大家普遍的认知是模型参数量越大,能力越强。百度这个0.9B参数的模型能取得这样的成绩,怎么做到的?
模型能做到又小又强,关键在于它的设计思路。PaddleOCR-VL没有选择做一个大而全的端到端模型,把一张文档图片直接扔进去,让模型自己搞定所有事。
那种方法听起来很酷,但在实际应用中常常会遇到麻烦,比如模型容易产生幻觉,搞错文本的阅读顺序,或者在处理复杂长文档时计算成本高得吓人,难以落地。
PaddleOCR-VL用的是一个两阶段架构。
第一步,先让一个叫PP-DocLayoutV2的布局分析模型上场。它的工作不复杂,但至关重要,就是“看懂”整个文档的版面结构。它会像一个经验丰富的排版编辑,迅速在一张PDF页面上框出哪些是标题,哪些是段落,哪里是表格,哪里是图片,然后预测出正确的阅读顺序,告诉你该先读哪一块,后读哪一块。
这个布局模型本身也是个组合体。它先用一个基于RT-DETR的检测模型,快速检测和分类页面上的各种元素。然后,再用一个非常轻量的,只有6个Transformer层的指针网络,来专门预测这些元素之间的阅读顺序。为了让顺序预测得更准,它还借鉴了Relation-DETR的几何偏置机制,这个机制能让模型明确地理解元素之间的空间位置关系,比如“A在B的左边”,“C在D的上面”,这种几何关系对于判断阅读顺序至关重要。最后,通过一个确定性的解码算法,就能生成一个拓扑一致,也就是完全符合逻辑的阅读顺序。
这种设计的好处是,通过一个高效的指针网络扩展了本就强大的RT-DETR检测模型,实现了比其他专门做布局分析的模型更高的性能,同时参数量还更少。
等第一阶段的布局分析搞定,拿到了页面上所有元素的位置坐标和阅读顺序后,才轮到第二阶段的主角,也就是那个0.9B参数的核心视觉语言模型PaddleOCR-VL-0.9B登场。
它的任务非常纯粹和聚焦,就是对第一阶段定位好的各个小区域进行精细识别。这个区域里是文本,它就负责认字;是表格,它就负责解析表格的行列结构和内容;是公式,它就负责识别复杂的数学符号;是图表,它就负责理解图表的数据。
这种“先拆解,再识别”的两阶段策略,结合了传统管道式方法和现代端到端方法的优点。它避免了端到端模型容易产生的结构性错误和幻觉,因为布局和顺序在第一步就已经锁定了。同时,它的推理速度更快,训练成本更低,未来如果需要支持新的布局类型,扩展起来也更容易。
这个0.9B的核心模型,架构上参考了LLaVA(一种主流的开源多模态模型架构),但做了几个关键的定制化选择。
它的视觉编码器,也就是模型的“眼睛”,用的是NaViT风格的动态分辨率编码器。这个编码器的好处是能直接处理原生分辨率的图像输入,避免了传统模型在处理图像时需要先缩放到固定尺寸而导致的信息损失,尤其对于文档中那些细小的文字和符号,保持高分辨率至关重要。
它的语言模型,也就是模型的“大脑”,选择了一个开源的,参数量只有0.3B的ERNIE-4.5-0.3B模型。在自回归语言模型中,生成内容是一个字一个字往外蹦的,解码器的大小直接决定了推理速度。选择一个较小的语言模型,意味着解码速度会快很多。ERNIE-4.5-0.3B在参数量和推理效率之间找到了一个很好的平衡点。为了进一步增强模型对位置的感知能力,研发团队还在其中融入了3D-RoPE技术。
连接“眼睛”和“大脑”的是一个随机初始化的,只有2层的MLP(多层感知机)投影器。这个投影器非常小巧高效,负责把视觉编码器提取的图像特征,转换成语言模型能够理解的格式。
把NaViT这种能看清细节的“眼睛”和ERNIE-4.5-0.3B这个轻快又聪明的“大脑”结合起来,让PaddleOCR-VL在文档解析任务上实现了性能的显著提升,同时还做到了更低的内存占用和更快的推理速度。
目前文档解析领域最权威的评测基准之一是OmniDocBench。这个基准由上海人工智能实验室联合多家机构开源,专门用来评估文档解析模型的综合能力。它的数据非常复杂,包含了1355个PDF页面,覆盖了学术论文,教科书,杂志,报纸等9种文档类型,单栏,双栏等4种布局类型,以及中英日3种语言。标注信息也极其丰富,细致到了15种块级元素和4种跨度级元素,还有详细的阅读顺序。
在最新的OmniDocBench V1.5榜单上,PaddleOCR-VL的表现堪称统治级。
可以看到,无论是和传统的管道式工具(如PP-StructureV3),还是和参数量大得多的通用视觉语言模型(如谷歌的Gemini-2.5 Pro,阿里的Qwen2.5-VL-72B),以及其他专门做文档解析的专业模型(如MinerU2.5,dots.ocr)相比,PaddleOCR-VL的综合得分都是最高的。
文本编辑距离(Text Edit Distance)越低,说明文字识别越准,PaddleOCR-VL做到了0.035,是全场最低。公式CDM(a metric for formula recognition)得分越高,说明公式识别能力越强,它拿到了91.43,也是最高。表格TEDS(Tree-Edit Distance-based Similarity)和TEDS-S(TEDS-Structure only)是衡量表格识别准确度的核心指标,它也以89.76和93.52的成绩领先。最后,阅读顺序编辑距离(Reading Order Edit Distance)也是全场最低的0.043,证明了它第一阶段的布局分析能力非常扎实。
具体到每一个元素的识别能力上,它的表现也非常均衡,没有短板。
在文本识别方面,无论是PPT转的PDF,学术文献,还是扫描质量不高的报纸,杂志,它都能取得最好的识别结果。研发团队内部的多语言测试显示,它在阿拉伯语,韩语,泰语,希腊语,西里尔文,拉丁文,日文等多种文字上的编辑距离都是最低的。对于手写中文,手写英文,繁体字,古代文本,甚至艺术字体和表情符号,它的错误率也控制得最好。
在表格识别方面,它在OmniDocBench的表格专项评测中,整体TEDS(一种评估表格识别准确率的指标)达到了0.9195,领先所有对手,证明了它不仅能准确识别表格里的文字,还能完美还原表格的结构。
在公式识别方面,它在专项评测中拿到了0.9453的SOTA CDM(一种评估公式识别准确率的指标)得分。在内部一个包含近3.5万个样本的测试集上,CDM得分更是高达0.9882,几乎不出错。
在图表识别方面,它甚至超过了一些参数量是它几十倍的通用多模态大模型,能准确解析条形图,饼图,折线图,散点图等11种不同类型的图表。
性能强悍的同时,它的速度也很快。在一张A100的GPU上,它每秒能处理1881个Token,比性能同样很强的MinerU2.5快了14.2%,比dots.ocr快了253.01%。
PaddleOCR-VL能取得这样的成绩,除了巧妙的架构设计,更离不开背后高质量,大规模,多样化的训练数据。研发团队构建了一个包含超过3000万训练样本的庞大数据集,数据的来源主要有四个途径。
团队系统性地收集整理了领域内成熟的公开数据集,比如文本内容来自CASIA-HWDB,数学公式来自UniMER-1M,图表数据来自ChartQA,PlotQA等。这些数据构成了训练集的基础,并且都经过了初步的清洗和筛选。
公开数据集的分布往往是不均衡的,某些类型的文档,比如手写发票,可能很少。为了解决这个问题,团队采用数据合成的策略,用较低的成本,大量生成现实世界中存在但公开数据里缺失的类型,确保模型不会偏科。
为了让模型能应对真实世界里五花八门的非结构化文档,团队从互联网上收集了大量的公开数据,包括学术论文,报纸,期刊文章,扫描的手写笔记,各种考试试卷和幻灯片。这些数据极大地丰富了训练数据的风格,结构和领域,降低了模型在干净规范的数据集上过拟合的风险,提升了泛化能力。
百度在OCR(光学字符识别)领域有多年的积累,沉淀了覆盖文档解析所有任务的各种内部数据集。团队以精确控制的比例,将这些高质量的内部数据融入到训练中,这是模型能够达到卓越性能的压舱石。
有了海量的数据源,如何高效地给这些数据打上高质量的标签,又成了一个新问题。团队设计了一套自动化的数据标注流程。先用一个专家模型(比如上一代的PP-StructureV3)对数据进行初步处理,生成一批“伪标签”。然后,通过提示词工程,把原始图片和这些可能不完美的伪标签一起打包,喂给能力更强的多模态大语言模型,比如ERNIE-4.5-VL和Qwen2.5VL,让它们来对初始标签进行优化和增强。最后,为了确保万无一失,系统还会执行一个幻觉过滤步骤,把大模型在优化过程中可能产生的不正确内容剔除掉,最终得到可靠的高质量标注数据。
除了扩充数据量,团队还建立了一套困难案例挖掘机制。他们先为文本,表格,公式,图表等不同类型的数据,分别建立了评估引擎和精标的评估数据集。然后,让模型在这些评估集上进行推理,通过专业的指标,比如文本的编辑距离,表格的TEDS,就能准确地找到模型在哪些类型的案例上表现不佳。比如,模型可能在识别带下划线的无限表格时错误率较高。一旦定位到这些弱点,系统就会利用丰富的资源库(如字体库,语料库)和渲染工具(如XeLaTeX和Web浏览器),通过数据合成的方式,有针对性地,大量地生成这类新的高质量困难案例,再喂给模型进行专项训练,从而实现模型的持续迭代和优化。
正是通过这种开源,合成,网络抓取和内部积累相结合的数据构建策略,以及自动化标注和困难案例挖掘的精细化运营,才为PaddleOCR-VL的强大性能打下了最坚实的基础。
文档解析技术从最初只能识别印刷体文字的传统OCR,发展到今天能够同时理解文本,表格,公式,图表等多种元素的结构和语义的多模态文档解析,经历了漫长的演进。
PaddleOCR-VL通过巧妙的两阶段架构设计,在性能和效率之间取得了出色的平衡,为资源受限环境下的多模态文档解析应用,提供了一个极具吸引力的解决方案。
参考资料:
https://modelscope.cn/models/PaddlePaddle/PaddleOCR-VL
https://huggingface.co/PaddlePaddle/PaddleOCR-VL
https://arxiv.org/abs/2510.14528
https://x.com/PaddlePaddle/status/1979068238312136870
https://huggingface.co/PaddlePaddle/PaddleOCR-VL
https://github.com/opendatalab/OmniDocBench
https://github.com/PaddlePaddle/PaddleOCR
免责声明:本文来自算泥客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。