《PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training》主要介绍了百度PaddlePaddle团队对文档解析模型的一次重要升级。以下是其主要研究内容的全面总结:
一、研究背景与核心问题
出发点:前代模型 PaddleOCR-VL-1.5 已经是一个强大的紧凑型(0.9B参数)文档解析基线。然而,其剩余的错误和弱点集中在特定的“欠优化区域”(Under-Optimized Regions, UORs)。
UORs定义:指那些模型行为不稳定、训练数据覆盖稀疏、或监督信号(标签)不可靠的数据与监督空间局部区域。
核心思路:不再盲目地扩大训练数据规模,而是提出区域感知的数据优化框架,精准识别并强化这些“欠优化区域”,并采用渐进式后训练方案来提升模型性能。
二、三大创新技术与方法
1. 欠优化区域驱动的数据引擎
这是整个升级的核心,通过系统性挖掘模型的弱点来指导数据构建,而非随机增加数据。它识别三种类型的UOR:
边界脆弱区域(Boundary-Fragile Regions):
现象:在微小语义保持的视觉扰动下,或在不同的训练检查点间,模型预测结果发生剧烈变化。
挖掘方法:综合评估模型在不同后期检查点的预测差异,以及在16种语义不变失真(如像素偏移、JPEG压缩、模糊等)下的预测稳定性。得分最高(最不稳定)的样本被标记。
覆盖稀疏区域(Coverage-Sparse Regions):
现象:训练数据中已经存在类似模式,但模型仍预测错误,表明该局部区域的数据分布支撑不足(主要是长尾数据,如古籍、稀有字符、复杂表格)。
挖掘方法:使用文档特征编码器提取所有样本特征,通过动态相似性阈值聚类算法,发现特征空间中弱小、离群的样本簇,这些簇即为覆盖稀疏区域。
不可靠监督区域(Unreliable-Supervision Regions):
现象:模型以高置信度稳定地产生错误输出,表明问题可能源于错误的标签(监督信号本身不可靠)。
挖掘方法:引入多专家共识验证。使用三个高性能外部专家模型(如GLM-OCR, MinerU2.5-Pro)对样本进行预测。如果专家预测不一致,则判定原标签可能不可靠。
2. 高精度自动标注流程
针对无标签或标签不可靠的样本,设计了一套自动生成高质量标签的流程:
多专家共识:首先综合三个专家模型的预测。如果至少两个专家结果一致,则直接采纳。
渲染引导的迭代“评判-精炼”:对于专家意见分歧的困难样本,启动一个循环优化过程:
ERNIE 5.0作为基础模型:利用其强大的视觉推理能力。
渲染引导:将模型当前输出的候选结果(如HTML表格、LaTeX公式)渲染成图像。这样,将原本困难的“图像 vs. 结构化语言”比对问题,转化为更直观的“图像 vs. 图像”视觉匹配问题。
迭代优化:评判模型比较原始输入图像和渲染图像,找出差异(如行/列错位),然后引导精炼模型修正输出,直至差异消除或达到迭代上限。
3. 渐进式后训练方案(CPT-SFT-RL)
为了高效吸收上述过程产生的高价值数据,论文设计了一个分阶段的后训练流程,而非一次混合训练:
阶段一:持续预训练(CPT)
目标:扩展模型的分布覆盖范围。
数据:包含所有新检索的数据(1680万样本),注入广泛的分布和修正后的监督。
设置:全参数微调,学习率3e-5。
阶段二:监督微调(SFT)
目标:在可靠的监督下,专注精炼困难样本。
数据:来自CPT中挖掘的难例、所有进入“渲染引导精炼”流程的样本、以及标签被修正的样本(共730万)。
设置:全参数微调,学习率1e-5。
阶段三:强化学习(RL)
目标:提供超越监督信号的优化信号,进一步优化高潜力样本。
关键挑战:0.9B紧凑模型对RL数据质量极其敏感。
GRPO导向的高潜力样本挖掘:提出一个评分函数,综合考虑改进潜力(r_max - r_mean)、生成不确定性(U(x)) 和奖励方差(V_r(x)),只为RL阶段筛选出最有可能带来收益的4.9万个样本。
奖励设计:设计了表示感知的可验证奖励,包含有效性门(格式正确)、结构因子(惩罚需后处理的结构)和相似性度量(与标准答案的匹配度)。
设置:全参数微调,学习率2e-6,使用GRPO和DAPO策略。
三、主要评估结果与贡献
性能突破:
在OmniDocBench v1.6上取得96.33%的全新最先进(SOTA)得分,显著超越前代(94.93%)及更大规模的模型(如Qwen3-VL-235B)。
在Real5-OmniDocBench(真实场景扰动数据集)上同样取得SOTA(93.19%),展现了强大的鲁棒性。
在硬表格、图表、文本识别(Text Spotting)、印章识别等子任务上均达到最优或领先水平。
核心贡献总结:
提出并实践了“欠优化区域驱动”的数据优化范式,证明针对性的数据优化比单纯扩大规模更有效。
开发了一套完整的自动标注与数据精炼工具链,尤其是渲染引导的迭代精炼方法。
为紧凑型模型设计了高效的强化学习数据选择策略,解决了RL在小模型上难以有效应用的问题。
提供了一个可供业界参考的渐进式(CPT-SFT-RL)后训练方案,适用于同系列模型的高效迭代。
PaddleOCR-VL-1.6 的成功证明了:对于已达到高性能水平的紧凑型文档解析模型,其进一步的提升空间不在于盲目扩大模型规模,而在于精准识别并强化模型自身的薄弱环节(欠优化区域),并通过精心设计的、分阶段的后训练流程来高效地吸收和利用高质量、针对性强的数据。这为资源受限场景下的文档智能处理提供了重要的实践路径。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
项目地址在这里,如下所示:
模型发布地址在这里,如下所示:
摘要
我们介绍 PaddleOCR-VL-1.6,一个基于 PaddleOCR-VL-1.5 构建的升级版紧凑型文档解析模型。尽管 PaddleOCR-VL-1.5 建立了一个强大的 0.9B 基线,但其剩余错误主要集中在欠优化区域,即模型行为不稳定、数据覆盖稀疏或监督信号不可靠的区域。PaddleOCR-VL-1.6 没有不加区分地扩展训练语料库,而是引入了一个区域感知的数据优化框架,该框架从先前模型中识别出弱区域,对这些区域进行针对性增强,并提高监督信号的可靠性。它进一步采用了一种基于精选数据选择和强化学习的渐进式后训练方案,通过分阶段优化将模型性能提升到更高水平。PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上取得了新的最先进得分96.33%,展示了与顶级视觉语言模型的强大竞争力,并为 PaddleOCR-VL 系列提供了一个实用的后训练方案。
图 1 | PaddleOCR-VL-1.6 在 OmniDocBench v1.6 和 Real5-OmniDocBench 上的性能表现。
1. 引言
文档解析已成为非结构化文档与大型语言模型应用之间的核心接口。现代文档系统不仅期望恢复纯文本,还包括布局区域、阅读顺序、数学公式、表格、图表、印章以及具有空间定位的文本实例。这种结构化转换决定了文档集合能否被忠实地转换为 Markdown、JSON 或其他机器可读格式,以供下游索引、检索和推理使用。随着检索增强生成系统越来越依赖于高保真的文档摄取[1],文档解析已从一个狭窄的光学字符识别任务演变为一个更广泛的视觉-语言问题,需要在异构文档元素上进行视觉定位、结构重建和语义保留[2, 3, 4, 5]。
近期文档解析的进展由专门的文档视觉语言模型和通用多模态模型共同推动。PaddleOCR-VL [6] 展示了一个紧凑的 0.9B 视觉语言模型可以在不依赖更大参数规模的情况下实现强大的多语言文档解析性能。其他系统,包括 DeepSeek-OCR [7]、MonkeyOCR [2]、Dolphin [4] 和 HunyuanOCR [8],进一步探索了端到端解析、异构提示和统一的以 OCR 为中心的建模。在此基础上,PaddleOCR-VL-1.5 [9] 通过提高鲁棒性和更广泛的任务覆盖范围增强了 PaddleOCR-VL 系列,同时保持了紧凑的 0.9B 模型规模。这些进展为 PaddleOCR-VL-1.6 建立了一个强大的起点:问题不再是紧凑型文档解析 VLM 是否可行,而是一旦主架构已进入高性能状态,如何进一步改进它们。
在这种状态下,剩余的错误并不能被很好地描述为均匀分布的噪声。最近的基准报告和模型分析表明,顶级系统越来越多地遇到困难区域,这些区域无法仅通过增加数据量或模型规模来完全解决[6, 3, 10]。长尾文档布局、稀有文字、密集公式、复杂表格和噪声监督,即使在整体训练语料库很大时,仍然可能代表性不足或不可靠。PaddleOCR-VL-1.5 [9] 已经融入了不确定性感知采样和面向失真的鲁棒性改进,这有助于揭示针对性数据构建的价值。PaddleOCR-VL-1.6 通过将剩余问题视为欠优化区域的问题来扩展这一方向:即数据空间和监督空间中模型不稳定、覆盖不足或基于可能不可靠标签进行训练的那些局部区域。
为了解决这个问题,我们引入了一个欠优化区域驱动的数据引擎。该引擎从 PaddleOCR-VL-1.5 开始,诊断三种互补类型的残余区域。边界脆弱区域包含那些在不同训练检查点或在语义保持的视觉扰动下预测结果发生变化的样本,表明决策边界不稳定。覆盖稀疏区域对应于特征语义空间中的低密度邻域,长尾文档模式在常规采样下很可能被主导分布所吸收。外部支持不足区域指出现有训练样本的标签无法得到独立专家解析器的支持,揭示了不可靠的监督而不仅仅是困难的输入。然后通过两条途径处理这些信号。边界脆弱和覆盖稀疏的样本作为种子,用于从内部大型文档池中进行区域引导检索,从而以最小程度干扰现有数据分布的方式来加强这些代表性不足的分布。外部支持不足的样本用于现有标签的修正。检索到的未标记样本通过专家共识进行标记,未解决的数据则通过可迭代的评判与精炼标记策略进一步处理。
该引擎生成的精选数据被用于一个渐进式后训练方案中,而不是单一的混合训练阶段。持续预训练阶段纳入所有精选数据,将广泛的分布覆盖和修正后的监督注入模型。监督微调阶段则专注于高难度和高质量的样本,在 PaddleOCR-VL-1.5 仍然脆弱或先前从不可靠标签中学习的区域锐化模型行为。最后,应用GRPO[11] 来进一步提升模型性能。由于数据效率对于紧凑型模型的强化学习至关重要,我们采用了一种精心设计的面向 GRPO 的数据选择策略。具体来说,候选样本从三个角度进行联合评估:改进潜力、基于熵的不确定性以及 rollout 奖励分布。只有那些预期收益最大的高价值样本才会被选中用于最终的强化学习阶段。
PaddleOCR-VL-1.6 积极应对当前文档处理中的挑战,提供了一个高性能、资源高效的多模态文档解析解决方案。其主要贡献包括:
我们介绍了 PaddleOCR-VL-1.6,它是 PaddleOCR-VL-1.5 [9] 的升级版本,基于改进的数据策略和精炼的后训练流程构建。它在保持高效紧凑的 0.9B 模型规模的同时,在 OmniDocBench v1.6 上达到了最先进的性能。
我们引入了欠优化区域挖掘,它诊断出模型特定的边界脆弱、覆盖稀疏和不可靠监督区域。
我们进一步开发了一种高精度自动标注流程,该流程结合了多专家共识和可迭代的评判与精炼标记策略,能够大规模标注未标记样本。
我们为紧凑型模型的强化学习设计了一种可靠的数据选择策略,其中数据质量尤为关键。候选样本从三个互补的角度进行评估:改进潜力、基于熵的不确定性和 rollout 奖励分布,确保对紧凑型模型进行有效的强化学习。
我们为 PaddleOCR-VL 系列开发了一个渐进式 CPT-SFT-RL 后训练方案,为高效适应下游特定领域场景提供了实用参考。
2. PaddleOCR-VL-1.6 概述
PaddleOCR-VL-1.6 延续了 PaddleOCR-VL 系列的紧凑设计理念。整个系统由两个模型组成:用于布局分析的PP-DocLayoutV3和用于视觉语言理解的PaddleOCR-VL-1.6-0.9B。在此次升级中,我们保持 PP-DocLayoutV3 不变,专注于改进 PaddleOCR-VL-1.6-0.9B 模型。
PaddleOCR-VL-1.6-0.9B 继承了 PaddleOCR-VL-1.5-0.9B [6] 的轻量级架构,集成了原生分辨率视觉编码器[12]、自适应 MLP 连接器和轻量级ERNIE-4.5-0.3B 语言模型[13]。主要的升级不在于扩大模型或修改架构,而在于更具针对性的数据引擎和精炼的后训练过程。这种设计使得 PaddleOCR-VL-1.6 能够保留 PaddleOCR-VL-1.5 的高推理效率,同时实现更强的系统性能。
图 2 | PaddleOCR-VL-1.6 概览。
与其前身一致,PaddleOCR-VL-1.6 支持两个主要的实际任务:文档解析和文本 spotting。对于文档解析,系统遵循一个鲁棒的两阶段框架。在第一阶段,PP-DocLayoutV3 执行高精度的布局分析并支持多点定位,能够在复杂的现实条件下(如透视失真、弯曲页面或不规则文档布局)实现精确的区域定位。在第二阶段,PaddleOCR-VL-1.6-0.9B 识别局部区域内的各种文档元素,包括文本、表格、公式、图表和印章。一个轻量级的后处理引擎然后将这些输出组织成结构化的格式,如 Markdown 和 JSON,并额外支持跨页表格合并和标题层级优化。
对于文本 spotting,PaddleOCR-VL-1.6 直接使用 PaddleOCR-VL-1.6-0.9B 进行端到端的文本检测和识别。这种简化的工作流程支持广泛的场景,包括标准文档、身份证件、古籍、广告海报、对话截图、招牌和多语言文本图像。
与其前身的主要区别在于 PaddleOCR-VL-1.6 的改进方式。PaddleOCR-VL-1.5 扩展了鲁棒性和任务覆盖范围,而 PaddleOCR-VL-1.6 则专注于这个强基线模型之后仍然存在的残余弱点。其开发过程首先从 PaddleOCR-VL-1.5 诊断欠优化区域,包括预测脆弱、分布覆盖稀疏和现有标签不可靠的样本。这些诊断信号指导数据构建和精炼,而不是被视为孤立的评估失败。如图 2 所示,PaddleOCR-VL-1.6 的升级路径围绕数据工程和后训练组织:识别残余弱区域,应用针对性增强以提高模型在这些区域的性能,并使用与每个数据子集的可靠性和学习价值相匹配的分阶段优化方案。
在高层面上,PaddleOCR-VL-1.6 包含三个关键组件。第一个组件是一个欠优化区域驱动的数据引擎。它发现边界脆弱和覆盖稀疏的区域作为检索新未标记样本的种子,同时使用外部支持不足的区域来检测现有训练集中不可靠的标注。第二个组件是专家共识标记和精炼。检索到的样本由多个专家解析器标记,而对于专家共识仍然不足的困难案例,则通过一个迭代的评判与精炼过程进一步精炼。第三个组件是渐进式后训练,它遵循一个完整的 CPT-SFT-RL 流程,并作为 PaddleOCR-VL 系列的一个实用训练方案。在 RL 阶段之前,我们还开发了一个标准化且可复用的选择策略,以识别用于强化学习的高价值样本。这些组件将在以下章节中详细阐述。
3. 欠优化区域驱动的数据引擎
3.1. 动机:从均匀扩展到欠优化区域优化
PaddleOCR-VL-1.6 的起点是其前身已经是一个强大的基线。PaddleOCR-VL-1.5 在保持 PaddleOCR-VL 系列紧凑的 0.9B 规模的同时,扩展了鲁棒性和任务覆盖范围。在这种高性能状态下,剩余的错误不能简单地用通用文档数据的短缺来解释。均匀地扩大训练语料库可能仍然会引入有用的变化,但它也会将有限的计算预算花费在模型已经表现可靠的区域。这个问题对于 PaddleOCR-VL 系列等紧凑型模型尤其重要,因为它们的最终性能对数据效率和分布平衡更为敏感。与均匀数据扩展相比,针对性的数据扩展在训练效率和最终模型性能方面都是更有效的策略。
图 3 | PaddleOCR-VL-1.6 数据引擎概览。
我们对 PaddleOCR-VL-1.5 的分析揭示了三种特征性的失败模式。首先,小的像素级偏移或语义保持的视觉失真可能导致模型输出发生巨大变化,在某些情况下甚至导致严重退化。这种失败很难通过在训练期间简单地添加标准数据增强来消除,这表明模型在相应的局部数据区域没有学习到稳定的映射。其次,一些已经出现在训练分布中的样本仍然被错误预测,这表明周围分布的代表性不足且仍处于欠优化状态。第三,模型有时会以高置信度产生稳定但错误的输出,这表明问题不仅在于困难的输入,还在于使学习到的映射产生偏差的不可靠监督信号。
这些观察结果激发了一种面向模型的数据优化观点。PaddleOCR-VL-1.6 并没有将所有额外数据视为同等有价值,而是专注于欠优化区域,即当前模型尚未从文档图像到结构化输出获得可靠映射的数据空间和监督空间中的区域。我们识别出三种与上述失败模式相对应的 UOR 类型:边界脆弱区域,在小的语义保持失真下预测不稳定;覆盖稀疏区域,现有数据对局部分布的覆盖不足;以及不可靠监督区域,模型从不可靠的监督信号中学习。基于这些观察,我们构建了一个欠优化区域驱动的数据引擎,以明确地挖掘和精炼当前模型的弱区域,从而为 PaddleOCR-VL-1.6 实现有针对性的数据优化,如图 3 所示。
3.2. 边界脆弱区域
边界脆弱区域指的是模型尚未形成从文档图像到结构化输出的稳定映射的样本。这些区域是有害的,因为它们使得最终收敛的模型可靠性降低:即使在相似的训练设置下,优化轨迹的微小变化也可能导致明显不同的预测,并且模型在某些场景下可能表现不稳定。提高这种鲁棒性的一种常见方法是引入数据增强并鼓励输入变化下的一致性。然而,在我们的实验中,即使是十多种增强操作的组合也无法完全消除某些样本的不稳定性。这表明问题不仅仅是缺乏通用的增强,而是模型在这些样本所代表的局部分布上本质上是内在不稳定的。因此,我们需要一个灵活的策历来识别给定模型在其自身架构和数据分布下的不稳定区域。
我们提出边界脆弱区域挖掘作为一种面向模型的策略来定位这种不稳定区域。该方法被设计为通用的:对于不同的模型架构和训练数据分布组合,它可以识别当前模型尚未学习到鲁棒不变性的区域。具体来说,我们从两个互补的角度评估边界脆弱性。第一个角度检查后期训练检查点之间的预测变化,此时模型的整体性能已基本收敛。第二个角度检查在相同检查点下,语义不变的输入失真下的预测变化。这两个角度共同捕捉了由模型状态变化和输入外观变化引起的不稳定性。
视角 1:检查点级别的不稳定性。检查点视图基于以下观察:在训练接近尾声时,学习率已衰减到较低水平,模型的全局性能已基本稳定。对于学习良好的区域,来自附近后期检查点的预测应该保持一致。然而,在边界脆弱区域,即使检查点差异很小,模型仍然可能大幅改变其输出。基于此,我们保留了训练计划最后8%的八个检查点,并使用它们的预测差异来衡量检查点级别的边界脆弱性。
视角 2:语义不变扰动敏感性。语义不变失真视图直接衡量模型是否对不应改变文档语义的微小视觉变化具有鲁棒性。对于每个检查点,我们对相同的输入应用一组轻微的扰动,并比较产生的预测。这些扰动包括像素偏移、JPEG 压缩、噪声、模糊、非均匀缩放和其他轻量级变换,总共形成 16 种语义不变失真类型。如果结构化输出在这些失真下发生显著变化,则该样本指示模型尚未学习到稳定不变性的局部区域。
对于 PaddleOCR-VL-1.5-0.9B,我们将此挖掘策略应用于整个训练数据集。每个样本在 8 个后期检查点和 16 种语义不变失真的笛卡尔积下进行评估,每个样本产生 128 个预测。然后,我们将预测序列化为任务输出,并计算每对预测的归一化编辑距离,得到 (128 × 127) / 2 = 8128 个成对差异分数。为了关注最显著的变化并减少微小格式差异的影响,我们选择最大的 128 个成对距离并取其平均值作为边界脆弱性得分。在最终筛选中,我们根据经验选择按此得分排名前1%的样本,并额外包括任何 128 个预测中出现模型退化的样本。
通过这个双视角挖掘过程,PaddleOCR-VL-1.6 从后期检查点不稳定性和语义不变扰动敏感性中识别出边界脆弱区域。这些样本揭示了当前模型仍然不可靠的局部分布,并作为后续数据检索和精炼的目标锚点。
3.3. 覆盖稀疏区域
覆盖稀疏区域解决了另一种失败模式。如上所述,即使在训练语料库中出现过类似模式,某些样本仍可能被错误预测。这些失败不一定是决策边界不稳定造成的;相反,它们通常是因为现有数据对周围分布的支撑不足。均匀的数据扩展可能会引入更多样本,但如果没有识别稀疏邻域的机制,它可能会继续过度采样主导分布,而让长尾区域代表性不足。因此,PaddleOCR-VL-1.6 需要一个明确的策略来定位当前训练分布中的覆盖稀疏区域。
PaddleOCR-VL-1.6 通过视觉-语义邻域视图诊断覆盖稀疏性。数据引擎首先使用内部的文档特定特征编码器提取所有训练样本的表示。然后,它在得到的特征空间中测量样本相似性,并发现小的、弱连接的离群值簇作为候选的覆盖稀疏区域。这些簇表明当前语料库提供的局部分布支持不足。
算法 1: 覆盖稀疏区域挖掘 1: 为所有 x_i ∈ D 提取归一化文档特征 z_i = f(x_i) 2: 计算成对余弦相似度 s_ij = z_i^T z_j 3: 构建初始相似度图 G = (V, E),其中 V = D,E = {(i, j) | s_ij ≥ τ_0} 4: 从 G 获取连通分量 C,并设置 τ ← τ_0 5: while |C| < K_target do 6: 更新阈值 τ ← τ + Δτ 7: 初始化 C_new ← ∅ 8: for each C ∈ C do 9: 构建 G_C = (C, E_C),其中 E_C = {(i, j) | x_i, x_j ∈ C, s_ij ≥ τ} 10: 将 C 分割成 G_C 的连通分量,并将它们添加到 C_new 11: end for 12: 更新 C ← C_new 13: end while 14: 从 C 中选择小的离群值分量作为 R_cs 15: 返回 R_cs如算法 1 所示,该方法逐渐增加相似度阈值以揭示细粒度的簇。它不是一次性将所有样本强制划分到一个固定的分区中,而是逐步分割相似度图,并识别出局部密度低的小的离群值分量。
这种面向密度的聚类策略非常适合覆盖稀疏区域的挖掘。目标不是获得平衡的语义簇,而是揭示那些容易被主导分布隐藏的、支撑不足的尾部邻域。相比之下,像 K-Means 这样的固定 K 聚类方法需要预先指定簇的数量,并将每个样本分配到一个簇中,这可能导致罕见的文档模式被吸收到附近的密集群组中。通过保留邻域连通性,我们的方法使稀疏区域保持可见,并将其用作目标数据扩展的种子。基于挖掘出的覆盖稀疏区域,PaddleOCR-VL-1.6 系统地补充了长尾数据,如古书、稀有字符和工业表格,进一步提高了模型在代表性不足的场景下的能力。
3.4. 不可靠监督区域
前两种挖掘策略主要识别需要分布扩展的弱区域:边界脆弱区域揭示局部不稳定的样本,而覆盖稀疏区域揭示当前语料库中代表性不足的邻域。在实践中,我们观察到模型可能会重复产生相同的高置信度错误模式,这表明一些失败源于不可靠的监督,而不是覆盖不足。因此,不可靠监督区域挖掘专注于现有标签本身,旨在识别不准确的目标并提高训练集中监督的整体有效性。
为了诊断此类区域,我们引入了一种基于外部支持的验证策略。其核心思想是,从不同数据源和模型架构训练得到的高性能模型可以为同一样本提供独立的专家观点,有助于打破单一标注或模型可能存在的偏差。
3.5. 通过多专家共识和渲染引导精炼进行自动标注
该策略提供了一种保守但有效的方法来修复监督噪声。通过这个过程,PaddleOCR-VL-1.6 挖掘并改进了从 PaddleOCR-VL-1.5 继承下来的不可靠监督区域。此外,专家之间的一致模式自然地划分了数据难度:通过专家共识解决的样本可以作为高置信度的修正数据,而没有专家共识的样本则被视为困难案例,并在后续的后训练阶段小心处理。
在欠优化区域挖掘之后,数据引擎获得了两类需要可靠监督的样本。使用边界脆弱和覆盖稀疏种子从内部文档池检索到的样本是未标记的。同时,从不可靠监督区域中识别出的样本可能已经有标签,但这些标签缺乏足够的外部支持,因此需要修正或精炼。PaddleOCR-VL-1.6 引入了一种高精度自动标注流程,该流程结合了多专家共识与渲染引导的迭代精炼。
对于表格识别和公式识别等困难的文档解析任务,标签生成通常需要更强的测试时推理能力,尤其是当多个专家模型产生不一致的输出时。因此,作为处理困难案例的评判与精炼模型,我们使用ERNIE 5.0[17],这是一个原生的自回归基础模型,专为跨文本、图像、视频和音频的统一多模态理解与生成而设计,具有强大的视觉推理能力。如算法 2 所示,该流程首先收集来自三个专家模型(PaddleOCR-VL-1.5 [9]、GLM-OCR [15] 和 MinerU2.5-Pro [16])的预测。如果至少有两个专家意见一致,则直接接受他们的共识输出作为标签。否则,该样本被视为困难案例,并进入渲染引导的评判与精炼阶段。
该设计有两个实践细节。首先,三个专家的预测仅在 ERNIE 5.0 [17] 初始预测时注入。后续的精炼轮次仅使用当前的预测以及前一个评判步骤识别出的差异,这可以防止重复的专家输出对精炼轨迹产生偏差。其次,评判步骤是渲染引导的,而非纯文本的。对于公式和表格,即使是强大的多模态模型,也很难直接将图像与 LaTeX 或 HTML 进行比较。渲染候选输出将比较转换为同模态的视觉匹配问题,使评判者能够更准确地定位行或列的对齐错误、错误的合并单元格以及内容放置错误。
算法 2: 多专家共识与渲染引导精炼 1: 使用 {E1, E2, E3} 生成专家预测 {y1, y2, y3}. 2: 如果至少有两个专家预测一致,则 3: 设 y 为一致的专家输出. 4: 返回接受的标签 y. 5: 结束如果 6: ŷ^(0) ← M_refine(x, y1, y2, y3) [带有专家参考的初始预测] 7: 对于 t = 0 到 T - 1,循环 8: 将 ŷ^(t) 渲染成图像 r^(t). 9: δ^(t) ← M_judge(x, r^(t)) [检测输入图像与渲染后的预测之间的差异] 10: 如果 δ^(t) = ∅,则 11: y ← ŷ^(t) 12: 返回接受的标签 y. 13: 结束如果 14: ŷ^(t+1) ← M_refine(ŷ^(t), δ^(t)) [使用检测到的差异精炼预测] 15: 结束循环 16: 返回人工标注请求,并将最后的预测 ŷ^(T) 作为预标注.此流程使 PaddleOCR-VL-1.6 能够自动为大多数困难样本生成可靠的标签。未解决的案例将转交人工标注,流程的最终输出用作预标注以减少人工工作量。
4. 渐进式后训练方案
PaddleOCR-VL-1.6 不是从头开始训练的,而是从 PaddleOCR-VL-1.5 的检查点开始,通过精心策划的渐进式后训练方案来改进模型。在基础架构达到高性能状态后,关键目标是高效地吸收新构建的高价值数据,而不是重新开始大规模的预训练。本节描述欠优化区域驱动的数据引擎产生的数据如何分配到三个阶段。持续预训练吸收广泛的精选数据,以扩展分布覆盖并纳入修正后的监督。监督微调专注于高质量的困难样本,以精炼文档解析行为。强化学习进一步优化具有可验证奖励的高潜力样本。这种分阶段的设计根据每个数据子集的可靠性和学习价值来使用它们,改进了 PaddleOCR-VL-1.6,同时保持了紧凑的 0.9B 模型规模。
4.1. 用于分布扩展的持续预训练
第一阶段旨在吸收新引入的扩展数据分布。除了提高现有标注的可靠性外,数据引擎还带来了大量从先前欠优化区域新检索到的样本,包括古书、稀有字符和其他长尾文档场景。这些样本引入了分布偏移,无法通过狭窄的监督微调阶段来完全学习。因此,使用持续预训练来注入和稳定这些新的文档模式,然后再进行更具选择性的优化阶段。
训练数据。CPT 语料库结合了来自 PaddleOCR-VL-1.5 的完整 SFT 数据和部分预训练数据,以及数据引擎生成的所有新检索数据,总计 1680 万个训练样本。所有样本都使用最新的标注,既提供了更广泛的覆盖范围,也提供了更高质量的监督。
训练设置。所有模型参数都被解冻以适应扩展的分布。我们训练一个周期,全局批量大小为 1024,并将所有参数的最大学习率设置为3×10⁻⁵。
4.2. 用于难例精炼的监督微调
CPT 扩展了模型的分布覆盖范围并建立了其基础能力,而 SFT 则在具有可靠监督的困难样本上进一步精炼模型。此阶段的目标不是统一地重用所有精选数据,而是将监督学习集中在模型仍然需要更强任务行为的案例上。
训练数据。SFT 语料库由三个来源构建。首先,我们遵循 PaddleOCR-VL-1.5 [18] 中使用的不确定性感知聚类采样策略,从 CPT 语料库中挖掘困难样本。其次,我们包括所有三个专家未能达成一致并因此进入渲染引导精炼流程的样本。这些样本本质上是困难的,并且在获得可靠标签后需要进一步的监督学习。第三,我们包括原本存在于 PaddleOCR-VL-1.5 训练数据中、其标签通过不可靠监督区域挖掘被识别并修正的样本。总之,此过程为 SFT 选择了 730 万个样本。
训练设置。所有模型参数都被解冻。我们训练一个周期,全局批量大小为 1024,并将所有参数的最大学习率设置为1×10⁻⁵。
4.3. 用于高潜力优化的强化学习
强化学习为超越监督学习提供了额外的优化信号。训练语料库包含来自不同来源和标注风格的大规模数据,模型可能会为相似的输入模式产生多种输出风格。RL 有助于规范化这些行为。它还能进一步提高模型性能和泛化能力,同时抑制在分布外样本上的退化。
然而,将 RL 应用于 PaddleOCR-VL-1.6-0.9B 需要仔细的数据选择。语言模型组件仅为 0.3B,这使得紧凑模型对 RL 数据质量和样本效率更加敏感。如果 RL 样本选择策略随意,模型可能会在一部分困难案例上有所改进,但整体性能下降。因此,RL 阶段必须关注那些既可学习又可能产生有意义的奖励驱动收益的样本。为了解决这个问题,我们提出了一种面向 GRPO 的高潜力样本挖掘策略,用于选择有效的 RL 训练样本,从而稳定 RL 训练过程并确保奖励驱动优化的有效性。
4.3.1. 面向 GRPO 的高潜力样本挖掘
GRPO [11] 通过为同一输入比较多个采样响应并根据它们在组内的相对奖励分配优势来优化策略。这种组相对的形式消除了对单独价值模型的需求,但它也使得训练的有效性高度依赖于每个 prompt 是否能产生信息丰富的奖励差异。对于 PaddleOCR-VL-1.6-0.9B,这个要求特别重要,因为语言模型组件是紧凑的,使得策略对噪声大、过于简单、过于困难或奖励平坦的 RL 样本更加敏感。
因此,我们引入了一种面向 GRPO 的高潜力样本挖掘策略,根据当前的 SFT 策略来选择 RL 数据。SFT 模型被用作初始策略来探测候选 RL 数据池。对于每个候选样本x,我们生成 16 个 rollout,温度为 0.85,top-p = 0.9,top-k = 32。每个 rollout 由下一节描述的任务特定可验证奖励函数进行评估,产生样本的经验奖励分布。
非信息性样本过滤。第一步是移除不太可能有助于 GRPO 更新的样本。当最大 rollout 奖励 r_max(x) 低于阈值时,过于困难的样本被过滤掉,因为当前策略从未达到足够好的输出,奖励信号主要指示失败。当平均奖励 r_mean(x) 高于阈值时,过于简单的样本被过滤掉,因为模型已经解决了它们,几乎没有剩余提升空间。我们进一步将样本的学习潜力定义为 r_max(x) - r_mean(x)。小的差距表明,即使是最好的采样输出也不比平均 rollout 好多少,因此该样本为奖励驱动的改进提供的机会有限。最后,奖励方差非常低的样本被移除,因为 GRPO 依赖于采样组内的相对奖励差异;奖励平坦的 rollout 提供微弱或退化的优势信号。
高潜力样本评分。对于剩余的候选样本,我们计算一个统一的高潜力得分,该得分结合了改进空间、生成不确定性和奖励多样性。主导项是学习潜力差距 r_max(x) - r_mean(x),它衡量当前策略是否偶尔能产生比其平均行为好得多的输出。我们还根据当前策略下采样 rollouts 的似然来估计生成不确定性。对于第 k 个 rollout y^(k) = (y1^(k), ..., y_{T_k}^(k)),我们定义其长度归一化的序列置信度为
这个几何平均值消除了原始序列似然的长度偏差,并衡量了当前策略在 token 级别生成该 rollout 的置信度。然后通过对 K 个 rollout 取平均来计算样本级不确定性:
较大的 U(x) 表示当前策略对其在 x 上采样输出的平均置信度较低,表明生成行为尚不稳定,可能仍会从策略精炼中受益。
此外,我们使用奖励方差来衡量采样的 rollouts 在任务奖励下是否揭示了有意义的区分:
其中 r^(k)(x) 是第 k 个 rollout 的奖励,r_mean(x) = (1/K) ∑_{k=1}^{K} r^(k)(x)。虽然 U(x) 捕捉生成过程中的不确定性,但 V_r(x) 捕捉任务级别结果的多样性,这与组相对优化直接相关。
最终的高潜力得分定义为
其中 r_max(x) = max_k r^(k)(x),α 和 β 控制生成不确定性和奖励方差的贡献(实践中我们设置 α = 1 和 β = 2)。主导项 r_max(x) - r_mean(x) 衡量样本的可达到改进空间,而指数因子则对其 rollouts 在当前策略下既具有不确定性又在任务奖励下具有区分性的样本赋予更高的权重。这种公式优先选择那些不仅困难而且可学习的样本:策略已经可以在某些 rollouts 中达到更好的解决方案,奖励分布提供了有区分度的组相对信号,并且生成过程仍有足够的不确定性以从优化中受益。
为了保持任务平衡,此评分和选择过程针对所有任务单独执行,包括 OCR、图表解析、表格识别、公式识别、印章识别和文本 spotting。然后使用每个任务中排名靠前的样本进行最终的 GRPO 阶段。这样,RL 训练专注于具有可观察改进潜力的高质量候选样本,而不是从整个候选池中均匀采样。这稳定了 GRPO 优化,并使奖励驱动的学习对紧凑的 PaddleOCR-VL-1.6-0.9B 模型更加有效。
4.3.2. 奖励设计
对于像 PaddleOCR-VL-1.6-0.9B 这样的紧凑模型,过于稀疏的二元奖励提供的学习信号有限,使得模型难以有效地从 RL 中受益。因此,我们设计了一个表示感知的可验证奖励,它提供与任务对齐的标量反馈,同时仍然强制执行严格的正确性约束。对于每个任务 t,模型输出 y 和参考 y* 首先由 φ_t 映射到任务特定的规范表示。最终奖励定义为
其中 Valid_t 是一个严格的有效性门,Struct_t 是一个结构调整因子,Sim_t 是任务对齐的相似性度量。有效性门定义了可用任务输出的最低要求,并且是二元的:格式无效、LaTeX 格式错误、截断、退化或其他任务特定失败的输出将获得零奖励。结构因子对那些可解析但需要后处理校正的输出给予软惩罚。例如,非矩形的 OTSL 表格输出会根据将其转换为有效矩形结构所需的最小编辑成本进行惩罚。然后,相似性项使用适用于每个任务的度量来衡量有效的、规范化后的输出与参考的接近程度。任务特定的奖励设计总结在表 1 中。
具体来说,对于文本 spotting,每个几何匹配的预测-参考框对都根据文本相似性进行加权,使用预测字符串和参考字符串之间的 1 - NED。这产生了一个编辑相似性加权的 F1 分数,共同奖励准确的定位和识别,而不是将所有匹配的框视为同等正确。
表 1 | PaddleOCR-VL-1.6 的奖励设计。每个任务都遵循相同的 Valid-Struct-Sim 公式,同时使用特定任务的有效性检查、结构因子和相似性度量。
4.3.3. 训练数据和设置
训练数据。我们构建了一个精心策划的 RL 候选数据池,具有统一的标注风格、高质量的参考以及能够提供有意义奖励信号的挑战性样本。使用 SFT 模型作为 rollout 策略,我们应用上述高潜力样本挖掘策略来探测、过滤和评分该候选池中的样本。对于每个任务,我们根据最终的挖掘得分,经验性地选择前 8K 个样本进行 GRPO 训练。由此产生的 RL 训练集总共包含 4.9 万个样本。
训练设置。在 RL 阶段,所有模型参数都被解冻。我们训练两个周期,全局批量大小为 1024,并将所有参数的最大学习率设置为2×10⁻⁶。在 rollout 采样期间,我们使用温度为 0.85,top-k 为 32,top-p 为 0.9,组大小 G 为 16。遵循 DAPO [19],我们采用了 clip-higher 策略,ε_high = 0.28。我们还使用 DAPO 中的动态采样策略,忽略组内奖励方差为零的组,确保 GRPO 更新仅从具有有意义相对奖励差异的样本中计算。
5. 评估
为了全面评估 PaddleOCR-VL-1.6 的有效性,我们在文档解析基准 OmniDocBench v1.6 [16] 和 Real5-OmniDocBench [20] 上进行了评估。此外,我们通过纳入困难的表格识别、图表解析、文本 spotting 和印章识别任务来扩展评估范围,以便对模型在实用和复杂场景中的性能进行更全面的分析。
5.1. 文档解析
本节详细介绍了使用以下两个基准对端到端文档解析能力的评估,旨在衡量其在真实世界文档场景中的整体性能。
OmniDocBench v1.6我们还在 OmniDocBench v1.6 上进行了评估,这是 OmniDocBench v1.5 的更新版本。与 v1.5 相比,v1.6 引入了两个关键变化。首先,它采用多粒度自适应匹配来减少由固定粒度的一对一元素匹配引起的匹配偏差。当预测使用与真实标签不同但在语义上等效的分割时,这提高了评估的鲁棒性。其次,它增加了一个包含 296 页的专用困难子集,涵盖了更具挑战性的文档解析场景,包括复杂的嵌套表格、密集的公式布局和非常规的文档结构。因此,OmniDocBench v1.6 提供了更全面的评估。评估指标保持任务特定。文本和阅读顺序使用基于编辑距离的相似度进行评估,表格使用 TEDS 评估,公式使用 CDM [21] 评估。通过 MGAM,这些指标在自适应匹配策略下计算,该策略减轻了分割粒度不匹配的问题,最终得分是对评估的文档元素进行聚合得到的。
表 2 显示,PaddleOCR-VL-1.6 取得了最先进的整体性能,始终优于现有的通用 VLM 和专门的文档解析模型。值得注意的是,PaddleOCR-VL-1.6 比其前身 PaddleOCR-VL-1.5 实现了显著的性能飞跃,将总体得分从 94.93% 提升到了排名第一的96.33%。具体而言,它在文本编辑距离、CDM 得分、表格 TEDS 和表格 TEDS-结构上分别提高了 0.5%、0.6%、3.09% 和 2.74%。此外,我们的模型在主要的解析子任务中确立了新的最先进结果,包括将文本编辑距离降低到 0.033,将公式 CDM 得分提高到 97.49%,并在表格 TEDS 和表格 TEDS-S 上分别取得了 94.76% 和 97.11% 的领先得分。它还在阅读顺序上取得了极具竞争力的 0.127 分,与在此指标上表现最佳的模型相当。这些改进凸显了模型在文本识别、公式提取和复杂表格结构分析方面增强的精度。
Real5-OmniDocBenchReal5-OmniDocBench [20] 是最近提出的一个基准,旨在评估文档解析模型在真实世界条件下的表现。它基于 OmniDocBench v1.5 构建,涵盖了五种代表性场景:扫描、弯曲、屏幕摄影、光照变化和倾斜。除扫描子集外,所有图像均使用手持移动设备手动捕获,密切模拟了实际的文档采集环境。每个子集与原始 OmniDocBench 样本保持一一对应关系,并遵循相同的真实标签标注和评估协议。凭借其物理采集和场景多样的数据,Real5-OmniDocBench 为评估文档解析模型在实际应用中的鲁棒性提供了一个严格的测试平台。
如表 3 所示,PaddleOCR-VL-1.6 在 Real5-OmniDocBench 上取得了最佳的整体性能,以 93.19% 的总体得分创造了新的最先进结果。与其前身 PaddleOCR-VL-1.5 相比,它將總體得分從 92.05% 提高了 1.14 个百分点,達到 93.19%。尽管其参数规模仅为 0.9B,但 PaddleOCR-VL-1.6 显著优于规模大得多的通用 VLM,包括 Qwen3-VL-235B 和 Gemini-3 Pro,突显了其在文档中心任务上的强大参数效率。
表 2 | OmniDocBench v1.6 上的综合评估。性能指标引自官方排行榜 [38]。PaddleOCR-VL-1.6 在所有评估模型中取得了最佳的整体性能。
表 3 | Real5-OmniDocBench 上的文档解析综合评估。
5.2. 核心子能力
本节详细评估了 PaddleOCR-VL-1.6 在多个核心子能力上的表现,涵盖困难表格识别、图表解析、文本 spotting 和印章识别。
5.2.1. 困难表格识别
内部表格基准。我们的内部评估集包含 1258 个具有挑战性的表格样本,带有全面的标注和细粒度的类型标签。它涵盖了 20 种表格类别,包括中文、英文和中英文混合表格,以及带有全边框、部分边框或无边框的表格。该集合进一步包含了多样的表格格式和场景,例如公式表格、密集表格、书籍和手册表格、列表、学术论文、合并单元格表格、低质量扫描件、带水印表格、登记表、统计表、研究和财务报告、基于图像的表格、发票和手写表格。
表 4 比较了不同方法在内部表格基准上的表现。PaddleOCR-VL-1.6 在整体 TEDS (91.71) 和结构 TEDS (94.67) 上均取得了最高分,展示了其在挑战性表格识别场景中的有效性和可靠性。
表 4 | 内部困难表格识别基准上的比较。
| 方法 | 整体 TEDS↑ | 结构 TEDS↑ |
|---|---|---|
| MonkeyOCR [2] | 73.96 | 78.24 |
| Qwen2.5-VL-3B [41] | 73.98 | 77.65 |
| dots.ocr [34] | 75.47 | 79.14 |
| Qwen2.5-VL-7B [41] | 75.49 | 79.26 |
| OCRFlux-3B [44] | 77.41 | 80.71 |
| Qwen2.5-VL-72B [41] | 77.62 | 83.61 |
| Nanonets-OCR-s [29] | 78.24 | 81.90 |
| MinerU2-VLM [43] | 82.86 | 87.30 |
| MinerU2.5 [3] | 84.69 | 89.55 |
| TRivia-3B [45] | 86.12 | 91.16 |
| GLM-OCR [15] | 86.21 | 90.76 |
| PaddleOCR-VL [6] | 86.99 | 90.66 |
| PaddleOCR-VL-1.5 [9] | 87.14 | 90.61 |
| MinerU2.5-Pro [16] | 89.77 | 93.78 |
| PaddleOCR-VL-1.6 | 91.71 | 94.67 |
5.2.2. 图表解析
内部图表基准。我们的内部图表识别评估集包含 1801 个样本,所有样本都经过了严格的人工复核以确保标注正确性。该集合涵盖了 11 种图表类别,包括柱线混合图、饼图、100% 堆叠柱状图、面积图、柱状图、气泡图、直方图、折线图、散点图、堆叠面积图和堆叠柱状图。它包括 851 个英文样本和 950 个中文样本。在评估之前,预测和真实数据表都被规范化为统一的 Markdown 格式,以减少表达歧义。
如表 5 所示,PaddleOCR-VL-1.6 在内部图表基准上取得了最强的图表解析性能,总体 RMS-F1 [46] 得分为 91.74,英文图表为 90.11,中文图表为 93.37。它优于其前身 PaddleOCR-VL 和 PP-StructureV3,突显了其从复杂图表中恢复结构化数据的强大能力。
表 5 | 内部图表基准上的图表解析性能比较。
| 方法 | 总体 RMS-F1↑ | 英文 RMS-F1↑ | 中文 RMS-F1↑ |
|---|---|---|---|
| TinyChart [47] | 69.33 | 69.45 | 69.18 |
| General OCR Theory [48] | 78.77 | 74.11 | 84.48 |
| OneChart [49] | 84.72 | 83.79 | 85.68 |
| PP-StructureV3 [40] | 86.39 | 84.19 | 88.21 |
| Qwen2.5-VL-7B [50] | 87.75 | 86.72 | 88.82 |
| PaddleOCR-VL [6] | 88.25 | 86.72 | 89.80 |
| Qwen2.5-VL-72B [50] | 91.19 | 89.24 | 93.13 |
| Qwen3-VL-235B-A22B-Instruct [25] | 91.29 | 89.92 | 92.89 |
| PaddleOCR-VL-1.6 | 91.74 | 90.11 | 93.37 |
5.2.3. 文本 Spotting
内部文本 Spotting 基准。内部文本 spotting 基准评估端到端的 OCR 能力,涵盖文本检测和识别。它跨越了 9 个代表性维度,包括常见场景、日文、退化或低质量图像、中英文手写体、表格结构化内容、古籍和繁体中文。这些类别旨在反映多样的文档场景和实际部署挑战,范围从常规印刷文本到对布局敏感、低质量、手写和历史风格的材料。
如表 6 总结,PaddleOCR-VL-1.6 在所有 9 个评估维度上均取得了最高的 spotting 准确率,始终优于强基线模型。这些结果证明了其在不同视觉条件、文本样式和文档布局下的强大泛化能力,表明该模型在需要精确定位和忠实转录的标准 OCR 场景和具有挑战性的现实环境中仍然是可靠的。
表 6 | 内部文本 spotting 基准上的性能比较。
5.2.4. 印章识别
内部印章基准。内部印章识别基准旨在评估模型在专门印章文本识别上的性能。它包含 300 张高质量图像,涵盖了不同的印章形状,包括圆形、椭圆形和矩形印章,以及具有挑战性的现实条件,如文本重叠、低对比度印文和扭曲背景。使用归一化编辑距离作为主要度量来测量字符级别的识别准确率。
如表 7 所示,PaddleOCR-VL-1.6 在印章识别方面显示出明显优势。尽管其参数规模仅为 0.9B,但它实现了 0.119 的 NED,显著优于参数规模为 235B 的 Qwen3-VL (NED 为 0.382) 及其前身。这些结果凸显了该模型在处理专门文档元素方面的有效性。
表 7 | 内部印章基准上的印章识别性能比较。
| 模型 | 参数 | NED (↓) |
|---|---|---|
| Qwen2.5-VL-72B [41] | 72B | 0.396 |
| Qwen3-VL-235B-A22B-Instruct [25] | 235B | 0.382 |
| PaddleOCR-VL-1.5 [9] | 0.9B | 0.138 |
| PaddleOCR-VL-1.6 | 0.9B | 0.119 |
5.3. 消融研究
我们在 OmniDocBench v1.6 上进行消融研究,以分析 PaddleOCR-VL-1.6 中每个后训练阶段的贡献。从 PaddleOCR-VL-1.5 的检查点开始,我们逐步应用持续预训练、监督微调和强化学习。此评估追踪了模型在代表性解析指标(包括总体得分、文本编辑距离、公式 CDM、表格 TEDS 和表格 TEDS-S)上的演变。
表 8 | OmniDocBench v1.6 上渐进式后训练阶段的消融研究。
| 阶段 | 总体↑ | 文本编辑↓ | 公式 CDM↑ | 表格 TEDS↑ | 表格 TEDS-S↑ |
|---|---|---|---|---|---|
| PaddleOCR-VL-1.5 [9] | 94.93 | 0.038 | 96.89 | 91.67 | 94.37 |
| + CPT | 95.62 | 0.035 | 97.32 | 93.03 | 95.82 |
| + SFT | 96.25 | 0.034 | 97.37 | 94.74 | 97.09 |
| + RL | 96.33 | 0.033 | 97.49 | 94.76 | 97.11 |
表 8 报告了 OmniDocBench v1.6 上每个渐进式后训练阶段的贡献。从 PaddleOCR-VL-1.5 开始,完整的方案将总体得分从 94.93% 提高到 96.33%,同时在文本识别、公式识别和表格识别指标上持续改进。最大的收益来自 CPT 和 SFT 阶段。CPT 将总体得分提高了 0.69 个百分点,并将表格 TEDS 从 91.67% 大幅提升到 93.03%,这表明来自数据引擎的广泛分布扩展和修正后的监督为进一步优化奠定了坚实基础。SFT 又带来了 0.63 个百分点的总体提升,并将表格 TEDS 进一步提高到 94.74%,表格 TEDS-S 提高到 97.19%,表明高质量的困难样本对于精炼困难案例特别有效。
RL 阶段带来了较小但仍为正面的提升,将总体得分从 96.25% 进一步提高到 96.33%,并将公式 CDM 得分从 97.37% 提高到 97.49%。这种相对较小的改进是意料之中的,因为模型在 OmniDocBench v1.6 上经过 CPT 和 SFT 后已经达到了一个强大的性能状态,为额外的优化留下的空间较小。尽管如此,RL 通过奖励引导的训练进一步精炼了最终模型,促成了最佳的整体性能。这些结果表明,对于文档解析,主要的性能提升来自高质量的数据构建和分阶段的监督适应,而 RL 则作为将已经强大的模型推向其性能上限的最终精炼步骤。
6. 结论
这项工作介绍了 PaddleOCR-VL-1.6,一个增强的紧凑型文档解析模型,它在 PaddleOCR-VL-1.5 的基础上构建,同时保留了其高效的 0.9B 架构。PaddleOCR-VL-1.6 不依赖于不加区分的模型扩展,而是通过一个欠优化区域驱动的数据引擎和一个涵盖 CPT、SFT、和 RL 的渐进式后训练流程来提高性能。由此产生的模型在 OmniDocBench v1.6 上取得了最先进的性能,并在 Real5-OmniDocBench 上展示了强大的鲁棒性,同时在困难表格识别、图表解析、文本 spotting 和印章识别等关键子能力上也带来了持续的提升。这些结果表明,针对性的数据优化和分阶段的后训练可以有效地释放紧凑型文档 VLM 的剩余潜力。通过在不同的现实世界场景中提供准确和鲁棒的文档理解,PaddleOCR-VL-1.6 为下游的 RAG 系统、大型语言模型应用和实际的文档智能工作流程提供了一个高质量的解析基础。