PP-OCRv6是PaddleOCR最新一代通用OCR模型系列,参数规模从1.5M到34.5M,支持50种语言(中、英、日及46种拉丁语系)。相比PP-OCRv5,检测与识别准确率分别提升4.6和5.1个百分点,并提供Paddle Inference、Transformers、ONNX Runtime三种推理后端。
PP-OCRv6 是 PaddleOCR 全新一代通用 OCR 模型系列,专为文档、截图、多语言图像、数字显示屏、工业标签和场景文字等实际应用中的文字检测与识别而设计。

该模型系列提供 tiny(1.5M 参数)、small(7.7M 参数)、medium(34.5M 参数) 三个规格。其中 medium 和 small 版本支持 50 种语言,包括简体中文、繁体中文、英文、日文以及 46 种拉丁语系文字。你可以快速在线体验:PP-OCRv6 在线 Demo。

在 PaddleOCR 官方内部多场景 OCR 基准测试中,PP-OCRv6_medium 达到了 86.2% 的检测 Hmean 和 83.2% 的识别准确率。相比 PP-OCRv5_server,文字检测提升了 +4.6 个百分点,文字识别提升了 +5.1 个百分点。

PP-OCRv6 关注实际 OCR 需求:用小型模型输出准确、结构化的文字结果,并提供灵活的部署选项。关于为什么在 VLM 时代专用 OCR 模型仍然有用,可参考我们之前的博客:PP-OCRv5 登陆 Hugging Face:一种专用 OCR 方法。
PP-OCRv6 在检测和识别方面引入了架构、训练和数据的改进,主要设计目标是在保持模型适合不同部署场景的前提下提升 OCR 准确率。
PP-OCRv6 提供三个模型规格,覆盖不同模型大小和 OCR 精度水平。
| 模型 | 参数量 | 检测 Hmean | 识别准确率 | 典型应用场景 |
|---|---|---|---|---|
| PP-OCRv6_tiny | 1.5M | 80.6% | 73.5% | 边缘设备、轻量本地 OCR、延迟敏感演示、资源受限环境 |
| PP-OCRv6_small | 7.7M | 84.1% | 81.3% | 移动端、桌面端、均衡型 OCR 服务、较低计算成本的多语言 OCR |
| PP-OCRv6_medium | 34.5M | 86.2% | 83.2% | 精度优先的 OCR、服务端管线、工业 OCR、文档摄取、多语言 OCR |
PP-OCRv6 使用 PPLCNetV4 作为文字检测和文字识别的统一骨干网络。对开发者而言,主要好处是模型系列的一致性——tiny、small、medium 并非无关模型,而是同一 OCR 家族的一部分,共享共同的架构方向。
文字检测是 OCR 管线的第一阶段。检测质量影响送入识别器的裁剪区域,而质量差的裁剪常常导致识别效果不佳。
PP-OCRv6 将检测模块升级为 RepLKFPN,这是一种轻量级大核特征金字塔网络,专为多尺度文字检测设计,同时保持推理高效。这对实际 OCR 输入(文字可能小、密集、旋转、低分辨率或嵌入复杂背景)非常关键。

在文字识别方面,PP-OCRv6 使用 EncoderWithLightSVTR,它结合了局部上下文建模与全局注意力,提升了对困难文字区域的识别质量。这些改进对多语言文字、屏幕文字、工业字符、特殊符号、密集文字和噪声图像区域尤为有益。

medium 和 small 版本在一个模型系列中支持 50 种语言,覆盖简体中文、繁体中文、英文、日文和 46 种拉丁语系文字,有助于减少常见多语言 OCR 场景下对多个独立模型的需求。
安装 PaddleOCR:
pip install paddleocr
使用 Paddle Inference(默认后端)运行 OCR:
from paddleocr import PaddleOCR
# 模型:PP-OCRv6_medium(默认)
# 后端:Paddle Inference(默认)
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
for res in result:
res.print()
res.save_to_img("output")
res.save_to_json("output")
OCR 结果可以保存为可视化图像和结构化 JSON 输出,供下游系统(如文档解析、搜索、提取、RAG、分析或智能体工作流)使用。
通过 PaddleOCR,PP-OCRv6 可以使用多种推理后端。PaddleOCR 3.7 提供了统一的推理引擎接口,engine 参数用于选择底层运行时。
| 后端 | 说明 |
|---|---|
| Transformers | 面向 Hugging Face / PyTorch 的推理路径 |
| ONNX Runtime | 适用于 ONNX 部署环境的便携推理路径 |
| Paddle Inference | Paddle 原生推理格式 |
对于 Hugging Face 用户,PaddleOCR 支持使用 Transformers 后端运行选定的 OCR 和文档解析模型。启用方法如下:
engine="transformers"
有关 Transformers 后端如何在 PaddleOCR 中工作的更多细节,请参阅:PaddleOCR:使用 Transformers 后端运行 OCR 和文档解析任务
使用 Transformer 后端运行 PP-OCRv6 示例:
from paddleocr import PaddleOCR
# 模型:PP-OCRv6_medium(默认)
# 后端:transformers
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
ONNX 变体也在 PP-OCRv6 模型集合 中提供,适用于使用 engine="onnxruntime" 的环境:
from paddleocr import PaddleOCR
# 模型:PP-OCRv6_medium(默认)
# 后端:ONNX Runtime
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
这些后端选项使 PP-OCRv6 能够在不同运行时环境中使用,同时保持相同的 OCR 模型家族。
PP-OCRv6 为 PaddleOCR 带来了一个轻量级、多语言的 OCR 模型系列,适用于实际场景中的文字检测与识别。
本次发布包括 1.5M 到 34.5M 参数的三个模型规格、最多支持 50 种语言的多语言 OCR、相比 PP-OCRv5_server 提升的检测和识别准确率,以及 Hugging Face Hub 上的多种模型格式(safetensors、Paddle inference 模型、ONNX 模型)。
结合在线 Space 和可用的 PaddleOCR 推理后端,PP-OCRv6 提供了多种评估与集成入口:
你可以通过在线 Demo 评估 PP-OCRv6,在模型集合中探索可用资源,并使用与自身 OCR 工作流匹配的推理后端。
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断