PP-OCRv6登陆Hugging Face：轻量级50语种OCR

PP-OCRv6 是 PaddleOCR 全新一代通用 OCR 模型系列，专为文档、截图、多语言图像、数字显示屏、工业标签和场景文字等实际应用中的文字检测与识别而设计。

PP-OCRv6检测效果示例

该模型系列提供 tiny（1.5M 参数）、small（7.7M 参数）、medium（34.5M 参数） 三个规格。其中 medium 和 small 版本支持 50 种语言，包括简体中文、繁体中文、英文、日文以及 46 种拉丁语系文字。你可以快速在线体验：PP-OCRv6 在线 Demo。

模型规格对比

在 PaddleOCR 官方内部多场景 OCR 基准测试中，PP-OCRv6_medium 达到了 86.2% 的检测 Hmean 和 83.2% 的识别准确率。相比 PP-OCRv5_server，文字检测提升了 +4.6 个百分点，文字识别提升了 +5.1 个百分点。

准确率对比

PP-OCRv6 关注实际 OCR 需求：用小型模型输出准确、结构化的文字结果，并提供灵活的部署选项。关于为什么在 VLM 时代专用 OCR 模型仍然有用，可参考我们之前的博客：PP-OCRv5 登陆 Hugging Face：一种专用 OCR 方法。

PP-OCRv6 的新特性

PP-OCRv6 在检测和识别方面引入了架构、训练和数据的改进，主要设计目标是在保持模型适合不同部署场景的前提下提升 OCR 准确率。

三个模型规格

PP-OCRv6 提供三个模型规格，覆盖不同模型大小和 OCR 精度水平。

模型	参数量	检测 Hmean	识别准确率	典型应用场景
PP-OCRv6_tiny	1.5M	80.6%	73.5%	边缘设备、轻量本地 OCR、延迟敏感演示、资源受限环境
PP-OCRv6_small	7.7M	84.1%	81.3%	移动端、桌面端、均衡型 OCR 服务、较低计算成本的多语言 OCR
PP-OCRv6_medium	34.5M	86.2%	83.2%	精度优先的 OCR、服务端管线、工业 OCR、文档摄取、多语言 OCR

PPLCNetV4 骨干网络

PP-OCRv6 使用 PPLCNetV4 作为文字检测和文字识别的统一骨干网络。对开发者而言，主要好处是模型系列的一致性——tiny、small、medium 并非无关模型，而是同一 OCR 家族的一部分，共享共同的架构方向。

PPLCNetV4 架构

用于文字检测的 RepLKFPN

文字检测是 OCR 管线的第一阶段。检测质量影响送入识别器的裁剪区域，而质量差的裁剪常常导致识别效果不佳。

PP-OCRv6 将检测模块升级为 RepLKFPN，这是一种轻量级大核特征金字塔网络，专为多尺度文字检测设计，同时保持推理高效。这对实际 OCR 输入（文字可能小、密集、旋转、低分辨率或嵌入复杂背景）非常关键。

检测管线

用于识别的 EncoderWithLightSVTR

在文字识别方面，PP-OCRv6 使用 EncoderWithLightSVTR，它结合了局部上下文建模与全局注意力，提升了对困难文字区域的识别质量。这些改进对多语言文字、屏幕文字、工业字符、特殊符号、密集文字和噪声图像区域尤为有益。

识别架构

统一的多语言 OCR

medium 和 small 版本在一个模型系列中支持 50 种语言，覆盖简体中文、繁体中文、英文、日文和 46 种拉丁语系文字，有助于减少常见多语言 OCR 场景下对多个独立模型的需求。

快速上手 PaddleOCR

安装 PaddleOCR：

pip install paddleocr

使用 Paddle Inference（默认后端）运行 OCR：

from paddleocr import PaddleOCR

# 模型：PP-OCRv6_medium（默认）
# 后端：Paddle Inference（默认）
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

OCR 结果可以保存为可视化图像和结构化 JSON 输出，供下游系统（如文档解析、搜索、提取、RAG、分析或智能体工作流）使用。

可用的推理后端

通过 PaddleOCR，PP-OCRv6 可以使用多种推理后端。PaddleOCR 3.7 提供了统一的推理引擎接口，engine 参数用于选择底层运行时。

后端	说明
Transformers	面向 Hugging Face / PyTorch 的推理路径
ONNX Runtime	适用于 ONNX 部署环境的便携推理路径
Paddle Inference	Paddle 原生推理格式

对于 Hugging Face 用户，PaddleOCR 支持使用 Transformers 后端运行选定的 OCR 和文档解析模型。启用方法如下：

engine="transformers"

有关 Transformers 后端如何在 PaddleOCR 中工作的更多细节，请参阅：PaddleOCR：使用 Transformers 后端运行 OCR 和文档解析任务

使用 Transformer 后端运行 PP-OCRv6 示例：

from paddleocr import PaddleOCR

# 模型：PP-OCRv6_medium（默认）
# 后端：transformers
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

ONNX 变体也在 PP-OCRv6 模型集合中提供，适用于使用 engine="onnxruntime" 的环境：

from paddleocr import PaddleOCR

# 模型：PP-OCRv6_medium（默认）
# 后端：ONNX Runtime
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

这些后端选项使 PP-OCRv6 能够在不同运行时环境中使用，同时保持相同的 OCR 模型家族。

结论

PP-OCRv6 为 PaddleOCR 带来了一个轻量级、多语言的 OCR 模型系列，适用于实际场景中的文字检测与识别。

本次发布包括 1.5M 到 34.5M 参数的三个模型规格、最多支持 50 种语言的多语言 OCR、相比 PP-OCRv5_server 提升的检测和识别准确率，以及 Hugging Face Hub 上的多种模型格式（safetensors、Paddle inference 模型、ONNX 模型）。

结合在线 Space 和可用的 PaddleOCR 推理后端，PP-OCRv6 提供了多种评估与集成入口：

在线 Demo：PP-OCRv6 在线 Demo
模型集合：PP-OCRv6 模型集合
Transformers 后端博客：PaddleOCR 与 Transformers 后端
PaddleOCR 文档：PP-OCRv6 文档
PaddleOCR 官方网站：https://www.paddleocr.com

你可以通过在线 Demo 评估 PP-OCRv6，在模型集合中探索可用资源，并使用与自身 OCR 工作流匹配的推理后端。

原文链接：Hugging Face
本文由前途科技编辑整理

PP-OCRv6检测效果示例

模型规格对比

准确率对比

PP-OCRv6 的新特性

PP-OCRv6 在检测和识别方面引入了架构、训练和数据的改进，主要设计目标是在保持模型适合不同部署场景的前提下提升 OCR 准确率。

三个模型规格

PP-OCRv6 提供三个模型规格，覆盖不同模型大小和 OCR 精度水平。

模型	参数量	检测 Hmean	识别准确率	典型应用场景
PP-OCRv6_tiny	1.5M	80.6%	73.5%	边缘设备、轻量本地 OCR、延迟敏感演示、资源受限环境
PP-OCRv6_small	7.7M	84.1%	81.3%	移动端、桌面端、均衡型 OCR 服务、较低计算成本的多语言 OCR
PP-OCRv6_medium	34.5M	86.2%	83.2%	精度优先的 OCR、服务端管线、工业 OCR、文档摄取、多语言 OCR

PPLCNetV4 骨干网络

PPLCNetV4 架构

用于文字检测的 RepLKFPN

文字检测是 OCR 管线的第一阶段。检测质量影响送入识别器的裁剪区域，而质量差的裁剪常常导致识别效果不佳。

检测管线

用于识别的 EncoderWithLightSVTR

识别架构

统一的多语言 OCR

快速上手 PaddleOCR

安装 PaddleOCR：

pip install paddleocr

使用 Paddle Inference（默认后端）运行 OCR：

from paddleocr import PaddleOCR

# 模型：PP-OCRv6_medium（默认）
# 后端：Paddle Inference（默认）
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

OCR 结果可以保存为可视化图像和结构化 JSON 输出，供下游系统（如文档解析、搜索、提取、RAG、分析或智能体工作流）使用。

可用的推理后端

通过 PaddleOCR，PP-OCRv6 可以使用多种推理后端。PaddleOCR 3.7 提供了统一的推理引擎接口，engine 参数用于选择底层运行时。

后端	说明
Transformers	面向 Hugging Face / PyTorch 的推理路径
ONNX Runtime	适用于 ONNX 部署环境的便携推理路径
Paddle Inference	Paddle 原生推理格式

对于 Hugging Face 用户，PaddleOCR 支持使用 Transformers 后端运行选定的 OCR 和文档解析模型。启用方法如下：

engine="transformers"

有关 Transformers 后端如何在 PaddleOCR 中工作的更多细节，请参阅：PaddleOCR：使用 Transformers 后端运行 OCR 和文档解析任务

使用 Transformer 后端运行 PP-OCRv6 示例：

from paddleocr import PaddleOCR

# 模型：PP-OCRv6_medium（默认）
# 后端：transformers
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

ONNX 变体也在 PP-OCRv6 模型集合中提供，适用于使用 engine="onnxruntime" 的环境：

from paddleocr import PaddleOCR

# 模型：PP-OCRv6_medium（默认）
# 后端：ONNX Runtime
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

这些后端选项使 PP-OCRv6 能够在不同运行时环境中使用，同时保持相同的 OCR 模型家族。

结论

PP-OCRv6 为 PaddleOCR 带来了一个轻量级、多语言的 OCR 模型系列，适用于实际场景中的文字检测与识别。

结合在线 Space 和可用的 PaddleOCR 推理后端，PP-OCRv6 提供了多种评估与集成入口：

在线 Demo：PP-OCRv6 在线 Demo
模型集合：PP-OCRv6 模型集合
Transformers 后端博客：PaddleOCR 与 Transformers 后端
PaddleOCR 文档：PP-OCRv6 文档
PaddleOCR 官方网站：https://www.paddleocr.com

你可以通过在线 Demo 评估 PP-OCRv6，在模型集合中探索可用资源，并使用与自身 OCR 工作流匹配的推理后端。

原文链接：Hugging Face
本文由前途科技编辑整理

PP-OCRv6 的新特性

三个模型规格

PPLCNetV4 骨干网络

用于文字检测的 RepLKFPN

用于识别的 EncoderWithLightSVTR

统一的多语言 OCR

快速上手 PaddleOCR

可用的推理后端

结论

想了解 AI 如何助力您的企业？

24小时热榜

美机器人公司 CEO：武装人形机器人 2027 年测试

AI控制F-16完成自主飞行测试

习近平：AI发展不是“独奏”而是“交响乐”

NASA公布2027年Artemis III对接细节

阻断一个受体，小鼠衰老速度放缓

工会指控微软Xbox裁员违法

Databricks 估值飙至 1880 亿美元

黑客数据揭示 Suno 从 YouTube 等平台抓取训练数据

免费获取 AI 落地指南

PP-OCRv6 的新特性

三个模型规格

PPLCNetV4 骨干网络

用于文字检测的 RepLKFPN

用于识别的 EncoderWithLightSVTR

统一的多语言 OCR

快速上手 PaddleOCR

可用的推理后端

结论

想了解 AI 如何助力您的企业？

24小时热榜

美机器人公司 CEO：武装人形机器人 2027 年测试

AI控制F-16完成自主飞行测试

习近平：AI发展不是“独奏”而是“交响乐”

NASA公布2027年Artemis III对接细节

阻断一个受体，小鼠衰老速度放缓

工会指控微软Xbox裁员违法

Databricks 估值飙至 1880 亿美元

黑客数据揭示 Suno 从 YouTube 等平台抓取训练数据

免费获取 AI 落地指南