前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

PP-OCRv6登陆Hugging Face:轻量级50语种OCR

AI 前沿2026年6月21日· 原作者:Hugging Face· 4 分钟阅读0 阅读

PP-OCRv6是PaddleOCR最新一代通用OCR模型系列,参数规模从1.5M到34.5M,支持50种语言(中、英、日及46种拉丁语系)。相比PP-OCRv5,检测与识别准确率分别提升4.6和5.1个百分点,并提供Paddle Inference、Transformers、ONNX Runtime三种推理后端。

PP-OCRv6 是 PaddleOCR 全新一代通用 OCR 模型系列,专为文档、截图、多语言图像、数字显示屏、工业标签和场景文字等实际应用中的文字检测与识别而设计。

PP-OCRv6检测效果示例

该模型系列提供 tiny(1.5M 参数)、small(7.7M 参数)、medium(34.5M 参数) 三个规格。其中 medium 和 small 版本支持 50 种语言,包括简体中文、繁体中文、英文、日文以及 46 种拉丁语系文字。你可以快速在线体验:PP-OCRv6 在线 Demo。

模型规格对比

在 PaddleOCR 官方内部多场景 OCR 基准测试中,PP-OCRv6_medium 达到了 86.2% 的检测 Hmean 和 83.2% 的识别准确率。相比 PP-OCRv5_server,文字检测提升了 +4.6 个百分点,文字识别提升了 +5.1 个百分点。

准确率对比

PP-OCRv6 关注实际 OCR 需求:用小型模型输出准确、结构化的文字结果,并提供灵活的部署选项。关于为什么在 VLM 时代专用 OCR 模型仍然有用,可参考我们之前的博客:PP-OCRv5 登陆 Hugging Face:一种专用 OCR 方法。

PP-OCRv6 的新特性

PP-OCRv6 在检测和识别方面引入了架构、训练和数据的改进,主要设计目标是在保持模型适合不同部署场景的前提下提升 OCR 准确率。

三个模型规格

PP-OCRv6 提供三个模型规格,覆盖不同模型大小和 OCR 精度水平。

模型参数量检测 Hmean识别准确率典型应用场景
PP-OCRv6_tiny1.5M80.6%73.5%边缘设备、轻量本地 OCR、延迟敏感演示、资源受限环境
PP-OCRv6_small7.7M84.1%81.3%移动端、桌面端、均衡型 OCR 服务、较低计算成本的多语言 OCR
PP-OCRv6_medium34.5M86.2%83.2%精度优先的 OCR、服务端管线、工业 OCR、文档摄取、多语言 OCR

PPLCNetV4 骨干网络

PP-OCRv6 使用 PPLCNetV4 作为文字检测和文字识别的统一骨干网络。对开发者而言,主要好处是模型系列的一致性——tiny、small、medium 并非无关模型,而是同一 OCR 家族的一部分,共享共同的架构方向。

PPLCNetV4 架构

用于文字检测的 RepLKFPN

文字检测是 OCR 管线的第一阶段。检测质量影响送入识别器的裁剪区域,而质量差的裁剪常常导致识别效果不佳。

PP-OCRv6 将检测模块升级为 RepLKFPN,这是一种轻量级大核特征金字塔网络,专为多尺度文字检测设计,同时保持推理高效。这对实际 OCR 输入(文字可能小、密集、旋转、低分辨率或嵌入复杂背景)非常关键。

检测管线

用于识别的 EncoderWithLightSVTR

在文字识别方面,PP-OCRv6 使用 EncoderWithLightSVTR,它结合了局部上下文建模与全局注意力,提升了对困难文字区域的识别质量。这些改进对多语言文字、屏幕文字、工业字符、特殊符号、密集文字和噪声图像区域尤为有益。

识别架构

统一的多语言 OCR

medium 和 small 版本在一个模型系列中支持 50 种语言,覆盖简体中文、繁体中文、英文、日文和 46 种拉丁语系文字,有助于减少常见多语言 OCR 场景下对多个独立模型的需求。

快速上手 PaddleOCR

安装 PaddleOCR:

pip install paddleocr

使用 Paddle Inference(默认后端)运行 OCR:

from paddleocr import PaddleOCR

# 模型:PP-OCRv6_medium(默认)
# 后端:Paddle Inference(默认)
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

OCR 结果可以保存为可视化图像和结构化 JSON 输出,供下游系统(如文档解析、搜索、提取、RAG、分析或智能体工作流)使用。

可用的推理后端

通过 PaddleOCR,PP-OCRv6 可以使用多种推理后端。PaddleOCR 3.7 提供了统一的推理引擎接口,engine 参数用于选择底层运行时。

后端说明
Transformers面向 Hugging Face / PyTorch 的推理路径
ONNX Runtime适用于 ONNX 部署环境的便携推理路径
Paddle InferencePaddle 原生推理格式

对于 Hugging Face 用户,PaddleOCR 支持使用 Transformers 后端运行选定的 OCR 和文档解析模型。启用方法如下:

engine="transformers"

有关 Transformers 后端如何在 PaddleOCR 中工作的更多细节,请参阅:PaddleOCR:使用 Transformers 后端运行 OCR 和文档解析任务

使用 Transformer 后端运行 PP-OCRv6 示例:

from paddleocr import PaddleOCR

# 模型:PP-OCRv6_medium(默认)
# 后端:transformers
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

ONNX 变体也在 PP-OCRv6 模型集合 中提供,适用于使用 engine="onnxruntime" 的环境:

from paddleocr import PaddleOCR

# 模型:PP-OCRv6_medium(默认)
# 后端:ONNX Runtime
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

这些后端选项使 PP-OCRv6 能够在不同运行时环境中使用,同时保持相同的 OCR 模型家族。

结论

PP-OCRv6 为 PaddleOCR 带来了一个轻量级、多语言的 OCR 模型系列,适用于实际场景中的文字检测与识别。

本次发布包括 1.5M 到 34.5M 参数的三个模型规格、最多支持 50 种语言的多语言 OCR、相比 PP-OCRv5_server 提升的检测和识别准确率,以及 Hugging Face Hub 上的多种模型格式(safetensors、Paddle inference 模型、ONNX 模型)。

结合在线 Space 和可用的 PaddleOCR 推理后端,PP-OCRv6 提供了多种评估与集成入口:

  • 在线 Demo:PP-OCRv6 在线 Demo
  • 模型集合:PP-OCRv6 模型集合
  • Transformers 后端博客:PaddleOCR 与 Transformers 后端
  • PaddleOCR 文档:PP-OCRv6 文档
  • PaddleOCR 官方网站:https://www.paddleocr.com

你可以通过在线 Demo 评估 PP-OCRv6,在模型集合中探索可用资源,并使用与自身 OCR 工作流匹配的推理后端。


原文链接:Hugging Face
本文由前途科技编辑整理

标签:OCR开源

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

OpenAI 发起 Patch the Planet 开源安全计划
TOP1

OpenAI 发起 Patch the Planet 开源安全计划

Daybreak:守护全球组织的安全工具
TOP2

Daybreak:守护全球组织的安全工具

3

三星全球部署ChatGPT Enterprise

22小时前
三星全球部署ChatGPT Enterprise
4

英国部署 AI 天气预报应对超级厄尔尼诺

22小时前
英国部署 AI 天气预报应对超级厄尔尼诺
5

三星电子全员部署ChatGPT和Codex,加速AI转型

3小时前
三星电子全员部署ChatGPT和Codex,加速AI转型
6

用 Codex 支持长期工作,突破单次提示限制

3小时前
用 Codex 支持长期工作,突破单次提示限制
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款