前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

DeepSeek与百度OCR技术深度对比:谁是文档识别新水准的引领者?

NEXTECH
Last updated: 2025年10月23日 上午6:35
By NEXTECH
Share
22 Min Read
SHARE

DeepSeek OCR的最新论文近期引发广泛关注,在社交媒体上形成刷屏效应。

据了解,OCR技术是DeepSeek团队近半年来的重点研究方向之一,投入了大量精力。

DeepSeek-OCR有望解决大型语言模型(LLM)处理长上下文时的计算瓶颈。

当前,业内主要关注DeepSeek提出的上下文光学压缩新思路,但对其OCR模型实际表现的测评相对较少。

一家拥有五年扫描产品“聚创全能扫描王”开发经验的公司,长期以来一直采用百度开源的PaddleOCR技术。

聚创全能扫描王产品界面截图

You Might Also Like

智能体关键技术深度解析:从产品实践到核心概念
深度解析Deep Research技术:前沿架构、核心技术与未来展望
Claude Skills:Anthropic AI 的智能技能功能解析与应用
OCR王者争霸:MinerU、PaddleOCR、DeepSeek-OCR 实测对比与多模态PDF解析系统集成

在2021年的技术预研中,对多种云端及开源OCR方案进行测试后,PaddleOCR被认为是性价比最优的选择。

多年来,PaddleOCR在开源社区中影响力巨大,其GitHub Star数已超过60k。

2022年百度举办的OCR技术分享会上座无虚席。在OCR技术尚未受到大厂普遍重视的早期,百度在该领域投入了大量工作。

PaddleOCR技术分享会现场照片

对于扫描类产品而言,OCR技术是其核心竞争力。

DeepSeek OCR的发布,作为一款小模型,其部署成本极高,促使团队决定进行全面测试,以评估其与现有方案的性能优劣。

在测试准备阶段,技术负责人发现百度于近期发布了PaddleOCR的新版本:PaddleOCR-VL。

PaddleOCR-VL是一款多模态文档解析模型,参数量仅为0.9B,可轻松在普通笔记本电脑上运行。

PaddleOCR-VL模型特性与参数介绍图

PaddleOCR-VL的技术报告可在此查阅:

https://arxiv.org/pdf/2510.14528

这款百度新模型在当时最新的权威测评榜单OmniDocBench V1.5中,在文本识别、公式识别、表格理解、阅读顺序四项核心能力上均取得了SOTA(State-of-the-Art)水平。

此前,它还连续登顶Hugging Face Trending榜全球第一。

PaddleOCR-VL在Hugging Face Trending榜登顶截图

鉴于PaddleOCR-VL的卓越表现,本文将深入对比PaddleOCR-VL与DeepSeek-OCR两大模型的测试结果。

OCR能力测试通常需涵盖印刷体和手写体中的复杂场景,例如多语言混合、拼音声调、数学公式及连笔字。

经过多年积累的测试案例,本次评估得以高效进行。

PaddleOCR-VL提供Hugging Face在线体验平台:

https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo

相比之下,DeepSeek-OCR目前尚未提供云端Demo链接,且主流云平台也未提供一键部署入口。

用户若要体验DeepSeek-OCR,需自行根据GitHub上的操作步骤进行部署,操作过程较为简便。

以下是详细测试过程。

首先测试竖版碑文。其识别存在两个难点:

第一,传统OCR系统主要针对横排文字设计,处理竖排文字时,模型需准确理解文字排列、字间上下关系以及段落行结构。

第二,繁体字结构复杂,OCR识别需高精度和对字形的深层理解。特别是相似字形或复杂形态的字,易出现识别错误,且不同书法风格的写法差异较大。

以下是测试所用的碑文拓片图片。

竖版碑文拓片原图

PaddleOCR-VL的识别结果:

PaddleOCR-VL碑文识别结果

DeepSeek-OCR的识别结果:

DeepSeek-OCR碑文识别结果

整体而言,百度和DeepSeek均未能100%准确识别碑文内容。

然而,PaddleOCR-VL的相对准确率更高。DeepSeek-OCR错误地识别了最后一列的“夫”字,存在低级错误。

经计算,PaddleOCR-VL的错误率为8.16%,而DeepSeek-OCR的错误率为18.37%。

接下来测试手写数学公式。以下是原图,为便于复现,所有测试图片均会分享。

这些案例是团队在每次测评OCR API或开源软件时常用的标准测试集。

手写数学公式原图

PaddleOCR-VL的识别结果:

PaddleOCR-VL手写数学公式识别结果

DeepSeek-OCR的识别结果:

DeepSeek-OCR手写数学公式识别结果

DeepSeek-OCR输出的是LaTeX版本。综合对比显示,二者识别准确度一致,均表现良好。

继续观察一个字迹有些模糊的竖排文本。

模糊竖排文本原图

百度PaddleOCR-VL的结果:

PaddleOCR-VL模糊竖排文本识别结果

DeepSeek-OCR的结果:

DeepSeek-OCR模糊竖排文本识别结果

二者准确率均为100%。表明在处理此类简单案例时,模型性能已非常成熟。

进一步加大难度,测试连笔字识别。此图片来源于小红书。

连笔字手写文本原图

PaddleOCR-VL的识别结果:

PaddleOCR-VL连笔字识别结果

DeepSeek-OCR的识别结果:

DeepSeek-OCR连笔字识别结果

在连笔字识别方面,DeepSeek-OCR的表现不佳。经过连续五次测试,DeepSeek-OCR均仅能识别出四个字。

值得一提的是,OCR类模型的幻觉率普遍较低。首次识别结果与后续重复测试结果保持一致。

继续测试复杂图表:

复杂图表原图

百度PaddleOCR-VL的结果:

PaddleOCR-VL复杂图表识别结果

DeepSeek-OCR的结果:

DeepSeek-OCR复杂图表识别结果

显然,PaddleOCR-VL的效果更优。DeepSeek-OCR似乎无法准确理解柱状图的含义。

降低难度,测试一个表格示例。这类需求在产品中非常常见,要求OCR能够转换为表格样式。

表格原图

PaddleOCR-VL的输出:

PaddleOCR-VL表格识别输出

DeepSeek-OCR的输出:

DeepSeek-OCR表格识别输出

DeepSeek-OCR和PaddleOCR-VL均能准确识别表格中的文字,这方面的难度不大。

但在将文字组合为结构化表格时,DeepSeek-OCR出现了一些差错,右侧几列明显错位。DeepSeek-OCR在图表处理方面仍有较大的优化空间。

接着测试化学方程式识别。

化学方程式原图

百度PaddleOCR-VL的结果:

PaddleOCR-VL化学方程式识别结果

DeepSeek-OCR的结果:

DeepSeek-OCR化学方程式识别结果

文字识别方面,二者均无问题。但DeepSeek-OCR无法同时识别等号和反应条件,而PaddleOCR-VL能够做到。

继续观察多语言混合场景的识别。

多语言混合文本原图

百度PaddleOCR-VL的识别:

PaddleOCR-VL多语言混合识别结果

DeepSeek-OCR的识别:

DeepSeek-OCR多语言混合识别结果

两者的识别结果均完全准确。可见在多语言处理上,两个模型都表现出色。

最后测试小学生拼音识别的语文题,这也是产品用户经常会遇到的场景。

这张图的难点在于需要识别声调,以及笔迹略显稚嫩的汉字。

小学生拼音识别语文题原图

PaddleOCR-VL的结果:

PaddleOCR-VL小学生拼音识别结果

DeepSeek-OCR的结果:

DeepSeek-OCR小学生拼音识别结果

继续测试拼音位于汉字右侧的情况。

拼音右侧排布语文题原图

百度PaddleOCR-VL的识别结果:

PaddleOCR-VL拼音右侧排布识别结果

DeepSeek-OCR的识别结果:

DeepSeek-OCR拼音右侧排布识别结果

本次测试中,二者的准确率较为接近。但综合来看,DeepSeek-OCR的表现略胜一筹。

以下是测试结论:

测试结论总结图

第一,PaddleOCR-VL和DeepSeek-OCR无疑都是极其优秀的OCR模型,达到全球Top3水平。

两者的识别准确率均高于市面上已知的所有其他产品,且多语言支持表现良好。

第二,DeepSeek-OCR的不足之处在于对手写体,特别是连笔字的识别准确率较低。

而PaddleOCR-VL的缺点则是在部分场景中会忽略拼音。若能将两者的优点结合,将实现完美效果。

第三,从本次测试的多个场景来看,PaddleOCR-VL的整体表现优于DeepSeek-OCR。

TAGGED:AI前沿技术DeepSeekOCR技术PaddleOCR文档识别
Share This Article
Email Copy Link Print
Previous Article 微软GraphRAG管道示意图。图片来源:[Edge et al., 2024],遵循CC BY 4.0许可。 融合Neo4j与LlamaIndex:深度解析DRIFT搜索的实现与创新
Next Article 亚马逊与Rivian合作开发四轮电动货运自行车 亚马逊深化与Rivian合作,计划采购数千辆定制电动货运自行车,拓展微出行配送网络
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

Speech LLM 落地挑战
AI 前沿技术

美团开源LongCat-Audio-Codec:高效语音编解码器助力Speech LLM实时交互落地

2025年10月18日
Rem提示词助手界面示例1
未分类

重思AI Native:人、AI与环境共生下的产品设计之道

2025年11月11日
AI 前沿技术

Claude Skills深度解析:Anthropic智能体设计哲学与应用

2025年11月3日
AI 前沿技术

开源神器 OpenDataLoader PDF:RAG 数据预处理终结者,告别“垃圾进,垃圾出”!

2025年10月4日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up