前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

DeepSeek开源OCR模型:视觉Token压缩文本,重塑AI长文本处理效率与成本

NEXTECH
Last updated: 2025年10月21日 上午6:56
By NEXTECH
Share
11 Min Read
SHARE

DeepSeek近日开源了一款参数量达3B的新型OCR模型。

Contents
核心思路核心技术性能表现点评

DeepSeek OCR模型:视觉Token压缩文本信息示意图

这不只是又一个OCR模型,更是对AI处理长文本方式的重新思考:如何高效地利用视觉token压缩文本信息。

核心思路

传统方式处理长文档需要大量文本token,计算成本随序列长度二次增长。DeepSeek-OCR的核心想法是:既然一张图片能包含大量文字信息,为什么不用更少的视觉token来表示?

从实验结果来看,这种思路是奏效的。在10倍压缩比内,模型的OCR解码精度能达到97%。即使在20倍压缩比下,准确率仍有60%左右。这意味着,1000个文本token的内容,用100个视觉token就能基本无损表示。

核心技术

DeepSeek-OCR包含两个核心组件:DeepEncoder和DeepSeek3B-MoE解码器。

You Might Also Like

RAG过时了?揭秘CAG:缓存增强生成技术实战与优化
向量数据库并非万能:何时该用,何时不该用?
中央网信办、国家发展改革委发布《政务领域人工智能大模型部署应用指引》:赋能数字政务新篇章
Ontology:企业落地Agent的关键与悦点科技实践解析

DeepSeek-OCR核心架构图:DeepEncoder与MoE解码器

DeepEncoder是关键创新点。它串联了SAM(负责窗口注意力的感知组件)和CLIP(负责全局注意力的知识组件),中间通过16倍卷积压缩器连接。这样设计的好处是窗口注意力能够处理大量视觉token,而压缩器在进入密集全局注意力之前减少token数量,从而既保证了效果又控制了内存消耗。

模型还支持多分辨率。从512×512的Tiny模式到1280×1280的Large模式,甚至支持动态分辨率的Gundam模式,能灵活应对不同场景需求。

性能表现

在OmniDocBench测试中,DeepSeek-OCR仅用100个视觉token就超越了使用256个token的GOT-OCR2.0,用不到800个视觉token就超过了需要近7000个token的MinerU2.0。

DeepSeek-OCR在OmniDocBench测试中的性能对比图

不同文档类型的表现差异也值得关注。幻灯片文档只需64个视觉token就能获得良好效果,书籍和报告用100个token就足够了,但报纸需要Gundam模式才能达到可接受的准确率。这反映了不同文档类型的文本密度差异。

DeepSeek-OCR不同文档类型下的视觉Token压缩效果

点评

DeepSeek的思路可谓“刁钻”。传统OCR通常只将图片转换为文本,而他们却思考如何用视觉信息更高效地表示文本内容。

这种方法直接带来了成本的显著降低。以一个1万页的文档库为例,传统方式需要1000万个文本token,而现在只需100万个视觉token,成本直接降低了10倍。

更深层次地看,这种压缩不仅仅是节约成本,它还解决了几个长期困扰算法和工程领域的大问题:

  1. 训练数据瓶颈得到缓解。多模态模型此前受限于数据处理能力,现在这一限制已基本不存在。

  2. AI智能体的记忆问题有了新解法。智能体最大的问题是会瞬间失忆,上下文过长时容易崩溃。渐进式压缩模拟了人类的遗忘曲线,使得智能体能够持续运行,避免因上下文过载而失效。

  3. RAG(检索增强生成)技术可能需要重新考虑其存在价值。既然能够将整个文档库压缩到上下文窗口中,为何还需要分块检索?直接将所有内容放入进行处理即可。

  4. 实时AI应用变得经济可行。实时文档分析、流式OCR、带视觉上下文的实时翻译等应用,此前因成本过高而难以普及,现在其门槛大幅降低。

或许,这也是有人称之为AI的“JPEG”时刻的原因。

不过,正如论文所指出,这是一项方向性探索,目前主要局限在OCR任务上,许多实际问题仍需进一步验证。

地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

TAGGED:AI前沿技术DeepSeek OCR大模型文本压缩视觉Token
Share This Article
Email Copy Link Print
Previous Article Coze提示词评测功能示意图 独立产品开发:为何应放弃Coze,拥抱编程构建完整AI产品
Next Article Iniu P55-E2 移动电源生活场景图 Iniu P55-E2 迷你移动电源限时半价:10000mAh 大容量,45W 快充不容错过
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
图表1
《亚洲水发展展望2025》深度解读:亚太水安全喜忧参半,未来挑战何在?
未分类
谷歌助手设备概念图
谷歌支付6800万美元和解语音助手监听诉讼,你的隐私可能被“误触发”录音
科技
20260127081404359.jpg
甲骨文豪掷500亿美元押注AI基建,美国数据中心版图加速扩张
科技
OpenAI总裁豪掷2500万美元支持特朗普,科技巨头与政坛的深度捆绑引关注
AI

相关内容

图片:Monte Carlo的可观测性代理
大模型与工程化

2025年末数据与AI十大趋势展望:洞悉生产级AI的未来挑战与机遇

2025年10月11日
AI-Native产品设计范式转变图
AI 前沿技术

Claude Code 视角下的 AI-Native 产品设计:颠覆式开发与团队协作新范式

2025年10月4日
图片 1: Airtable + GPT:利用无代码工具快速搭建轻量级RAG系统原型
大模型与工程化

Airtable联手GPT:零代码工具快速搭建轻量级RAG系统原型

2025年9月21日
LangExtract工作流程示意图
AI 前沿技术

LangExtract:大模型文本提炼工具功能与工作流程详解

2025年11月1日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?