前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

Qwen3-VL 30B-A3B 多模态大模型开源实测:轻量化与性能深度解析

NEXTECH
Last updated: 2025年10月4日 下午12:43
By NEXTECH
Share
19 Min Read
SHARE

千问再次重磅发布!Qwen3-VL-30B-A3B模型现已开源,仅需两张4090显卡即可运行,无疑为个人开发者和研究者带来了巨大便利!

Contents
OCR识别内容理解表格识别网页复刻报告分析理解计算目标识别Grounding数学做题图片排序空间逻辑空间变换色盲测试

近期,千问团队再次开源了Qwen3-VL-30B-A3B多模态模型,并提供了Instruct和Thinking两个版本。Qwen团队的持续创新回应了社区对高效、可部署多模态模型的强烈期待。

Qwen3-VL 30B-A3B 模型开源公告
同时,该模型还提供了对应的FP8量化版本,这意味着仅需两张4090显卡就能高效运行,极大地降低了硬件门槛,真正实现了“平民福利”。

模型已在Hugging Face平台发布:https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

Qwen3-VL-30B-A3B模型的结构细节,可参考此前的文章:等了大半年的Qwen3-VL终于也开源了!附模型细节&实测!

Qwen3-VL 模型结构与细节
从整体榜单来看,Qwen3-VL-30B-A3B-Instruct版本在多项指标上表现优于Qwen2.5-VL-72B-Instruct。

You Might Also Like

GPT-5高效使用指南:掌握参数与功能,释放AI模型强大潜力
MCP上下文爆炸怎么办?Anthropic给出了新答案(图文示例) 介绍 MCP 上下文爆炸问题及 Anthropic 给出的代码执行模式解决方案
语义治理:面向AI时代的企业数据治理新范式
OpenAI Codex积分制计费上线:用户褒贬不一,Claude Code加速应对

Qwen3-VL-30B-A3B 与 Qwen2.5-VL-72B 性能对比榜单
以下是Qwen3-VL-30B-A3B的实测结果速览:

  • Qwen3-VL-30B-A3B模型的整体智能水平相较于Qwen3-VL-235B-A22B存在差距,这是由于两者的参数量和激活量不同所致。
  • 与Qwen3-VL-30B-A3B Instruct版本相比,Thinking版本的图像理解和计算能力更强。
  • 表格识别能力有待提升。
  • 图片排序方面,Thinking版本表现较强,Instruct版本则相对较弱。
  • 数学解题能力突出,在某些方面甚至超越了Qwen3-30B-A3B。
  • 网页复刻表现仍不理想。
  • 色盲测试中,模型即使将图片翻转也能正确识别。

OCR识别

为考察多模态大模型的内容提取能力,本次测试采用了手写体,以增加难度。

Prompt:请识别图中的文本内容,言简意赅。

手写体OCR识别输入图
Qwen3-VL-30B-A3B:回答正确

Qwen3-VL OCR识别结果

内容理解

此项测试旨在考察多模态大模型提取图片内容并进行深层理解的能力。

Prompt:我今天喝了这个果汁会怎么样

果汁标签图示
Qwen3-VL-30B-A3B:回答正确

Qwen3-VL 内容理解结果

表格识别

本环节考察多模态大模型的内容提取和指令跟随能力,要求将表格图片用HTML格式进行还原。

表格识别输入图
Qwen3-VL-30B-A3B:回答错误

Qwen3-VL 表格识别结果

网页复刻

本测试旨在考察多模态大模型的网页还原、审美及代码生成能力。

Prompt:请帮我1:1还原这个网页内容,用HTML呈现。

网页复刻输入图
Qwen3-VL-30B-A3B:表现不佳,生成内容存在一些奇怪之处。

Qwen3-VL 网页复刻结果

报告分析

此测试考察多模态大模型的内容理解能力及知识储备能力。

Prompt:请帮我解读一下报告内容。

报告分析输入图
Qwen3-VL-30B-A3B:解读正确

Qwen3-VL 报告分析结果

理解计算

本环节考察多模态大模型的内容理解与计算能力。

Prompt:找到2024年GDP值最大的省份,并且计算占全国GDP的百分之多少?

2024年总和=1340312.8

GDP数据表格图
Qwen3-VL-30B-A3B-Instruct:识别出广东为GDP最大的省份,但最终计算结果错误。

Qwen3-VL-Instruct GDP计算结果
Qwen3-VL-30B-A3B-Thinking:回答完全正确。

Qwen3-VL-Thinking GDP计算结果

目标识别

此测试考察多模态模型对事物的识别能力,包括判断事物是否准确或清点物品数量。

Prompt:告诉我桌子上菇娘儿的个数。

桌上浆果计数图
Qwen3-VL-30B-A3B:回答正确

Qwen3-VL 目标识别结果

Grounding

本环节检验模型的目标定位能力,此前纯文本输出无法找到的内容,通过Grounding可以实现定位。

Prompt:找出图片中奔跑的人,以JSON格式返回边界框坐标。

奔跑人物定位输入图
Qwen3-VL-30B-A3B:

Qwen3-VL Grouding定位结果
然而,模型仍未能定位到小恐龙。

Qwen3-VL Grouding小恐龙定位结果

数学做题

为评估多模态大模型的数学能力,本次测试采用了2025年高考题。

Prompt:解题

高考数学题图
Qwen3-VL-30B-A3B:回答正确,最后一问也得到了正确解答。

Qwen3-VL 数学解题结果

图片排序

此测试旨在检验多模态模型能否理清多张图片之间的逻辑关系,并理解事件发展规律。

Prompt:根据图中显示的多个场景,将最有可能发生的事件按顺序排列。

正确答案CADB:走到商店,买雪糕,滑倒,雪糕打到脸上。

事件排序测试图1
Qwen3-VL-30B-A3B-Instruct:回答错误

Qwen3-VL-Instruct 事件排序结果1
Qwen3-VL-30B-A3B-Thinking:回答正确

Qwen3-VL-Thinking 事件排序结果1
Prompt:根据图中显示的多个场景,将最有可能发生的事件按顺序排列。

正确答案CDAB:发现蘑菇,采摘并食用,感到眩晕,产生蘑菇会走的幻觉。

事件排序测试图2
Qwen3-VL-30B-A3B:回答不正确,其理解能力不及235B版本。

Qwen3-VL 事件排序结果2

空间逻辑

此测试旨在考察多模态模型在理解图片基础上的深度逻辑分析能力。

Prompt:请回答。

正确答案为A。

空间逻辑推理测试图
Qwen3-VL-30B-A3B:回答错误,且在回答内容较长时,仍旧出现中英文夹杂的现象。

Qwen3-VL 空间逻辑推理结果

空间变换

此测试考察多模态模型对图像进行空间转换的理解能力。

Prompt:请回答。

空间变换识别测试图
Qwen3-VL-30B-A3B-Instruct:回答错误

Qwen3-VL-Instruct 空间变换识别结果
Qwen3-VL-30B-A3B-Thinking:回答正确,能准确识别主视图。

Qwen3-VL-Thinking 空间变换识别结果

色盲测试

此测试考察多模态大模型对颜色的识别能力。

Prompt:图片里有数字吗?如果有的话是什么?

正常者能读出6,红绿色盲者及红绿色弱者读成5,而全色弱者则全然读不出上述的两个字。

色盲测试图(数字6)
Qwen3-VL-30B-A3B:回答正确

Qwen3-VL 色盲测试结果
即使将图片翻转,模型也能识别正确。

翻转色盲测试图(数字6)Qwen3-VL 翻转色盲测试结果

总体而言,Qwen在开源领域始终保持领先地位。Qwen3-VL-30B-A3B模型虽然在某些能力上与更大规模的模型相比仍有差距,但其轻量化特性使其具备显著优势。作为30B MoE模型,它仅激活3B参数,非常适合在端侧设备上高效运行。此外,对于其表现不足之处,用户也有机会进行微调优化,不像235B等超大模型那样,多数用户只能远远地观望。

TAGGED:Qwen3-VL多模态大模型开源性能实测轻量化模型
Share This Article
Email Copy Link Print
Previous Article AI-Native产品设计范式转变图 Claude Code 视角下的 AI-Native 产品设计:颠覆式开发与团队协作新范式
Next Article AI编程的真相:代码能力不再是核心?解锁AI编程基础与实践变现路径
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205190349369.jpg
Meta战略大转向:削减30%元宇宙预算,全力押注AI
科技
20251205183721458.jpg
南部非洲古人类基因组改写进化史:20万年隔离与独特基因
科技
20251205180959635.jpg
AMD为对华出口AI芯片支付15%税费,引发美国宪法争议
科技
20251205174331374.jpg
家的定义与核心价值:探索现代居住空间的意义
科技

相关内容

PaddleOCR-VL化学方程式识别结果
AI 前沿技术

DeepSeek与百度OCR技术深度对比:谁是文档识别新水准的引领者?

2025年10月23日
AI 前沿技术

Prompt Engineering 最佳实践:一份全面的实战指南

2025年11月17日
AI代码生成可能带来的安全隐患示意图
AI 前沿技术

用Claude/Cursor写代码?警惕AI生成代码的10大安全漏洞!

2025年10月26日
Embedding空间示意图
AI 前沿技术

什么是 Embedding?万物皆可Embedding:定义、作用与核心应用场景解析

2025年10月4日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up