前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

谷歌发布Gemma 4 12B:统一无编码器多模态模型

AI 前沿2026年6月8日· 原作者:Google DeepMind· 4 分钟阅读2 阅读

谷歌DeepMind发布Gemma 4 12B,一款专为笔记本电脑设计的统一无编码器多模态模型。它采用创新架构,无需额外编码器即可直接处理视觉和音频输入,性能接近更大尺寸的26B模型,内存占用却不到一半,可在16GB RAM的消费级笔记本上本地运行,为AI智能体和多模态推理带来全新可能。

谷歌DeepMind今天推出Gemma 4 12B,这是其最新的大语言模型,旨在将智能体多模态能力直接带到笔记本电脑上。它填补了边缘友好的E4B与更先进的26B专家混合模型之间的空白,在缩小内存占用的同时封装了强大功能。这也是谷歌首款原生支持音频输入的中等规模模型。

得益于开发者社区的支持,Gemma 4系列模型下载量已突破1.5亿次。开发者用它们构建了从可穿戴机械臂到企业级AI安全系统的各种应用。

以下是Gemma 4 12B的核心特性:

  • 新型统一架构:无需多模态编码器,视觉和音频输入直接流入大语言模型主干。
  • 高级推理能力:基准测试性能接近26B模型,解锁强大的多步推理和智能体工作流。
  • 笔记本就绪:体积足够小,只需16GB显存或统一内存即可本地运行。
  • 开放可及:采用Apache 2.0许可,支持整个开发者生态系统。
  • 草稿器就绪:配备多令牌预测草稿器,可降低延迟。

这些特性共同将先进的多模态能力带到日常硬件上,而不牺牲速度或推理能力。

在本地运行顶级智能体

Gemma 4 12B在标准基准测试上性能接近更大的26B MoE模型,但总内存占用不到一半。它足够小,可在配备16GB RAM的消费级笔记本上本地运行,让你的机器解锁强大的多模态和智能体体验。

体验独特的统一高效架构

Gemma 4 12B的独特之处在于其处理视觉和音频输入的流线型方法。传统多模态模型通常依赖独立编码器来转换图像和音频,然后将这些表示传递给语言模型。由于这种分离式编码器会增加延迟和内存使用,谷歌训练Gemma 4 12B时采用了无编码器架构,直接将音频和视觉输入整合进来。

Gemma 4 12B原生处理多模态输入的方式如下:

  • 视觉:用轻量级嵌入模块取代Gemma 4的视觉编码器,该模块仅包含单个矩阵乘法、位置嵌入和归一化。这使得大语言模型主干能够接管视觉处理。
  • 音频:进一步简化音频处理。完全移除音频编码器,将原始音频信号投射到与文本令牌相同的维度空间。

开发者可参阅配套的Gemma 4 12B开发者指南了解详细分解。

Gemma 4 12B统一Transformer架构

立即上手

  • 自行尝试:点击几下即可在LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent应用和LiteRT-LM CLI中体验。
  • 下载权重:直接从Hugging Face和Kaggle下载预训练和指令微调检查点。
  • 集成与学习:查阅开发者文档和快速入门笔记本。
  • 使用你喜欢的开发工具:通过Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM实现本地推理管道,或使用Unsloth高效微调。
  • 使用Gemma Skills解锁智能体开发:为支持开发者利用最新Gemma进展构建智能体,谷歌发布了官方Skills代码库。这是一个专门设计的技能库,旨在让智能体能够使用Gemma模型进行构建。
  • 按需部署:使用Google Cloud在生产环境中启动端点。可通过Gemini Enterprise Agent Platform Model Garden、Cloud Run和GKE按需部署。

原文链接:Google DeepMind
本文由前途科技编辑整理

标签:Google DeepMind多模态开源推理

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

Claude Tag 发布:团队协作新方式
TOP1

Claude Tag 发布:团队协作新方式

官方确认Anthropic AI发现美国机密系统漏洞
TOP2

官方确认Anthropic AI发现美国机密系统漏洞

3

字节跳动发布豆包2.1 Pro 称性能超越Claude Opus

16小时前
字节跳动发布豆包2.1 Pro 称性能超越Claude Opus
4

Legion LegalTech 起诉美政府封禁 Anthropic 模型

16小时前
Legion LegalTech 起诉美政府封禁 Anthropic 模型
5

Anthropic推出Claude Tag:Slack里的AI队友

16小时前
Anthropic推出Claude Tag:Slack里的AI队友
6

Agility Robotics借SPAC上市估值25亿美元

11小时前
Agility Robotics借SPAC上市估值25亿美元
7

Meta 推出自有品牌 AI 智能眼镜,售价 299 美元起

16小时前
Meta 推出自有品牌 AI 智能眼镜,售价 299 美元起
8

英伟达被禁AI芯片黑市价格翻倍

16小时前
英伟达被禁AI芯片黑市价格翻倍
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款