Google日前发布并开源 Gemma 4 12B 版多模态模型,该模型的开发目标是让消费级设备也可以在本地运行 AI 模型,根据Google的测试,该模型可以在 16GB 内存 / 显存的笔记本电脑和台式机上运行,这得益于 12B 的小规模参数,但该模型的智能化程度比肩 Gemma 26B 版模型。

模型优势包括:

  • 全新统一架构:无需多模态编码器,直接支持文本、图片、视频和音频输入。

  • 高级推理功能:基准性能接近 Gemma 26B 版混合专家架构模型,可以在本地提供多步骤推理。

  • 内存要求较低:只需要 16GB 的内存或显存即可在本地运行,当然内存越大性能也会更好。

  • 模型开源发布:该模型采用 Apache 2.0 许可证发布,Google和社区也提供完善的开发者生态系统支持。

  • 预测选型器:Gemma 4 12B 版配备多种 Token 预测选型器,可以有效减少延迟。

有关模型的更多介绍:

Gemma 4 12B 在标注基准测试中的智能化程度接近Google此前开源发布的 26B MoE 混合架构模型,但 12B 版内存要求非常低,可以直接在配备 16GB 内存或显存的消费级笔记本电脑和台式机上运行,让用户可以在本地体验强大的多模态和智能体交互体验。

该模型的突出优势还包括简化图片、视频、音频输入处理方式,传统的多模态模型通常依赖独立的编码器来转换图像和音频,然后再将转换后的表示传递给语言模型,由于这些分离式编码器会增加延迟和内存占用,所以Google使用无编码器架构训练 Gemma 4 12B 模型,让模型可以直接整合音频和视觉输入。

视觉方面:使用轻量级的嵌入模块替换 Gemma 4 视觉编码器,该模块仅包含 1 次矩阵乘法、位置嵌入和归一化操作,这让模型主干网络可以直接接管视觉处理。

音频方面:Google完全移除了音频编码器,将原始音频信号投射到与文本标记相同的维度空间中。

体验和下载模型:

目前 Gemma 4 12B 版已经在多个平台提供,有兴趣的开发者可以在 Ollama 等中直接体验,也可以前往 HuggingFace 或 Kaggle 下载模型权重文件,开发者还可以使用 Unsloth 进行高效微调定制自己需要的版本。

Ollama:https://ollama.com/library/gemma4

HuggingFace:https://huggingface.co/collections/google/gemma-4

Unsloth:https://unsloth.ai/docs/models/gemma-4