Google发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行

Google日前发布并开源 Gemma 4 12B 版多模态模型，该模型的开发目标是让消费级设备也可以在本地运行 AI 模型，根据Google的测试，该模型可以在 16GB 内存 / 显存的笔记本电脑和台式机上运行，这得益于 12B 的小规模参数，但该模型的智能化程度比肩 Gemma 26B 版模型。

模型优势包括：

全新统一架构：无需多模态编码器，直接支持文本、图片、视频和音频输入。
高级推理功能：基准性能接近 Gemma 26B 版混合专家架构模型，可以在本地提供多步骤推理。
内存要求较低：只需要 16GB 的内存或显存即可在本地运行，当然内存越大性能也会更好。
模型开源发布：该模型采用 Apache 2.0 许可证发布，Google和社区也提供完善的开发者生态系统支持。
预测选型器：Gemma 4 12B 版配备多种 Token 预测选型器，可以有效减少延迟。

有关模型的更多介绍：

Gemma 4 12B 在标注基准测试中的智能化程度接近Google此前开源发布的 26B MoE 混合架构模型，但 12B 版内存要求非常低，可以直接在配备 16GB 内存或显存的消费级笔记本电脑和台式机上运行，让用户可以在本地体验强大的多模态和智能体交互体验。

该模型的突出优势还包括简化图片、视频、音频输入处理方式，传统的多模态模型通常依赖独立的编码器来转换图像和音频，然后再将转换后的表示传递给语言模型，由于这些分离式编码器会增加延迟和内存占用，所以Google使用无编码器架构训练 Gemma 4 12B 模型，让模型可以直接整合音频和视觉输入。

视觉方面：使用轻量级的嵌入模块替换 Gemma 4 视觉编码器，该模块仅包含 1 次矩阵乘法、位置嵌入和归一化操作，这让模型主干网络可以直接接管视觉处理。

音频方面：Google完全移除了音频编码器，将原始音频信号投射到与文本标记相同的维度空间中。

体验和下载模型：

目前 Gemma 4 12B 版已经在多个平台提供，有兴趣的开发者可以在 Ollama 等中直接体验，也可以前往 HuggingFace 或 Kaggle 下载模型权重文件，开发者还可以使用 Unsloth 进行高效微调定制自己需要的版本。

Ollama：https://ollama.com/library/gemma4

HuggingFace：https://huggingface.co/collections/google/gemma-4

Unsloth：https://unsloth.ai/docs/models/gemma-4