Gemma 4 登陆 Hugging Face

Gemma 4 来了，而且这次真的很强 🚀
Google DeepMind 的 Gemma 4 模型家族现已登陆 Hugging Face。它最大的特点可以概括为一句话：开放、多模态、可设备端运行，而且生态首日就很完整。

为什么值得关注？
首先，它是真正开放的。Gemma 4 采用 Apache 2.0 许可，对研究和产品开发都更友好。
其次，它是多模态模型。Gemma 4 支持图像、文本，部分小模型还支持音频输入，并生成文本输出。也就是说，它不仅能聊天，还能看图、听音频、理解视频，完成 OCR、语音转写、目标检测、界面定位、函数调用等任务。

这次一共提供 4 个尺寸：
- Gemma 4 E2B
- Gemma 4 E4B
- Gemma 4 31B
- Gemma 4 26B A4B
其中，26B A4B 是 MoE 架构，总参数 26B，但每次只激活约 4B 参数，在效率和效果之间取得了很不错的平衡。小模型适合端侧和本地部署，大模型则在推理、代码、视觉和长上下文任务上表现很强。

更重要的是，Gemma 4 不是“只有模型”，而是“整个生态都准备好了” 🤝

现在你已经可以在这些工具里直接使用它：
- transformers
- llama.cpp
- MLX
- transformers.js
- Rust 推理引擎 mistral.rs
这意味着，从云端到本地，从浏览器到 Apple Silicon，从 AI 智能体到多模态应用，Gemma 4 都能快速接入。

在 Hugging Face 的测试中，Gemma 4 展示了很强的多模态能力，例如：
- 看图直接输出目标框坐标
- 根据网页截图生成 HTML
- 理解视频内容
- 执行音频问答和语音转写
- 结合图像做函数调用

底层架构也针对长上下文和设备端推理做了优化，例如更高效的注意力设计，以及更省显存的 KV Cache 复用机制。

另外，Gemma 4 也已经支持主流微调方案，包括 TRL、Vertex AI、Unsloth Studio，以及 bitsandbytes、PEFT 等常见工具链。对开发者来说，基本就是开箱即用。

一句话总结：
Gemma 4 不只是一个新模型，而是一套面向多模态、AI 智能体和设备端部署的完整开放生态。

🤗 欢迎加入我们的中文社区：Chinese LLMs on Hugging Face，一起交流多模态模型、设备端推理与开源大语言模型实践！
#多模态模型##大语言模型##HuggingFace#

发布于美国