26-04-15 10:07 微博认证:HuggingFace官方微博

Gemma 4 来了,而且这次真的很强 🚀
Google DeepMind 的 Gemma 4 模型家族现已登陆 Hugging Face。它最大的特点可以概括为一句话:开放、多模态、可设备端运行,而且生态首日就很完整。

为什么值得关注?
首先,它是真正开放的。Gemma 4 采用 Apache 2.0 许可,对研究和产品开发都更友好。
其次,它是多模态模型。Gemma 4 支持图像、文本,部分小模型还支持音频输入,并生成文本输出。也就是说,它不仅能聊天,还能看图、听音频、理解视频,完成 OCR、语音转写、目标检测、界面定位、函数调用等任务。

这次一共提供 4 个尺寸:
- Gemma 4 E2B
- Gemma 4 E4B
- Gemma 4 31B
- Gemma 4 26B A4B
其中,26B A4B 是 MoE 架构,总参数 26B,但每次只激活约 4B 参数,在效率和效果之间取得了很不错的平衡。小模型适合端侧和本地部署,大模型则在推理、代码、视觉和长上下文任务上表现很强。

更重要的是,Gemma 4 不是“只有模型”,而是“整个生态都准备好了” 🤝

现在你已经可以在这些工具里直接使用它:
- transformers
- llama.cpp
- MLX
- transformers.js
- Rust 推理引擎 mistral.rs
这意味着,从云端到本地,从浏览器到 Apple Silicon,从 AI 智能体到多模态应用,Gemma 4 都能快速接入。

在 Hugging Face 的测试中,Gemma 4 展示了很强的多模态能力,例如:
- 看图直接输出目标框坐标
- 根据网页截图生成 HTML
- 理解视频内容
- 执行音频问答和语音转写
- 结合图像做函数调用

底层架构也针对长上下文和设备端推理做了优化,例如更高效的注意力设计,以及更省显存的 KV Cache 复用机制。

另外,Gemma 4 也已经支持主流微调方案,包括 TRL、Vertex AI、Unsloth Studio,以及 bitsandbytes、PEFT 等常见工具链。对开发者来说,基本就是开箱即用。

一句话总结:
Gemma 4 不只是一个新模型,而是一套面向多模态、AI 智能体和设备端部署的完整开放生态。

🤗 欢迎加入我们的中文社区:Chinese LLMs on Hugging Face,一起交流多模态模型、设备端推理与开源大语言模型实践!
#多模态模型##大语言模型##HuggingFace#

发布于 美国