Google 前两天开源了 Gemma 4。
这事挺重要。没有调用费,没有额度限制。装在你自己电脑上就能用。
Gemma 4 用 Apache 2.0 开源。想改就改,想卖就卖,没人管。
你的电脑能跑吗?
Gemma 4 有四个规格。
最小的叫 E2B。23 亿参数。只要 4GB 内存。能看图片,能听音频。上下文能到 128 K。手机上都能装。
升级版叫 E4B。45 亿参数。6GB 内存。图片、音频都支持。上下文 128 K。日常用这个挺舒服。
然后有个 26B。总参数 252 亿,但推理时只激活 38 亿。4-bit 量化后 16-18GB 内存。上下文 256 K。性价比最高,没有之一。
最后是 31B。全部激活,307 亿参数。17-20GB 内存。上下文 256 K。数学能到 89%,写代码 80%。性能怪兽。
简单总结。4GB 跑 E2B,6GB 跑 E4B,18GB 跑 26B,20GB 以上跑 31B。
为啥现在能在笔记本跑
Google 改了架构。不是所有 token 都平等对待。有的快速处理,有的深度分析。这样小模型也能理解长文本,功耗还不会飙升。
E2B 能处理 12.8 万个词,31B 能到 25.6 万。相当于整本书都能一口气消化。
嵌入层也改了。不集中在一个地方,分散到每层。参数就少了,显存也跟着省。
多模态这块做得挺扎实。文字、图片、音频真的集成到一个模型里了。能识别表格、理解截图、转录语音、翻译音频。支持 140 多种语言。能调用外部工具,能开启思考模式,有系统提示。
Mac 用户怎么装
ollama.com 去下载安装。
或者命令行。
brew install --cask ollama-app
装完打开终端。
open -a Ollama
菜单栏出现个羊驼图标。等一会儿。
然后拉 26B 试试。
ollama run gemma4:26b
Ollama 自己下载模型。26B 有 18GB,要等一会儿。
下完就能聊天了。随便问啥都行。
想看模型跑得咋样。
ollama ps
能看到 CPU 和 GPU 的分配。Apple Silicon 的话大部分计算都跑 GPU。速度快一大截。
Windows 跟 Linux 用户看过来
Windows 的话,去 Ollama 官网下安装。
或者开 PowerShell。
irm https://ollama.com/install.ps1 | iex
装好开新 PowerShell 窗口。
ollama run gemma4:26b
有 NVIDIA 显卡会自动用。没有也能跑,就是慢。
Linux 就简单了。
curl -fsSL https://ollama.com/install.sh | sh
然后。
ollama run gemma4:26b
差不多。
Ollama 新版本加了个 NVFP4 格式。显卡省显存。精度基本不损。RTX 40 系以上会自动用。
如果你有 OpenClaw
已经装 OpenClaw 的话,啥都不用敲。
就跟 OpenClaw 说。装 Ollama,然后拉 Gemma 4。OpenClaw 会自己搞定。
装完可以让它测试一下。跟 Gemma 4 问个问题。如果能回答,就成了。
纯 CPU 跑 26B 会有点卡。可以让它换成 E4B。快多了。
或者更狠。把 OpenClaw 自己的模型后端改成本地 Gemma 4。API 指向 localhost:11434。从此再也不用云服务。
不过还是建议 31B 当主力。小模型留给手机。
Gemma 4 能干啥
推理模式。模型能在回答前想一想,分步骤思考。
长上下文。12.8 万到 25.6 万个词。整部书、整个代码库都能塞进去。
图片。识别物体、读 PDF、理解截图、识别手写、指认位置。各种尺寸的图都行。
视频。逐帧理解,能看视频讲啥。
音频。自动识别、翻译,支持多语言。
混用。一条提示里随意混文字、图片、音频。
函数调用。能集成外部工具。
写代码。生成、补完、改 bug。
140 多种语言。中文、英文、日文,都行。
性能怎样
Gemma 4 31B 的成绩。
数学推理:89.2%。
各类知识:85.2%。
写代码:80%。
视觉理解:76.9%。
跟 Claude、GPT-4 那个水平差不多。
常用命令
ollama list 看已下的模型
ollama ps 看正在跑的
ollama run gemma4:26b 开始聊
ollama stop gemma4:26b 停下来
ollama pull gemma4:26b 更新
ollama rm gemma4:26b 删掉
成本
安装、下载、运行,全不要钱。
没月费,没年费。
显卡分几年摊,电费忽略。
对比云 API。月费 4500 块,一年省 5 万多。
