Gemma 4 本地跑,token 成本直接清零

0 / 10

Google 前两天开源了 Gemma 4。

这事挺重要。没有调用费,没有额度限制。装在你自己电脑上就能用。

Gemma 4 用 Apache 2.0 开源。想改就改,想卖就卖,没人管。

你的电脑能跑吗?

Gemma 4 有四个规格。

最小的叫 E2B。23 亿参数。只要 4GB 内存。能看图片,能听音频。上下文能到 128 K。手机上都能装。

升级版叫 E4B。45 亿参数。6GB 内存。图片、音频都支持。上下文 128 K。日常用这个挺舒服。

然后有个 26B。总参数 252 亿,但推理时只激活 38 亿。4-bit 量化后 16-18GB 内存。上下文 256 K。性价比最高,没有之一。

最后是 31B。全部激活,307 亿参数。17-20GB 内存。上下文 256 K。数学能到 89%,写代码 80%。性能怪兽。

简单总结。4GB 跑 E2B,6GB 跑 E4B,18GB 跑 26B,20GB 以上跑 31B。

为啥现在能在笔记本跑

Google 改了架构。不是所有 token 都平等对待。有的快速处理,有的深度分析。这样小模型也能理解长文本,功耗还不会飙升。

E2B 能处理 12.8 万个词,31B 能到 25.6 万。相当于整本书都能一口气消化。

嵌入层也改了。不集中在一个地方,分散到每层。参数就少了,显存也跟着省。

多模态这块做得挺扎实。文字、图片、音频真的集成到一个模型里了。能识别表格、理解截图、转录语音、翻译音频。支持 140 多种语言。能调用外部工具,能开启思考模式,有系统提示。

Mac 用户怎么装

ollama.com 去下载安装。

或者命令行。

brew install --cask ollama-app

装完打开终端。

open -a Ollama

菜单栏出现个羊驼图标。等一会儿。

然后拉 26B 试试。

ollama run gemma4:26b

Ollama 自己下载模型。26B 有 18GB,要等一会儿。

下完就能聊天了。随便问啥都行。

想看模型跑得咋样。

ollama ps

能看到 CPU 和 GPU 的分配。Apple Silicon 的话大部分计算都跑 GPU。速度快一大截。

Windows 跟 Linux 用户看过来

Windows 的话,去 Ollama 官网下安装。

或者开 PowerShell。

irm https://ollama.com/install.ps1 | iex

装好开新 PowerShell 窗口。

ollama run gemma4:26b

有 NVIDIA 显卡会自动用。没有也能跑,就是慢。

Linux 就简单了。

curl -fsSL https://ollama.com/install.sh | sh

然后。

ollama run gemma4:26b

差不多。

Ollama 新版本加了个 NVFP4 格式。显卡省显存。精度基本不损。RTX 40 系以上会自动用。

如果你有 OpenClaw

已经装 OpenClaw 的话,啥都不用敲。

就跟 OpenClaw 说。装 Ollama,然后拉 Gemma 4。OpenClaw 会自己搞定。

装完可以让它测试一下。跟 Gemma 4 问个问题。如果能回答,就成了。

纯 CPU 跑 26B 会有点卡。可以让它换成 E4B。快多了。

或者更狠。把 OpenClaw 自己的模型后端改成本地 Gemma 4。API 指向 localhost:11434。从此再也不用云服务。

不过还是建议 31B 当主力。小模型留给手机。

Gemma 4 能干啥

推理模式。模型能在回答前想一想,分步骤思考。

长上下文。12.8 万到 25.6 万个词。整部书、整个代码库都能塞进去。

图片。识别物体、读 PDF、理解截图、识别手写、指认位置。各种尺寸的图都行。

视频。逐帧理解,能看视频讲啥。

音频。自动识别、翻译,支持多语言。

混用。一条提示里随意混文字、图片、音频。

函数调用。能集成外部工具。

写代码。生成、补完、改 bug。

140 多种语言。中文、英文、日文,都行。

性能怎样

Gemma 4 31B 的成绩。

数学推理:89.2%。
各类知识:85.2%。
写代码:80%。
视觉理解:76.9%。

跟 Claude、GPT-4 那个水平差不多。

常用命令

ollama list 看已下的模型
ollama ps 看正在跑的
ollama run gemma4:26b 开始聊
ollama stop gemma4:26b 停下来
ollama pull gemma4:26b 更新
ollama rm gemma4:26b 删掉

成本

安装、下载、运行,全不要钱。

没月费,没年费。

显卡分几年摊,电费忽略。

对比云 API。月费 4500 块,一年省 5 万多。

阅读全文