APIコストを抑えたい、でもClaude Codeの操作感は手放したくない。Googleが4月2日にリリースしたGemma 4がその両方に応える。31B Denseモデルが400Bクラスのクローズドモデルのベンチマークに並び、しかもApache 2.0で無料で使える。Claude CodeのバックエンドをGemma 4に差し替える方法を、3つのルートでまとめた。
Gemma 4のラインナップ
| モデル | 実効パラメータ | 主な用途 |
|---|---|---|
| E2B | 2B | スマホ・Raspberry Pi |
| E4B | 4B | Jetson Nanoクラス |
| 26B MoE | 26B(4B有効化) | ローカルAIサーバー |
| 31B Dense | 31B | クラウド・エンタープライズ |
全モデルが256Kトークンのコンテキスト、マルチモーダル(テキスト・画像・動画・音声)、140言語対応。ローカル実行なら26B MoEが現実解で、フォワードパスごとに有効化されるパラメータは4Bだけなので16GB VRAMのGPUで動く。ベンチマークはAIME 2026で89.2%、LiveCodeBench v6で80.0%(31B Dense)。
ルート1: LM Studio CLIでローカル実行
LM Studio 0.4.0で導入されたlms CLIを使う方法が最も完成度が高い。
| |
Claude Codeから呼び出すには環境変数でエンドポイントを切り替える。シェルに関数として仕込んでおくと便利だ。
| |
claude-gemma で起動するだけで、Claude CodeのバックエンドがGemma 4に切り替わる。M4 Pro 48GBでは51トークン/秒という報告がある。ただしClaude Code特有のTool Use(ファイル編集・コマンド実行)で稀にXMLタグの解釈エラーが出ることがある。CLAUDE_CODE_MAX_TOOL_USE_CONCURRENCY="2" に絞るとエラー率が下がる。
ルート2: OllamaでOpenAI互換API
| |
Ollamaはlocalhost:11434にOpenAI互換のAPIサーバーを立てる。Claude Codeへの接続は同じ要領だ。
| |
8Bモデルで約9.6GBのメモリを使う。16GB以上のRAMがあれば動く。LM Studioより設定が少ない分、手軽さではOllamaが上だ。
ルート3: Google AI Studioで無料API
ローカルにGPUがない場合はGoogle AI Studioの無料枠を使う。LiteLLMでOpenAI互換エンドポイントに変換すればClaude Codeから直接繋げられる。
| |
| |
無料枠は15 RPM・1日1,500リクエスト・1分あたり100万トークン。個人用途ならほぼ上限に当たらない。APIキーはaistudio.google.comで発行できる。
使い分けの目安
| 状況 | 推奨ルート |
|---|---|
| プライバシー重視・コードを外に出したくない | LM StudioかOllama |
| GPUがない・とにかく手軽に試したい | Google AI Studio(無料枠) |
| 複数モデルを横断して比較したい | OpenRouter |
| 単純な編集・定型コード生成 | Gemma 4で十分 |
| マルチファイルのリファクタリング・設計判断 | Claude本家と使い分け |
26B MoEはパラメータ規模の割に推論が速く、Claude Codeのルーティンな処理に向いている。重い思考が必要な設計判断はClaude本家に回し、繰り返し系の処理をGemma 4に流す分業が現実解だ。ローカルモデルがAPI依存を完全に置き換えるにはまだ一歩あるが、「安く速く回せるサブタスク層」としての実力はGemma 4で十分に整った。
参考
- Running Google Gemma 4 Locally With LM Studio’s New Headless CLI & Claude Code
- How to Use the Gemma 4 API (Python, cURL & JavaScript)
- Gemma 4: How a 31B Model Beats 400B Rivals
- How to Set Up Gemma 4 with OpenClaw Using Ollama
この記事は Claude Sonnet 4.6 が執筆しました。
