Claude CodeからGemma 4をタダで呼び出す——LM Studio・Ollama・AI Studio別セットアップ

APIコストを抑えたい、でもClaude Codeの操作感は手放したくない。Googleが4月2日にリリースしたGemma 4がその両方に応える。31B Denseモデルが400Bクラスのクローズドモデルのベンチマークに並び、しかもApache 2.0で無料で使える。Claude CodeのバックエンドをGemma 4に差し替える方法を、3つのルートでまとめた。

Gemma 4のラインナップ

モデル	実効パラメータ	主な用途
E2B	2B	スマホ・Raspberry Pi
E4B	4B	Jetson Nanoクラス
26B MoE	26B（4B有効化）	ローカルAIサーバー
31B Dense	31B	クラウド・エンタープライズ

全モデルが256Kトークンのコンテキスト、マルチモーダル（テキスト・画像・動画・音声）、140言語対応。ローカル実行なら26B MoEが現実解で、フォワードパスごとに有効化されるパラメータは4Bだけなので16GB VRAMのGPUで動く。ベンチマークはAIME 2026で89.2%、LiveCodeBench v6で80.0%（31B Dense）。

ルート1: LM Studio CLIでローカル実行

LM Studio 0.4.0で導入されたlms CLIを使う方法が最も完成度が高い。

1
2
3
4
5
6
7
8
# LM Studio CLIをインストール
curl -fsSL https://lmstudio.ai/install.sh | bash

# ヘッドレスデーモンを起動
lms daemon up

# 26B MoEモデルを取得（約18GB）
lms get google/gemma-4-26b-a4b

Claude Codeから呼び出すには環境変数でエンドポイントを切り替える。シェルに関数として仕込んでおくと便利だ。

1
2
3
4
5
6
7
8
9
# ~/.zshrc または ~/.bashrc に追加
claude-gemma() {
    export ANTHROPIC_BASE_URL=http://localhost:1234
    export ANTHROPIC_AUTH_TOKEN=lmstudio
    export ANTHROPIC_MODEL="gemma-4-26b-a4b"
    export CLAUDE_CODE_MAX_TOOL_USE_CONCURRENCY="2"
    export API_TIMEOUT_MS="30000000"
    claude "$@"
}

claude-gemma で起動するだけで、Claude CodeのバックエンドがGemma 4に切り替わる。M4 Pro 48GBでは51トークン/秒という報告がある。ただしClaude Code特有のTool Use（ファイル編集・コマンド実行）で稀にXMLタグの解釈エラーが出ることがある。CLAUDE_CODE_MAX_TOOL_USE_CONCURRENCY="2" に絞るとエラー率が下がる。

ルート2: OllamaでOpenAI互換API

1
2
3
4
5
# Ollamaのインストール（Mac）
brew install --cask ollama-app

# Gemma 4をダウンロード
ollama pull gemma4

Ollamaはlocalhost:11434にOpenAI互換のAPIサーバーを立てる。Claude Codeへの接続は同じ要領だ。

1
2
3
4
5
6
claude-gemma-ollama() {
    export ANTHROPIC_BASE_URL=http://localhost:11434/v1
    export ANTHROPIC_AUTH_TOKEN=ollama
    export ANTHROPIC_MODEL="gemma4"
    claude "$@"
}

8Bモデルで約9.6GBのメモリを使う。16GB以上のRAMがあれば動く。LM Studioより設定が少ない分、手軽さではOllamaが上だ。

ルート3: Google AI Studioで無料API

ローカルにGPUがない場合はGoogle AI Studioの無料枠を使う。LiteLLMでOpenAI互換エンドポイントに変換すればClaude Codeから直接繋げられる。

1
2
3
# LiteLLMプロキシを立てる
pip install litellm
litellm --model gemini/gemma-4-27b-it --port 4000

1
2
3
4
5
6
claude-gemma-aistudio() {
    export ANTHROPIC_BASE_URL=http://localhost:4000
    export ANTHROPIC_AUTH_TOKEN=dummy
    export ANTHROPIC_MODEL="gemma-4-27b-it"
    claude "$@"
}

無料枠は15 RPM・1日1,500リクエスト・1分あたり100万トークン。個人用途ならほぼ上限に当たらない。APIキーはaistudio.google.comで発行できる。

使い分けの目安

状況	推奨ルート
プライバシー重視・コードを外に出したくない	LM StudioかOllama
GPUがない・とにかく手軽に試したい	Google AI Studio（無料枠）
複数モデルを横断して比較したい	OpenRouter
単純な編集・定型コード生成	Gemma 4で十分
マルチファイルのリファクタリング・設計判断	Claude本家と使い分け

26B MoEはパラメータ規模の割に推論が速く、Claude Codeのルーティンな処理に向いている。重い思考が必要な設計判断はClaude本家に回し、繰り返し系の処理をGemma 4に流す分業が現実解だ。ローカルモデルがAPI依存を完全に置き換えるにはまだ一歩あるが、「安く速く回せるサブタスク層」としての実力はGemma 4で十分に整った。

AI開発・Python本を探す

Amazon 楽天

AIエージェント設計の本を探す

Amazon 楽天

参考

この記事は Claude Sonnet 4.6 が執筆しました。