Featured image of post Claude CodeからGemma 4をタダで呼び出す——LM Studio・Ollama・AI Studio別セットアップ

Claude CodeからGemma 4をタダで呼び出す——LM Studio・Ollama・AI Studio別セットアップ

APIコストを抑えたい、でもClaude Codeの操作感は手放したくない。Googleが4月2日にリリースしたGemma 4がその両方に応える。31B Denseモデルが400Bクラスのクローズドモデルのベンチマークに並び、しかもApache 2.0で無料で使える。Claude CodeのバックエンドをGemma 4に差し替える方法を、3つのルートでまとめた。

Gemma 4のラインナップ

モデル実効パラメータ主な用途
E2B2Bスマホ・Raspberry Pi
E4B4BJetson Nanoクラス
26B MoE26B(4B有効化)ローカルAIサーバー
31B Dense31Bクラウド・エンタープライズ

全モデルが256Kトークンのコンテキスト、マルチモーダル(テキスト・画像・動画・音声)、140言語対応。ローカル実行なら26B MoEが現実解で、フォワードパスごとに有効化されるパラメータは4Bだけなので16GB VRAMのGPUで動く。ベンチマークはAIME 2026で89.2%、LiveCodeBench v6で80.0%(31B Dense)。

ルート1: LM Studio CLIでローカル実行

LM Studio 0.4.0で導入されたlms CLIを使う方法が最も完成度が高い。

1
2
3
4
5
6
7
8
# LM Studio CLIをインストール
curl -fsSL https://lmstudio.ai/install.sh | bash

# ヘッドレスデーモンを起動
lms daemon up

# 26B MoEモデルを取得(約18GB)
lms get google/gemma-4-26b-a4b

Claude Codeから呼び出すには環境変数でエンドポイントを切り替える。シェルに関数として仕込んでおくと便利だ。

1
2
3
4
5
6
7
8
9
# ~/.zshrc または ~/.bashrc に追加
claude-gemma() {
    export ANTHROPIC_BASE_URL=http://localhost:1234
    export ANTHROPIC_AUTH_TOKEN=lmstudio
    export ANTHROPIC_MODEL="gemma-4-26b-a4b"
    export CLAUDE_CODE_MAX_TOOL_USE_CONCURRENCY="2"
    export API_TIMEOUT_MS="30000000"
    claude "$@"
}

claude-gemma で起動するだけで、Claude CodeのバックエンドがGemma 4に切り替わる。M4 Pro 48GBでは51トークン/秒という報告がある。ただしClaude Code特有のTool Use(ファイル編集・コマンド実行)で稀にXMLタグの解釈エラーが出ることがある。CLAUDE_CODE_MAX_TOOL_USE_CONCURRENCY="2" に絞るとエラー率が下がる。

ルート2: OllamaでOpenAI互換API

1
2
3
4
5
# Ollamaのインストール(Mac)
brew install --cask ollama-app

# Gemma 4をダウンロード
ollama pull gemma4

Ollamaはlocalhost:11434にOpenAI互換のAPIサーバーを立てる。Claude Codeへの接続は同じ要領だ。

1
2
3
4
5
6
claude-gemma-ollama() {
    export ANTHROPIC_BASE_URL=http://localhost:11434/v1
    export ANTHROPIC_AUTH_TOKEN=ollama
    export ANTHROPIC_MODEL="gemma4"
    claude "$@"
}

8Bモデルで約9.6GBのメモリを使う。16GB以上のRAMがあれば動く。LM Studioより設定が少ない分、手軽さではOllamaが上だ。

ルート3: Google AI Studioで無料API

ローカルにGPUがない場合はGoogle AI Studioの無料枠を使う。LiteLLMでOpenAI互換エンドポイントに変換すればClaude Codeから直接繋げられる。

1
2
3
# LiteLLMプロキシを立てる
pip install litellm
litellm --model gemini/gemma-4-27b-it --port 4000
1
2
3
4
5
6
claude-gemma-aistudio() {
    export ANTHROPIC_BASE_URL=http://localhost:4000
    export ANTHROPIC_AUTH_TOKEN=dummy
    export ANTHROPIC_MODEL="gemma-4-27b-it"
    claude "$@"
}

無料枠は15 RPM・1日1,500リクエスト・1分あたり100万トークン。個人用途ならほぼ上限に当たらない。APIキーはaistudio.google.comで発行できる。

使い分けの目安

状況推奨ルート
プライバシー重視・コードを外に出したくないLM StudioかOllama
GPUがない・とにかく手軽に試したいGoogle AI Studio(無料枠)
複数モデルを横断して比較したいOpenRouter
単純な編集・定型コード生成Gemma 4で十分
マルチファイルのリファクタリング・設計判断Claude本家と使い分け

26B MoEはパラメータ規模の割に推論が速く、Claude Codeのルーティンな処理に向いている。重い思考が必要な設計判断はClaude本家に回し、繰り返し系の処理をGemma 4に流す分業が現実解だ。ローカルモデルがAPI依存を完全に置き換えるにはまだ一歩あるが、「安く速く回せるサブタスク層」としての実力はGemma 4で十分に整った。

AI開発・Python本を探す
AIエージェント設計の本を探す

参考

この記事は Claude Sonnet 4.6 が執筆しました。

Next Action

おすすめリンク

この記事に合わせて、関連アイテムを探しやすいリンクをまとめています。

Affiliate Links

AIエージェント設計を深掘りする

AIエージェントや開発まわりを、もう少し詳しく学びたい人向けです。

AIエージェント設計の本を探す Claude、LLM、エージェント設計を深掘りしたい時向け
AI開発・Python本を探す API連携や実装まで踏み込みたい時向け
生成AIの本を探す 入門書、活用本、プロンプト本向け

外部ストアへのアフィリエイトリンクです。気になるものだけ開けば十分です。

B!