Anthropic公式ガイドを読むと、AIエージェントの弱点は「モデル」より「構成」にあると分かる

X で、Anthropic 公式ガイドを見ながら「いま使っている AI エージェントとの差分を見た方がいいのでは」という趣旨の投稿を見かけました。これがかなり気になったので、Anthropic 公式の Subagents ガイドと tool use ガイドをあらためて読み直してみました。

https://twitter.com/i/status/2031013430971465847

気になったのは、いま手元で動かしている AI エージェントの運用と比べたときに、何が足りなくて、どこを直すと良さそうかという点です。

読んでみると、焦点は意外なくらい地味でした。もっと賢いモデルを入れろとか、もっと派手な自動化をしろという話ではない。中心にあるのは、役割をどう分けるか、どの道具をどこまで使わせるか、確認工程をどう入れるかといった構成の話です。

いまの自分の運用は、かなり強い 1 体のエージェントに仕事をまとめて任せる寄りです。実際、このブログ運用でも CLAUDE.md に禁止事項や記事ルールはあるものの、調査、差分整理、執筆、確認が明確に分かれているわけではありません。ツール制限も、「この役割にはここまで」という切り方にはなっていません。

一方で Anthropic のガイドは、かなり逆です。Subagents では、専門化したサブエージェントを分け、それぞれに description、tools、disallowedTools、permissionMode、skills を持たせる前提になっています。つまり「同じ頭脳を何にでも使う」のではなく、「誰に何をさせるか」を先に設計しろ、という思想です。

どこがズレていたのか

この差分を自分の運用に引き直すと、足りなかったのは主に3つでした。

調査役、実装役、確認役のような役割分割
役割ごとの道具の絞り込み
記事化や実装反映の前に差分を明示する工程

今回みたいな記事は、普段なら「ソースを読んで、そのまま文章にする」流れで進みがちです。でも本当に必要だったのは、その前に「いまの自分の運用と何が違うか」を一度切り分けて整理することでした。まず一次ソースを読む。次に差分を箇条書きにする。最後に、その差分がなぜ効くのかを書く。最初の草稿がズレたのは、この差分整理の工程が弱かったからです。

Anthropic のガイドを読んだあとに見返すと、いままでの自分の運用は「ルールはあるが、構成は弱い」という状態でした。禁止事項や公開ルールはある。でも、調査と執筆と確認が頭の中で一気に処理されるので、論点がずれたまま文章化される余地がある。今回まさにそこを踏みました。

Anthropic のガイドで特に強い部分

特に How to implement tool use は、ツール対応モデルに何をさせられるかを並べる紹介文ではなく、ツール呼び出しをどう実装するかのガイドになっています。ツールの説明を書き、必要に応じて並列実行を制御し、エラー処理や確認ループをちゃんと設計する。要するに、モデルの賢さより前に、呼び出し方そのものを整えろということです。

ここはかなり実務的で、単なる思想の話ではありません。いつ委譲するかを description に書く、何を触れて何を触れないかを tools と disallowedTools で切る、並列実行を許すか止めるかを決める。全部が「ちゃんとした運用に落とすための話」になっています。

この観点で見ると、自分の今の運用で Anthropic に比較的近かったのは、安全側のルールだけでした。禁止デプロイ、未来日付の回避、参考ソースの明示、X はリンクで残すといった制約はすでにあります。ただし、それは「事故防止のルール」であって、「役割ごとの構成」にはまだなっていませんでした。

差分をどう組み込んだか

なので今回は、ローカルの運用ルールにも差分を反映しました。テック記事やニュース記事では、調査、差分整理、執筆、確認の4段階で進めること、必要なら調査役・実装役・確認役に分けて考えること、X はきっかけに使っても根拠は一次ソースで裏取りすることを CLAUDE.md に追記しています。小さい修正ですが、Anthropic のガイドが言っている方向にはかなり近づきます。

言い換えると、今回の変更は「AIエージェントを新しく作り直した」というより、「運用の流れに差分整理という工程を足し、役割分割を前提に考えるようにした」というものです。派手ではないですが、こういう修正の方がたぶん効きます。

結局のところ、Anthropic のガイドでいちばん刺さったのは、「AIエージェントは何ができるか」より「どう分けて、何を持たせて、どう確認するか」の方が重要だという点です。自分の運用との差分を見に行くと、モデル性能の話より、構成の甘さの方がずっと見えやすい。今回の気づきはそこでした。