ヘタなデータで教えたロボットが、開発者を負かした ─ LATENT テニスロボットの話

ロボットにスポーツを教えるとき、普通は「プロの完璧な動作データ」が必要だと思われている。清華大学らの研究チームが3月13日にarXivで公開した論文 LATENT は、その前提をひっくり返した。

アマチュア5人が3畳ほどの狭い部屋で5時間動いたデータだけを使って、二足歩行ロボットにテニスを習得させた。そのロボットは最終的に筆頭著者の Zhikai Zhang 氏本人に打ち勝った。

「ヘタなデータでいい」という逆転の発想

通常、スポーツロボットの研究はプロのモーションキャプチャデータを大量に使う。ところがテニスの場合、問題がある。フルマッチを収録するには18m×36mのコートが必要で、手首の複雑なスイング動作はモーキャプで正確に取りにくい。さらに「どのタイミングでどこに打つか」という判断は、体の動きデータに含まれない。

LATENT が使ったのは、フォアハンド・バックハンド・サイドステップなど「基本動作の断片」だけ。5時間分、5人分、場所は3m×5mの狭い部屋。研究チームはこれを「不完全なデータ」と正直に呼んでいる。

足りない部分は学習で補う、という設計だ。

4段階で組み立てる

技術的には4つのステップを踏む。

まずロボットに断片動作を模倣させる事前学習をする。このとき、あえて手首の制御を省いてランダムな外乱を加える。「きれいに動かす」のではなく「乱されても崩れない」体幹を先に作る。

次に断片データをつなぎ合わせて「連続した動き」に変換する。ここで人間らしい動作範囲から大きく外れた探索を遮断する仕組み（Latent Action Barrier）が入る。強化学習は放っておくと高スコアを取るためにロボットにしかできない奇妙な動きを見つけてしまうので、それを人間らしい動きの範囲内に制限する。

残りの2段階でシミュレーター上での打ち返し訓練と、実機への転移を行う。シミュレーターではボールの反発係数や摩擦をランダムに変えて、実機でのずれを事前に経験させる。

数字で見る

論文内の実機テストでのフォアハンド成功率は90.90%、バックハンドは77.78%。先行手法 PULSE と比較した場合、シミュレーション上ではフォアハンドで96.52% 対 71.85%、返球距離の誤差は1.32m 対 3.01m。

使用ロボットは Unitree G1（身長127cm、重量35kg）。対人ラリーで複数球の継続返球に成功している。

フットワークの動き。ボールの軌道に合わせてサイドステップやクロスオーバーを組み合わせる。

懐疑的な視点もある

Hacker News では「対戦相手がロボットに合わせてゆっくり打っているのでは」という指摘が出た。また、ボールの位置を高精度で検出するために外部のモーションキャプチャカメラを使っており、オンボードカメラだけでは現状この精度は出せない。実験室の単一タスクと実用の差は依然として大きい。

研究チーム自身は論文でこれらを制限事項として明記している。

スポーツ全般への汎化

研究チームは「この手法はサッカー、バドミントン、その他のスポーツにも使える」と書いている。完璧なモーションデータが取りにくい競技なら何でも対象になりうる、という主張だ。

ヒューマノイドロボットが実用スポーツパートナーになる日はまだ遠いが、「データが不完全でも動作の本質だけを抽出して強化学習で補う」というアプローチは、スポーツ以外にも応用できる。製造業の組み立て、リハビリ支援、介護補助など、「人間の不完全な動作から学ばせたい」場面は山ほどある。

論文著者の所属先のひとつ Galbot（Galaxy General Robotics）は、この論文公開の2週間前に約2,500億円の資金調達を完了したばかりだ。CATLが投資家に名を連ねる。