テスラ「オプティマス」驚異の学習法:AIが「夢の中」でロボットを進化させる理由

TESLA News
Screenshot
スポンサーリンク

真のヒト型ロボットを作る上で最大の課題のひとつは、データです。ロボットは、人間が一つひとつ実際に示さなくても、何千もの多様で複雑な人間の作業をどのようにして学ぶことができるのでしょうか?

最近のXでのやり取りの中で、イーロンはテスラの解決策を明らかにしました。それは、物理的なトレーニングをはるかに超えた、デジタルドリームの領域にまで達する革新的なアプローチです。

テスラもオプティマスに対してこれ(夢の中での学習)を持っています。あなたが言うように、これは人型ロボットのトレーニングに不可欠です。

物理的なトレーニングは行き詰まり

この画期的な進歩を理解するには、まずそのボトルネックがどこにあるかを正確に理解する必要があります。従来、ロボットのトレーニングの主な方法は、人間による遠隔操作でした。トレーナーは、ロボットに何をするか、どのように動くかを教えるセンサー付きの特別な装置を着用します。この作業は、トレーニングデータとして記録されます。

Nvidiaのロボット部門ディレクター、ジム・ファン氏は、この方法をロボット工学の「化石燃料」と表現しています。この方法は効果的ですが、非常に時間がかかり、コストも高く、規模拡大も困難です。人間が、考えられるあらゆるタスクを、考えられるあらゆるオブジェクトを使って、考えられるあらゆる環境で実演することは、現実的には不可能です。このデータの問題が、汎用ロボットがサイエンスフィクションの領域にとどまっている大きな理由です。

デジタルドリームと合成データ

テスラとNvidiaがそれぞれ独自に追求している解決策は、ファン氏が「ロボット工学のクリーンエネルギー」と呼ぶもの、つまり大規模な合成データ生成への移行です。その中核となるコンセプトは、OpenAIのSoraやグーグルのVeoなどの強力な動画生成AIモデルを「ニューラルフィジックスエンジン」として活用することです。これらのモデルは、ロボットが学習や練習を行うためのシミュレーション世界、つまり「デジタルドリーム」を作成し、物理的なサーボを一切動かすことなく、膨大な量のトレーニングデータを生成することができます。

イーロンは、テスラがオプティマスにこの同じアプローチをすでに実装していることを認め、これはヒト型ロボットのトレーニングに不可欠であると述べています。テスラは、オプティマスとFSDの両方でこのアプローチを採用しています。テスラが特許で「合成トレーニングデータ」または「シミュレーションコンテンツ」と呼んでいるものを生成することで、実際の状況を再現することなく、エッジケースや特定のタスクのトレーニングを行うことができます。

これは、本質的には、実際のタスクに基づいて合成トレーニングデータ(例えば、シャツを畳む様子を撮影した何千本ものビデオ)を生成することで、現実世界のトレーニングを補完するものです。オプティマスのFSDは、この1つのタスクについて、実際にシャツを折りたたむ必要なく、トレーニングシステム上で何百、何千回も繰り返し実行され、シャツの折り方を学習します。

デジタル夢のレシピ

テスラの正確な方法は企業秘密ですが、NvidiaのAIラボがDreamGenというプロジェクトについて行った最近の調査により、この強力な合成データを作成するためのレシピについて、これまでにない洞察を得ることができました。生成型ビデオモデルを多用途のロボットシミュレータに変換するこのプロセスは、4つの重要なステップに分けることができます。

まず、物理エンジンを微調整します。このプロセスは、最先端のビデオ生成モデルを実装し、対象ロボットの既存のビデオで微調整することから始まります。この重要なステップでは、AIモデルにロボットの具体的な物理的特性(手足の動き、手の握り方、世界との相互作用の方法など)を教えます。

次に、言語を使用して現実世界をシミュレーションします。AIがロボットを理解すると、開発者は、物理的なトレーニングを受けたことのない新しいタスクを実行するロボットのビデオを、平易な言語の指示で生成することができます。たとえば、「ピックアンドプレース」の実世界データセットのみを持つロボットに、注ぐ、折る、すくう、さらにはアイロンをかけるという夢を見させることもできます。その後、システムとエンジニアは、ロボットが指示を正しく実行できない「悪い夢」をフィルタリングすることができます。

その結果、写真のようにリアルなビデオの膨大なライブラリが作成されます。次のステップは、他のモデルを使用してこれらのビデオを分析し、「擬似行動」、つまり夢の中の動きに対応する特定の運動やコントロールコマンドを復元することです。

最終的に、このプロセスによって、Nvidiaが「ニューラル軌道」と呼ぶものが得られます。夢のビデオは、対応するアクションラベルとペアになり、ロボットのAIは、スタンダードな監修型学習を実装して、この膨大な人工的に生成されたデータセットで学習されます。

真の一般化を実現

このデジタルドリームトレーニングの成果は、ロボットがこれまで見たことのないタスクや環境にもそのスキルを一般化できる、驚くべき能力です。Nvidiaの研究では、現実世界の1つのタスクから始めて、ヒト型ロボットは1回も実演を見ることなく22の新しい行動を学習できることが明らかになりました。

事実上、ロボットは、これまで見たことのない環境での新しいタスクの成功率が0%から40%以上にまで向上しました。これは、事実上、能力の飛躍的な向上と言えます。

このアプローチは、従来の手作業でコーディングされたグラフィックエンジンに比べて大きな利点があります。生成モデルは、変形する物体、流体、複雑な照明などの複雑な物理現象を処理するために、特別に指定する必要はありません。AIにとって、どんなに複雑な世界も、ニューラルネットワークによるシミュレーションにすぎません。

この驚異的なスケーラビリティのパワーこそが、自動車用FSDとオプティマス用FSDの両方で、テスラのAI研究を推進している要因です。この方法は不可欠であり、ロボットが現実の世界を学習するための唯一の手段です。オプティマスに必要な広範で一般的な知能を実現するため、テスラは、物理的な現実では不可能な、大規模な学習を可能にする巨大な合成データエンジンの構築に注力しています。

この記事はこのサイトを引用・翻訳・編集して作成しています。

テスラ関連の最新記事を毎日随時アップしていますので、過去のニュースはこちらを参照ください。

※免責事項:この記事は主にテクノロジーの動向を紹介するものであり、投資勧誘や法律の助言などではありません。また、記事の正確性を保証するものでもありません。加えて、記事内のリンクにはアフィリエイトリンクが含まれていることがあります。また、掲載情報によって起きたいかなる直接的及び間接的損害に対しても、筆者・編集者・運営者は一切責任を負いません。更に、運営者はテスラ株式のホルダーです。

コメント

タイトルとURLをコピーしました