昨年公開されたテスラの特許のおかげで、FSD(Full Self-Driving:完全自動運転)の動作と使用されるさまざまなシステムについて詳しく知ることができます。この特許は、テスラのFSDで以前は使用されていたコア技術を分析し、FSDがデータを処理・分析する方法について、非常に理解しやすい内容となっています。
これをわかりやすく説明するために、いくつかのセクションに分けて、それぞれのセクションがFSDにどのような影響を与えるかを説明してみます。
ビジョンベース
まず、この特許は、テスラの目標と同じく、車両が周囲の状況を視認、理解、対処できるようにするビジョンオンリーシステムについて説明しています。このシステムでは、車両の周囲360度の視界を捉える複数のカメラが説明されており、その一部は重複した範囲をカバーしています。これは人間が目で見る能力を模倣したものですが、実際にはその能力を上回るものです。
最も興味深いのは、このシステムが車両周辺のさまざまなカメラの焦点距離や視点に素早く適応することです。そして、それらすべてを組み合わせて、まとまりのある画像を構築します。この部分については、後ほど詳しく説明します。
ブランチ
このシステムは2つの部分に分かれています。1つは交通弱者(VRU)用、もう1つはそれ以外のすべてのモノです。これは相当単純な分け方で、VRUとは歩行者、自転車、ベビーカー、スケートボーダー、動物など、基本的に傷つく可能性のあるものを指します。VRU以外の部分では、車、緊急車両、コーン、ゴミなど、その他のすべてに焦点を当てます。
これら2つのブランチに分割することで、FSDは特定のものを検索、分析し、優先順位を付けることができます。基本的に、仮想カメラシステム全体を通して、VRUは他のオブジェクトよりも優先されます。
仮想カメラ
テスラは、これらの未加工の画像をすべて処理し、VRUと非VRUのブランチに供給し、重要な情報のみを抽出し、以前は物体の検出と分類に使用されていました。
次に、システムはこれらのオブジェクトを3D空間に描画し、さまざまな高さの「仮想カメラ」を作成します。仮想カメラを、映画撮影に使用されていた実際のカメラだと考えてみてください。これにより、特定の視点からシーンを見ることができます。
VRU ブランチでは、人間の身長に合わせた仮想カメラを使用することで、VRU の行動をよりよく理解できるようになります。これは、人間の身長の高さからのデータが、上空やその他の角度からのデータよりもはるかに多いという事実によるものと思われます。一方、VRU 以外のブランチでは、仮想カメラを人間の身長よりも高い位置に配置することで、障害物の向こう側や周囲も見渡せるようになり、交通状況をより広く見渡せるようになります。
これにより、FSDが分析する歩行者レベルと周囲の道路の広域ビューという2つの形式の入力が効果的に提供されることになります。
3Dマッピング
次に、これらのデータをすべて組み合わせる必要があります。2つの仮想カメラは同期され、車両の周囲で何が起こっているかを正確に把握するための3Dマップを維持するために、そのすべての情報と解釈がシステムにフィードバックされます。
また、カメラだけではありません。バーチャル・カメラ・システムと3Dマッピングは、車の他のセンサーと連携して、速度や加速度などの移動データを3Dマップの分析と作成に取り込みます。
このシステムは、スクリーンに表示されるFSDビジュアライゼーションで最もよく理解できます。このシステムは、多数の走行中の車や歩行者を同時に検知し追跡しますが、私たちが目にするのは、追跡している情報のほんの一部です。各オブジェクトには、画面には表示されないプロパティのリストがあると考えてください。例えば、歩行者の場合、システムがアクセスできるプロパティには、歩行者までの距離、移動方向、移動速度などがあります。
車両などの他の移動物体には、幅、高さ、速度、方向、計画経路など、さらに追加のプロパティがあるかもしれません。VRU以外の物体であっても、道路のようにプロパティが含まれます。道路の幅や速度制限などは、AIや地図データに基づいて決定されます。
車両自体にも、速度、幅、長さ、走行経路などの独自のプロパティがあります。これらすべてを組み合わせると、周囲の環境と、その環境を最も効率的にナビゲートする方法について、非常に深い理解が得られます。
時間的インデックス
テスラは、この機能を「時間的インデックス」と呼んでいます。平たく言えば、ビジョンシステムが時間をかけて画像を分析し、追跡する方法です。つまり、物事は単一の時間的スナップショットではなく、一連のスナップショットであり、FSDはそれによって物体の動きを理解します。これにより、物体の経路予測が可能になり、FSDは車両や物体を直接視認できなくても、それらがどこにあるかを把握できます。
この時間的インデックスは、「ビデオモジュール」によって行われます。ビデオモジュールは、一連の画像を分析し、時間を追って追跡し、速度と将来の経路を推定する実際の「頭脳」です。
繰り返しになりますが、交通量の多い道路とFSDのビジュアライゼーションは、視界に入らない車線上の多くの車両を追跡する優れた例となっています。
エンドツーエンド
最後に、特許には、システム全体(前部から後部まで)を同時にトレーニングできる、という記述もあります。このトレーニング手法は、現在ではエンドツーエンドAIも含まれており、システム内の各コンポーネントが他のコンポーネントとどのように相互作用するかを学習させることで、システム全体のパフォーマンスを最適化します。
まとめ
基本的に、テスラではFSDを人間の「脳」、カメラを人間の「目」と見なしています。また、記憶機能を備えており、その記憶機能によって、目にしたものを分類し、分析することができます。 さまざまな物体や特性を追跡し、それらの動きを予測して、その周囲の経路を決定することができます。 これは、人間が運転するのとよく似ていますが、FSDは無限の物体を追跡でき、速度や大きさなどの特性をより正確に判断できるという点が異なります。 さらに、人間よりも高速で、あらゆる方向を同時に処理することができます。
FSDとビジョンベースのカメラシステムは、本質的には道路の3Dライブマップを作成し、常に更新され、以前は人間が行っていた意思決定に使用されるということです。
この記事はこのサイトを引用・翻訳・編集して作成しています。
テスラ関連の最新記事を毎日随時アップしていますので、過去のニュースはこちらを参照ください。
▼▼テスラ 紹介コード は以下から▼▼
人気記事
新着記事
※免責事項:この記事は主にテクノロジーの動向を紹介するものであり、投資勧誘や法律の助言などではありません。また、記事の正確性を保証するものでもありません。掲載情報によって起きたいかなる直接的及び間接的損害に対しても、筆者・編集者・運営者は一切責任を負いません。また、運営者はテスラ株式のホルダーです。
コメント