脳のダイナミクスを解くと、柔軟な機械学習モデルが生まれます。 MITニュース

昨年、MIT の研究者は、小さな種の脳に触発された「液体」ニューラル ネットワークを構築したと発表しました。これは、実際の安全のために、仕事で学習し、変化する条件に適応できる柔軟で堅牢な機械学習モデルのクラスです。運転や飛行などの重要なタスク。 これらの「流動的な」ニューラル ネットワークの柔軟性は、接続された世界への血統を強化し、脳や心臓のモニタリング、天気予報、株価など、時系列データを含む多くのタスクの意思決定を改善することを意味しました。

しかし、これらのモデルは、ニューロンとシナプスの数が増えるにつれて計算コストが高くなり、基礎となる複雑な数学を解くには厄介なコンピューター プログラムが必要になります。 そして、この数学はすべて、多くの物理現象と同様に、サイズが大きくなると解決が難しくなります。つまり、解決策に到達するために多くの小さなステップを計算する必要があります。

今回、同じ科学者チームが、シナプスを介した 2 つのニューロンの相互作用の背後にある微分方程式を解き、新しいタイプの高速で効率的な人工知能アルゴリズムを解き放つことで、このボトルネックを軽減する方法を発見しました。 これらのモードは、液体ニューラル ネットワークと同じ特性 (柔軟、因果的、堅牢、説明可能) を備えていますが、桁違いに高速で、スケーラブルです。 したがって、このタイプのニューラル ネットワークは、トレーニング後もコンパクトで適応性があるため、時間の経過とともにデータの洞察を得ることを含むあらゆるタスクに使用できます。一方、多くの従来のモデルは固定されています。

「閉形式連続時間」(CfC)ニューラル ネットワークと呼ばれるこのモデルは、モーション センサーや物理モデリングから人間の活動を認識する際の速度とパフォーマンスが大幅に向上し、多数のタスクで最先端の対応するモデルよりも優れたパフォーマンスを発揮しました。シミュレートされた歩行ロボットのダイナミクス、およびイベントベースの順次画像処理。 たとえば、医療予測タスクでは、新しいモデルは 8,000 人の患者のサンプリングで 220 倍高速でした。

この研究に関する新しい論文が本日、 ネイチャー マシン インテリジェンス。

「『CfC』と呼ばれる新しい機械学習モデルは、ニューロンの計算を定義する微分方程式を閉じた形式の近似に置き換え、数値積分を必要とせずに液体ネットワークの美しい特性を維持します」と MIT のダニエラ ルス教授 (ディレクター) は述べています。 Computer Science and Artificial Intelligence Laboratory (CSAIL) の研究者であり、新しい論文の上級著者でもあります。 「CfC モデルは、因果関係があり、コンパクトで、説明可能で、トレーニングと予測が効率的です。 これらは、安全性が重要なアプリケーションのための信頼できる機械学習への道を開きます。」

物事を流動的に保つ

微分方程式を使用すると、進化する世界や現象の状態を計算できますが、時間の経過全体ではなく、段階的に計算できます。 たとえば、人間の活動の認識やロボットの進路など、自然現象を時系列でモデル化し、過去と未来の行動を理解するために、チームはチケットだけを見つけるための数学的トリックの袋に手を伸ばしました。単一の計算ステップで、システム全体の完全な記述。

彼らのモデルを使えば、将来のいつでも、過去のいつでも、この方程式を計算することができます。 それだけでなく、微分方程式を段階的に解く必要がないため、計算速度がはるかに速くなります。

車に取り付けられたカメラからの運転入力を受け取るエンド ツー エンドのニューラル ネットワークを想像してみてください。 ネットワークは、車のステアリング角度などの出力を生成するようにトレーニングされています。 2020 年、チームは 19 個のノードを備えた液体ニューラル ネットワークを使用してこれを解決したため、19 個のニューロンと小さな知覚モジュールで車を運転できるようになりました。 微分方程式は、そのシステムの各ノードを記述します。 閉じた形式のソリューションでは、このネットワーク内でそれを置き換えると、システムの実際のダイナミクスの適切な近似であるため、正確な動作が得られます。 したがって、彼らはさらに少ない数のニューロンで問題を解決できます。つまり、より高速で計算コストが低くなります。

これらのモデルは、入力を時系列 (時間内に発生したイベント) として受け取ることができ、分類、車の制御、ヒューマノイド ロボットの移動、金融および医療イベントの予測に使用できます。 これらのさまざまなモードをすべて使用することで、精度、堅牢性、パフォーマンス、そして重要な計算速度を向上させることもできますが、これはトレードオフになることもあります。

この方程式を解くことは、自然知能システムと人工知能システムの両方の研究を進める上で、広範囲にわたる意味を持ちます。 「ニューロンとシナプスのコミュニケーションを閉じた形式で記述できれば、数十億の細胞を含む脳の計算モデルを構築できますが、これは、神経科学モデルの計算が非常に複雑なため、今日では不可能です。 閉じた形式の方程式は、このような大規模なシミュレーションを容易にする可能性があり、したがって、知性を理解するための新しい研究の道を開く可能性があります」と、新しい論文の筆頭著者である MIT CSAIL Research Affiliate の Ramin Hasani は述べています。

ポータブル学習

さらに、ある環境で視覚入力からタスクを学習し、追加のトレーニングなしで学習したスキルをまったく新しい環境に移すというリキッド CfC モデルの初期の証拠があります。 これは分布外汎化と呼ばれ、人工知能研究の最も基本的な未解決の課題の 1 つです。

微分方程式に基づくニューラル ネットワーク システムは、数百万、数十億のパラメーターに対応したり、スケーリングしたりするのが困難です。 閾値だけでなく、細胞間の物理的ダイナミクスを解決することで、ニューロンが互いにどのように相互作用するかを説明することで、より大規模なニューラル ネットワークを構築することができます」と Hasani 氏は言います。 「このフレームワークは、より複雑な機械学習タスクを解決するのに役立ち、より優れた表現学習を可能にし、将来の組み込みインテリジェンス システムの基本的な構成要素になるはずです。」

「ニューラル ODE や液体ニューラル ネットワークなどの最近のニューラル ネットワーク アーキテクチャには、層の明示的なスタックではなく、無限の潜在状態を表す特定の動的システムで構成される隠れ層があります。この論文には関与していないボーイング社。 これらの暗黙的に定義されたモデルは、従来のアーキテクチャよりもはるかに少ないパラメーターを必要とする一方で、最先端のパフォーマンスを示しています。 しかし、トレーニングや会議に必要な計算コストが高いため、実際の採用は限られています。」 彼は、この論文は「このクラスのニューラル ネットワークの計算効率が大幅に改善されたことを示しています… [and] 安全性が重要な商用および防衛システムに関連する、より幅広い実用的なアプリケーションを可能にする可能性があります。」

Hasani と MIT CSAIL のポスドクである Mathias Lechner は、CSAIL のポスドクである MIT Alexander Amini とともに、Rus が監修した論文を書きました。 Lucas Liebenwein SM ’18、博士号 ’21; MITの電気工学およびコンピューターサイエンスの博士課程の学生であり、CSAILアフィリエイトであるAaron Ray。 Max Tschaikowski、デンマークのオールボー大学のコンピューター サイエンス准教授。 ウィーン大学の数学教授、ジェラルド・テシュル。

.

Leave a Comment

Your email address will not be published. Required fields are marked *