スタンフォード大学の研究者は、大規模なモデル編集を高速化するための「MEND」と呼ばれる人工知能 (AI) アプローチを開発しました

大規模なモデルは、幅広い最新のコンピューター ビジョン、特に自然言語処理の問題でパフォーマンスを向上させました。 ただし、展開後にモデルの動作を調整するためのパッチを発行することは、そのようなモデルを展開および維持する上で大きな課題です。 モデルの表現が分散されているため、ニューラル ネットワークが望ましくない出力を生成する場合、単一または少数の入力に対する動作を修正するためにローカライズされた更新を行うことは困難です。 2019 年にトレーニングされた大規模な言語モデルは、プロンプトが表示されたときに、ボリス ジョンソンよりもテレサ メイに高い確率を割り当てる可能性があります。 イギリスの首相は誰ですか?

提案されたアルゴリズム MEND は、一連の MLP をトレーニングしてモデルの勾配を変更することで編集可能性を実現し、無関係な入力でモデルのパフォーマンスを損なわないローカル モデル編集を実現します。 MEND は、非常に大規模なモデルであっても、編集の有効性をトレーニングして適用します。

理想的なモデル編集手順は、無関係な入力のモデル出力に影響を与えずに、モデル パラメーターを迅速に更新して、ボリス ジョンソンの相対的な可能性を高めることができます。 この手順により、信頼性の高い編集が得られ、問題のある入力に対するモデルの作業が正常に変更されます (たとえば、英国の首相は誰ですか?)。 無関係な入力に対するモデルの出力に影響を与える局所性 (例: メッシはどのスポーツチームでプレーしていますか?); 一般性、編集入力に関連する入力に対して正しい出力を生成します (例: イギリスの首相は誰ですか?)。 このような編集は、修正する単一の例に新しいラベルを付けて微調整するのと同じくらい簡単です。 ただし、単一のサンプルの微調整は、微調整前と微調整後のパラメーター間の距離が制限されている場合でも、オーバーフィットする傾向があります。

オーバーフィッティングは、局所性と一般性の両方の失敗を引き起こします。 編集例を微調整し、トレーニング セットで継続的にトレーニングを行うことで局所性が向上しますが、彼らの実験では、さらに一般性が必要であることが示されています。 さらに、テスト中にトレーニング セット全体に継続的にアクセスする必要があり、計算負荷が高くなります。 最近の研究では、代替手段としてモデルの編集を学習する方法が検討されています。 研究者は、モデルの初期化を決定するための 2 レベルのメタ学習目標を提示します。これは、単一の編集例に対する標準的な微調整によって価値のある変更がもたらされます。

実用的ではありますが、このような編集可能な表現を学習するための計算要件により、高速で効果的な編集が最も必要とされる大規模なモデルへのスケーリングが困難になります。 研究者は、計算効率の高い学習ベースの代替案について説明していますが、彼らの実験では巨大なモデルの編集に失敗しています。 その結果、100 億を超えるパラメーターを持つモデルに効率的にスケーリングしながら、信頼性の高いローカルで一般的な編集を生成する方法を考案しています。 与えられた修正の標準的な微調整勾配を入力として与えると、彼らのアプローチは軽量のモデル エディター ネットワークをトレーニングして事前トレーニング済みモデルの重みを編集し、勾配を編集のための情報豊富な開始点として活用します。

勾配は 3 次元オブジェクトであるため、勾配を新しいパラメーターの更新にマップする関数を直接パラメーター化すると、非常にコストがかかります。 単一の dd 重み行列の単純な実装には、マッピング R(d2) -> R(d2)、これは d ~ 104 の大きなモデルには実用的ではありません。しかし、彼らのアプローチは関数 g: R(d) -> R(d) を、この勾配をランク 1 の外積形式に分解することによって学習できます。 Model Editor Networks with Gradient Decomposition (MEND) は、彼らのアプローチに付けられた名前です。 MEND は、これらの勾配マッピング関数を、編集するモデルよりも少ないパラメーターを使用して、単一の隠れ層を持つ MLP としてパラメーター化します。 事前トレーニングに関係なく、MEND は事前トレーニング済みのモデルに適用できます。

この作業の主な貢献は、微調整勾配の低ランク構造を活用することで、事前にトレーニングされた巨大な言語モデルを編集できる高速モデル編集用のスケーラブルなアルゴリズムです。 彼らは、さまざまな言語関連のタスクと変換モデルについて経験的評価を行い、MEND が最も重要な GPT スタイルと T5 言語モデルを一貫して編集できる唯一のアルゴリズムであることを示しています。 最後に、彼らのアブレーション実験は、MEND の主要コンポーネントの影響を示しており、MEND バリアントが数千億のパラメーターを持つモデルにスケーリングする可能性が高いことを示しています。 コードの実装は、GitHub で無料で入手できます。

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'MEND: Fast Model Editing at Scale'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, code and project.
Please Don't Forget To Join Our ML Subreddit


Aneesh Tickoo は MarktechPost のコンサルティングインターンです。 彼は現在、ビライにあるインド工科大学 (IIT) でデータ サイエンスと人工知能の学士号を取得しようとしています。 彼はほとんどの時間を機械学習の力を利用することを目的としたプロジェクトに費やしています。 彼の研究対象は画像処理であり、それに関するソリューションの構築に情熱を注いでいます。 彼は人々とつながり、興味深いプロジェクトで協力するのが大好きです。


Leave a Comment

Your email address will not be published. Required fields are marked *