最新の人工知能研究が ROME (Rank-One Model Editing) を提案: GPT モデル内の事実関係を効率的に見つけて編集するための大規模な言語モデル ソリューション

大規模言語モデルまたは LLM では、ファクトはどこに保持されますか?

2 つの理由から、モデルが事実関係を保持する方法と場所に関心があります。

  • 巨大で不透明なニューラル ネットワークを理解するには: 大規模な言語モデルの内部計算はほとんど理解されていません。 巨大な変圧器ネットワークを理解するには、まず情報がどのように処理されるかを理解する必要があります。
  • 修正を行う: モデルはしばしば不正確、偏り、または非公開であるため、特定の事実の不正確さを特定して修正できるようにする手法を作成したいと考えています。

最近発表された論文、 GPT 内の事実関係は、直接編集可能なローカライズされた計算に対応することが示されています。

自己回帰 GPT (Radford et al., 2019; Brown et al., 2020) や masked BERT (Devlin et al., 2019) モデルなどの大規模な言語変換は、事実に関する知識 (Petroni et al., 2019; Jiang et al., 2020; Roberts et al., 2020; Brown et al., 2020)。 Elazar et al. によると、特定の事実予測は言い換えると交互に入れ替わるが、言い換えに抵抗するものもある。 (2021a)。 たとえば、GPT は、「スペース ニードルはの都市にあります」のような接頭辞が与えられた場合、「シアトル」という事実を正確に予測します。

主題に関する事実の記憶を仲介する変換器内の特定のモジュールを特定するために、この論文の研究者は最初に隠れた状態の因果関係を調べました。 彼らは、サブジェクト名の最後のトークンを処理するときに、さまざまな中間レベルに配置されたフィードフォワード MLP が重要であることを発見しました。

研究者は、GPT スタイルの変圧器モデルについて 2 つのことを発見しました。

1. トピックの最終トークンを処理するとき、事実関係を 3 つの次元に沿って、さまざまな中間層、特に MLP モジュール パラメータにローカライズできます。

上記の因果トレースのいくつかの状態には、モデルをある事実予測から別の予測に切り替える原因となる情報があります。 これらの因果関係の痕跡は実験で使用され、初期サイトの MLP モジュールで知識の検索が行われているという証拠を発見しました。 その後、遅いサイトでの注意プロセスは、特定の単語が予想される計算のポイントに情報を伝えます。

2. 単一の MLP モジュール内の小さなランク 1 の調整により、特定の事実関係が変わる可能性があります。 同じ情報の別の言い回しへの一般化を評価することにより、彼らは知識の変化と単に表面的な言語の変化とを区別することができます。

チームは、事実の記憶に影響を与える重要な計算を正確に特定するために、まったく新しい因果追跡技術を開発しました。 このアプローチでは、事実に基づくメッセージを処理しながら、ニューラル ネットワーク内の特定の状態の因果関係を分離します。 この情報の流れをたどることで、主に事実関係検索に寄与するモジュールを特定することができます。

提案された ROME は、GPT モデル内の特定の事実を変更するために作成されます。 ROME は、単一のモジュールを、キーがサブジェクトを暗号化し、値がそのサブジェクトに関連付けられた知識を暗号化するキー値ストアと見なします。 このように、モデルは、キーに対応する値を取得することによって事実のつながりを検索し、特定の事実の関連付けを特定の一般化された方法で変更および更新することを開始します。

研究者は、カウンターファクト データセットを使用して ROME をテストしました。これには、何千もの反事実と、反事実を学習しながら特異性と一般化の定量的評価を可能にするテキスト、およびゼロショット関係抽出 (zsRE) タスクが含まれています。 CounterFact データセットでは、ROME は評価中に zsRE で競争力のある結果を示しながら、特異性と一般化の両方を維持しました。

大規模な自己回帰トランスフォーマー言語モデルの内部構造を記述し、保存された知識を変更するための迅速な方法を作成することにより、これらのシステムの透明性を高め、エラーを修正するために必要なエネルギーを削減する可能性があります。


チェックアウト 論文、プロジェクト、 と GitHub リンク. この研究のすべての功績は、このプロジェクトの研究者に帰属します。 また、忘れずに参加してください 私たちのRedditページ不協和音チャンネルでは、最新の AI 研究ニュース、クールな AI プロジェクトなどを共有しています。


Rishabh Jain は、MarktechPost のコンサルティングインターンです。 彼は現在、ハイデラバードの IIIT でコンピュータ サイエンスの B.tech を目指しています。 彼は機械学習の愛好家であり、人工知能とデータ分析における統計手法に強い関心を持っています。 彼は、AI のためのより優れたアルゴリズムの開発に情熱を注いでいます。


Leave a Comment

Your email address will not be published. Required fields are marked *