Medusa(メデューサ)とは

Medusaとは、大規模言語モデル(LLM)に複数の「予測用の頭(ヘッド)」を後付けし、次に来る単語を一度に何個も予想させることで、文章生成を速くする推論手法です。投機的デコーディングと同じく、LLMの待ち時間を縮める工夫の一つになります。

複数の「頭」で先を読む仕組み

通常のLLMは単語を1つずつ順番に出すため、長い回答ほど待ち時間が積み上がります。Medusaは本体に複数の予測ヘッドを足し、数単語先までの候補をまとめて作る。そして木構造の仕組みで、その候補をいっぺんに照合・検証することで生成を速めます。論文では、2.2〜3.6倍の高速化文章の質を損なわずに達成したと報告されました。別の小さなモデルを用意せず、本体にヘッドを足すだけで済む手軽さも特徴でしょう。

Topic名前の由来は、髪が蛇の女神

Medusaという名は、ギリシャ神話の怪物メドゥーサにちなみます。髪の毛が無数の蛇になっているあの姿のように、この手法は複数の「頭(予測ヘッド)」を持つことが最大の特徴。一つの頭で一語ずつ進める代わりに、たくさんの頭で同時に先を読む。その見た目と仕組みを神話の怪物に重ねた、研究者の命名のセンスが光ります。

Medusaに関するよくある質問

Medusaを使うと回答の質は変わりますか?
いいえ。Medusaは文章の質を保ったまま、生成にかかる時間だけを短くする手法です。複数のヘッドで先を予想しても、最終的に本体のモデルが候補を検証するため、答えの中身は損なわれません。
Medusaは投機的デコーディングと同じものですか?
考え方は近い仲間ですが、作りが違います。投機的デコーディングは別の小さな下書きモデルを用意します。Medusaは本体のモデルに予測ヘッドを足すだけで、追加のモデルを別に動かさずに済む点が特徴です。

あわせて読みたい記事