Differential Transformerとは

Differential Transformerとは、AIの土台であるTransformerアテンション(文章のどこに注目するかを決める仕組み)を改良した方式です。Microsoftの研究チームが2024年10月に公開しました。2つの注目の地図を作り、その「差」をとることで、無関係な部分への余計な注目(ノイズ)を打ち消すのが核心です。

長文での取りこぼしと誤りを減らす

ふつうのTransformerは、長い文章を読むと関係の薄い箇所にも注目が分散し、肝心な情報を見落としがちでした。Differential Transformerはこのノイズを引き算で抑え、重要な箇所へ注目を集めます。論文では、長文脈での重要情報の検索や、ハルシネーション(もっともらしい誤り)の抑制に効果があったと報告されました。なお2024年10月公開の研究段階の方式で、AI全体の標準というわけではありません。

Topic「もっと注目」ではなく「引き算」で賢くする発想

名前の「Differential(差分)」は、2つの注目マップを引き算する仕組みそのものを指します。性能を上げる工夫は「もっと注目させる」方向に向かいがちですが、この方式は逆。ノイズキャンセリングのように差をとって余計な注目を消すという、発想の転換が面白いところでしょう。

Differential Transformerに関するよくある質問

Differential Transformerは量子化(モデルの軽量化)と関係しますか?
論文は、計算途中に現れる極端な数値(活性化の外れ値)を減らす効果も挙げています。外れ値は軽量化の妨げになるため、相性が良い可能性が指摘されています。
「Diff Transformer」と略されますが、別の技術ですか?
同じ方式の略称です。差分アテンションを使う構成をDIFF Transformerと表記しており、指しているものは変わりません。

あわせて読みたい記事