RetNetとは

RetNetとは、Transformerの後継を狙って提案されたAIアーキテクチャ(設計方式)です。Microsoftの研究チームが2023年7月に公開しました。アテンションの代わりにretention(保持)という仕組みを使い、学習は並列で速く、文章を読むときはRNNのようにメモリ・計算を一定に保つ。その両立を狙った設計です。

英語表記:Retentive Network

3つのモードで使い分ける

RetNetは同じモデルを場面で切り替えて動かせます。学習時は並列モードで一気に計算し、推論時は再帰モードで一定の手間(O(1))に抑え、長い文章はチャンク(かたまり)ごとに処理する第3のモードでさばきます。長文を扱うほど効いてくる省メモリ・低遅延が持ち味で、Transformerの弱点を補う候補の一つでしょう。

Topic「不可能の三角形」という問題設定

RetNetの論文が面白いのは、課題そのものに名前を付けた点です。「並列学習・低コストな推論・高い性能」の3つは同時に成り立たないという構図を「不可能の三角形」と呼び、ここから抜け出すことを目標に掲げました。解き方より先に、問題の形を言葉にしたのが印象的なところでしょう。

RetNetに関するよくある質問

RetNetとRWKVは何が違いますか?
どちらもTransformerの弱点を補う後継候補です。RetNetはMicrosoftがretention機構として提案したもので、RWKVは有志コミュニティがRNNを現代的に作り直したもの、という出自と設計の違いがあります。
RetNetはもう主流の方式になっていますか?
なっていません。2023年公開の研究段階のアーキテクチャで、Transformerが主流の状況は続いています。長文を効率よく扱う代替案の一つという位置づけです。

RetNetに関連する記事