RetNetとRWKVは何が違いますか？

どちらもTransformerの弱点を補う後継候補です。RetNetはMicrosoftがretention機構として提案したもので、RWKVは有志コミュニティがRNNを現代的に作り直したもの、という出自と設計の違いがあります。

RetNetはもう主流の方式になっていますか？

なっていません。2023年公開の研究段階のアーキテクチャで、Transformerが主流の状況は続いています。長文を効率よく扱う代替案の一つという位置づけです。

RetNetとは？意味をわかりやすく解説

RetNetとは、Transformerの後継を狙って提案されたAIのアーキテクチャ(設計方式)です。Microsoftの研究チームが2023年7月に公開しました。アテンションの代わりにretention(保持)という仕組みを使い、学習は並列で速く、文章を読むときはRNNのようにメモリ・計算を一定に保つ。その両立を狙った設計です。

英語表記：Retentive Network

3つのモードで使い分ける

RetNetは同じモデルを場面で切り替えて動かせます。学習時は並列モードで一気に計算し、推論時は再帰モードで一定の手間(O(1))に抑え、長い文章はチャンク(かたまり)ごとに処理する第3のモードでさばきます。長文を扱うほど効いてくる省メモリ・低遅延が持ち味で、Transformerの弱点を補う候補の一つでしょう。

Topic「不可能の三角形」という問題設定

RetNetの論文が面白いのは、課題そのものに名前を付けた点です。「並列学習・低コストな推論・高い性能」の3つは同時に成り立たないという構図を「不可能の三角形」と呼び、ここから抜け出すことを目標に掲げました。解き方より先に、問題の形を言葉にしたのが印象的なところでしょう。

arXiv: Retentive Network, A Successor to Transformer

RetNetに関するよくある質問

RetNetとRWKVは何が違いますか？: どちらもTransformerの弱点を補う後継候補です。RetNetはMicrosoftがretention機構として提案したもので、RWKVは有志コミュニティがRNNを現代的に作り直したもの、という出自と設計の違いがあります。
RetNetはもう主流の方式になっていますか？: なっていません。2023年公開の研究段階のアーキテクチャで、Transformerが主流の状況は続いています。長文を効率よく扱う代替案の一つという位置づけです。

RetNetとは

3つのモードで使い分ける

Topic「不可能の三角形」という問題設定

RetNetに関するよくある質問

RetNetに関連する記事

生成AIを社内データに学習させない設定｜CopilotとClaude時代の権限管理

Claude Fable 5とMythos 5の違い｜Anthropic新モデルの特徴・料金や使い分け

チャットGPTに個人情報を入力してしまった時の対処法｜削除手順と漏洩リスクへの実務対応

いま読まれている用語

まだそこまで読まれていない用語