Reflexion(リフレクション)とは

Reflexionとは、AIエージェントに失敗や結果を言葉で振り返らせ、次の試行を改善させる手法です。通常の学習のようにモデルの重みを変えるのではなく、反省メモを残して次の判断に使います。2023年3月に公開された論文で提案され、AIエージェントが同じ失敗を繰り返しにくくするための考え方です。

Reflexionの仕組み

Reflexionでは、AIがタスクを実行したあと、成功・失敗のフィードバックを受け取ります。そのうえで「どこが悪かったか」「次はどう直すか」を自然言語で書き、短期的な記憶として保持します。人間でいえば、商談後に反省メモを残し、次の打ち合わせ前に読み返すようなものでしょう。大事なのは、モデルそのものを再訓練するのではなく、実行時の記憶を使ってふるまいを変えるところにあります。

通常の強化学習との違い

強化学習は、報酬をもとにモデルや方策を更新する広い考え方です。Reflexionは「Verbal Reinforcement Learning」と表現されますが、中心にあるのは数値だけの報酬ではなく、言葉によるフィードバックです。失敗から得た教訓を文章として残し、それを次回の文脈に入れるため、導入の感覚は再学習というより運用ループに近くなります。

ビジネスでの使いどころ

Reflexionが向くのは、結果をある程度評価できる反復業務です。たとえばテストが通ったか、条件を満たしたか、チェックリストを満たしたかを見て、次の実行を改善する場面です。逆に、正解の基準が曖昧なまま反省だけを重ねると、もっともらしい反省文が増えるだけになりかねません。評価基準とセットで見るべき手法です。

TopicReflectionではなく、Reflexionとつづる

英語で「反省」や「内省」を表す一般語はreflectionですが、この研究名はReflexionです。論文タイトルでもこの表記が使われています。検索するときは、単なる一般名詞ではなく、xを含む固有の研究名として探すと見つけやすくなります。

Reflexionに関するよくある質問

Reflexionは普通の強化学習と何が違いますか?
通常の強化学習は報酬をもとにモデルや方策を更新します。Reflexionは主に言葉の反省メモを残し、次の試行の文脈として使う点が違います。
Reflexionはどんな業務に向いていますか?
テスト結果、チェックリスト、条件達成など、成功と失敗を評価しやすい反復業務に向いています。正解基準が曖昧な業務では反省が空回りしやすくなります。
Reflexionを入れればAIは自動で賢くなりますか?
自動で万能になるわけではありません。良いフィードバック、保持する記憶の設計、失敗を測る評価基準がそろって初めて改善ループとして働きます。

あわせて読みたい記事