RAGASとは

RAGASとは、RAGの回答を「根拠に忠実か」「質問に答えているか」「取り出した文脈が絞れているか」で点検する評価フレームワークです。社内ナレッジAIを作った後に、なんとなく良さそうではなく、どこが失敗しているかを測るための計測器にあたります。

RAGのどこを測るのか

RAGの失敗は一種類ではありません。検索が外れている、必要な資料は取れているのにLLMが読み違える、根拠にないことを足してハルシネーションを起こす、といった分岐があります。RAGASはこの分解に向いており、検索の精度、回答の関連性、根拠への忠実さを別々に見ることで、改善すべき場所を絞りやすくする設計です。

たとえば社内規程QAで点数が低い場合、モデルを変える前に、チャンキングの粒度、埋め込みベクトルデータベースの検索条件、リランキングの有無を見直す判断材料になります。評価指標は、開発チームと業務部門が同じ基準で会話するための共通言語にもなるでしょう。

導入時の注意点

RAGASは品質を自動で上げる道具ではなく、悪い箇所を見つける計測器です。点数だけを追うと、実際の利用者が欲しい答えからズレることもあります。重要な問い合わせ、想定外の質問、正解が揺れる質問を含めた評価セットを用意し、数値と人の確認を組み合わせる運用が実務的です。

TopicRAGの複数形ではなくAssessmentの略

Ragasの論文では、名称をRetrieval Augmented Generation Assessmentと説明しています。つまり「たくさんのRAG」という意味のRAGsではなく、RAGを評価するAssessmentが名前に入っているということ。表記だけ見ると小さな違いですが、この用語の主役が「生成」ではなく「評価」であることをよく表しています。

RAGASに関するよくある質問

RAGASの点数だけで本番公開を判断してよいですか?
点数だけで判断するのは危険です。評価セットの偏りや実利用者の許容度もあるため、重要な回答は人のレビュー、ログ確認、業務部門の確認と組み合わせる必要があります。
RAGASでは何を確認できますか?
取得した文脈が質問に合っているか、回答が根拠に沿っているか、余計な情報を含んでいないかなどを確認できます。実務では人のレビューと組み合わせて使います。
経営判断ではどんな場面で役立ちますか?
社内ナレッジAIや問い合わせAIを本番運用する前に、改善箇所を数値で把握したい場面で役立ちます。モデル変更、文書整備、検索改善の優先順位を決めやすくなります。

あわせて読みたい記事