Asynchronous Inferenceとは

Asynchronous Inferenceとは、AIへのリクエストをその場で返さず、いったんキューに入れて後から処理結果を返す推論方式です。非同期とは、相手を画面の前で待たせ続けない進め方のこと。重い依頼を受付番号で預かり、終わったら結果を渡すようなイメージです。

どんな時に使うのか

画像や長文ファイルの解析など、1回の入力が大きい処理では、Real-Time Inferenceのように即答を狙うと無理が出がちです。Asynchronous Inferenceは、処理に時間がかかっても、近い時間内に結果が戻ればよい業務で使いやすい方式でしょう。

AWSの公式説明では、大きなペイロードや長い処理時間に向く方式として整理されています。顧客が画面で待つ処理か、通知を受け取ればよい処理かを分けると、導入判断がしやすくなります。

コストと体験のバランス

非同期にすると、混雑を吸収しやすい構成です。反面、結果が返るまでの状態表示、失敗時の再処理、通知の設計が必要です。ユーザーにとっては「待たされている」のではなく「処理中だと分かる」体験が大切なポイント。

Topic大きな荷物は棚番で渡す

AWSの非同期推論の説明では、入力データをストレージに置き、その場所を指す情報をリクエストに含める流れが示されています。大きな荷物を窓口に直接持ち込むのではなく、倉庫の棚番を渡して処理してもらう感覚です。この設計が、大きい入力や長い処理時間に向く理由の一つでしょう。

Asynchronous Inferenceに関するよくある質問

Asynchronous InferenceはBatch Transformと同じですか?
同じではありません。Asynchronous Inferenceは個別リクエストをキューに入れて後から返す方式で、Batch Transformは大量データをまとめて処理する方式です。
Asynchronous Inferenceはユーザー体験を悪くしませんか?
設計次第です。処理中の表示、完了通知、失敗時の再実行を用意すれば、重い処理を無理に即時応答させるより自然な体験にできます。
Asynchronous Inferenceを選ぶ判断軸は何ですか?
入力が大きい、処理が長い、ただし結果は近い時間内に必要という条件です。即答が必須ならReal-Time Inference、大量一括処理ならBatch Transformも比較します。

あわせて読みたい記事