OSWorld(オーエスワールド)とは

OSWorldとは、AIエージェントが実際のPC環境で作業できるかを測るベンチマークです。チャットで正しい説明を返すだけでなく、画面を見て、クリックし、ファイルを扱い、複数アプリをまたいでタスクを終えられるかを評価します。AIが「秘書のようにPCを操作する」と言われる時、その実力を現実の机に近い環境で見る試験と捉えるとよいでしょう。

チャット評価と違うところ

多くのベンチマークは、問題文に答える力を測ります。OSWorldは一歩進んで、OSやアプリの画面そのものを使う評価。公式サイトでは、実アプリを含む369のコンピュータータスクが示されています。これは、RPAのような定型自動化よりも広く、AIエージェントがその場で状況を見て進める世界に近い評価です。文章力、視覚理解、操作手順、失敗時の立て直しがまとめて問われます。

導入検討での見方

OSWorldで良い結果が出ても、自社の端末管理やログイン方式で同じように動くとは限りません。社内システムは、権限、二要素認証、画面変更、地域制限などが絡むためです。評価で見るべきなのは、AIが何回クリックしたかより、失敗した時に止まれるか、作業証跡を残せるか、重要操作に人の承認を入れられるか。PCを操作するAIほど、便利さと事故防止をセットで設計する必要があります。

Topicベンチマークにも「ログイン問題」がある

OSWorld公式サイトでは、Google Drive関連の8タスクが設定やネットワークの影響を受ける場合があり、除外して361タスクで評価する方法も許容されています。現実の業務でも、AIがつまずくのは賢さだけではありません。ログイン、権限、クラウドサービスの細かな制約が、実運用の壁になります。

OSWorldに関するよくある質問

OSWorldはRPAの評価と同じですか?
近い部分はありますが、同じではありません。RPAは決まった手順の自動化が中心で、OSWorldはAIエージェントが画面を見ながら開かれたタスクを進められるかを見ます。
OSWorldで高評価なら社内PCも任せられますか?
すぐには任せられません。社内PCには認証、権限、監査ログ、画面変更などの固有条件があります。ベンチマーク結果は入口であり、自社環境での小さな検証が必要です。
OSWorldはどんなAIに関係しますか?
画面を見て操作するAIエージェント、マルチモーダルモデル、PC操作支援AIに関係します。文章だけのチャットボットより、実作業へ踏み込むAIの評価に向きます。

あわせて読みたい記事