Computer Use(コンピュータユース)とは

Computer Useとは、AIがパソコンの画面を見て、人間のようにマウスやキーボードを操作し、ソフトやWebを動かす機能です。SF的に聞こえますが、やっていることは「画面を見て、カーソルを動かし、クリックや入力をする」という、私たちが普段パソコンを使うのと同じ操作です。Anthropicが2024年10月に公開し、OpenAIMicrosoftも同じような機能に力を入れています。

どうやって操作するのか

仕組みはシンプルです。AIがまず画面のスクリーンショットを撮って今の状態を「見て」、次にどこをクリックし、何を入力するかを判断して操作します。これを繰り返すことで、申込フォームの入力や情報の検索といった複数手順の作業を、人の代わりに最後まで担えるのです。AIが自分で道具を使って働くAIエージェントを、パソコン操作の面で支える技術ともいえます。

従来の連携との違いと注意点

これまでソフト同士をAIにつなぐには、専用の連携窓口(API)が必要でした。Computer Useの新しさは、そうした窓口がない古いソフトでも、人間が使う画面そのものを介して操作できる点にあります。ただし、現状はまだベータ(試験段階)で、画面を読み違えて誤った操作をすることもあります。重要な作業では人が確認しながら使うHuman-in-the-Loopの考え方が欠かせません。

TopicAIが「人間用の画面」をそのまま使う発想

これまでのAI連携は、機械同士が話すための専用の窓口(API)を用意するのが前提でした。Computer Useはその発想を変え、人間が見るのと同じ画面を、AIがそのまま見て操作します。実際、本物のWebサイトを操作するベンチマークでは高い成績を出しています。専用の窓口を一つひとつ用意しなくても、画面さえあればAIに任せられる。そんな可能性を開く技術です。

Computer Useに関するよくある質問

Computer Useは従来のAI連携(API)と何が違うのですか?
これまでソフト同士をAIにつなぐには専用の連携窓口(API)が必要でしたが、Computer Useはその窓口がない古いソフトでも、人間が使う画面そのものを介して操作できる点が新しさです。画面さえあれば、専用窓口を一つずつ用意しなくてもAIに任せられます。
AIはどうやってパソコンを操作するのですか?
まず画面のスクリーンショットを撮って今の状態を「見て」、次にどこをクリックし何を入力するかを判断して操作します。これを繰り返し、申込フォームの入力や情報検索といった複数手順の作業を最後まで担います。Anthropicが2024年10月に公開し、OpenAIやMicrosoftも同種の機能に力を入れています。
Computer Useを使うときの注意点は?
現状はまだベータ(試験段階)で、画面を読み違えて誤った操作をすることもあります。重要な作業では人が確認しながら使う「Human-in-the-Loop」の考え方が欠かせません。