Google、Webを操作するAI「Gemini 2.5 Computer Use」を発表

桜井未来
10月8日
読了時間: 2分

PayPay、香港・台湾ユーザー向け海外キャッシュレス決済連携を強化 — image : Google

「Gemini 2.5 Computer Use」とは？Google DeepMindが拓く“操作するAI”の最前線

　米Google DeepMindは10月7日（現地時間）、新たに Gemini 2.5 Computer Use モデルを発表した。これはGeminiシリーズの高度なマルチモーダル能力を基盤に、ウェブやモバイルのユーザーインターフェース（UI）を直接操作できるAIエージェントを構築するためのモデルだ。APIを通じて提供され、開発者はクリックや入力、スクロールなどの操作を自動化し、人が行う画面操作をAIが代行できるようになる。Gemini APIに新たに追加された「computer_use」ツールを利用し、ユーザーの指示や画面キャプチャ、操作履歴などをもとに、最適なUI操作を関数形式で返す仕組みを採用している。実行後の画面変化を再度モデルに入力することで、AIが連続的にタスクを進行できるよう設計されている。

image : @GoogleDevelopers

高精度・低レイテンシの操作性能

　Gemini 2.5 Computer Use モデルは、複数のウェブおよびモバイル制御ベンチマークで従来モデルを大きく上回る結果を示している。特にブラウザ操作では、高精度と低レイテンシを両立し、既存の最先端AIを凌駕する性能を実現した。現時点では主にウェブブラウザとモバイルアプリの操作に最適化されており、デスクトップOS全体の制御はまだ対象外だが、UI操作型AIの実用化に向けた大きな一歩といえる。

安全性と実用性を両立したAIエージェント

　Google DeepMindは、AIによる画面操作の安全性にも細心の注意を払っている。Gemini 2.5 Computer Use モデルには、不正利用や予期せぬ振る舞い、プロンプトインジェクション、フィッシングなどのリスクを抑制する仕組みが組み込まれており、開発者は高リスク操作の確認や安全ステップの設定を自由にカスタマイズできる。また、Google内部のプロジェクト（Project Mariner、Firebase Testing Agent、Search機能など）ですでにこのモデルの実用化が進んでおり、テスト自動化やワークフロー最適化などの現場で成果を上げている。

開発者向けパブリックプレビューを開始

　Gemini 2.5 Computer Use モデルは現在、Google AI StudioやVertex AIを通じてパブリックプレビューとして提供されている。開発者は提供されているドキュメントやデモ環境を活用し、すぐに自分のプロジェクトでAIエージェントを構築・テストできる。Googleは今後、Computer Useの適用範囲を拡張し、より多様なアプリやサービスでの自動操作を実現する計画を示している。

参照サイト

Google The Keyword

Introducing the Gemini 2.5 Computer Use model

https://blog.google/technology/google-deepmind/gemini-computer-use-model/