
Googleの大規模言語モデル「Gemini 3.5 Flash」について、新たな情報が出ています。
Googleは、Gemini 3.5 Flashにおいて、コンピューター操作を行う「Computer Use」が組み込みツールとしてサポートされたことを発表しました。
これまでのGeminiにおけるコンピューター操作能力
これまでGeminiでは、Gemini 2.5 computer use modelとして、コンピューター操作向けのモデルが提供されていました。
また、Geminiは関数呼び出しやGoogle検索、Googleマップによるグラウンディングなどの組み込みツール利用にも対応しており、今回のGemini 3.5 Flashでは、Computer UseがFlashモデル本体に統合された形となります。
Gemini 3.5 FlashにおけるComputer Useの概要
今回の対応により、開発者はGemini 3.5 Flashを利用して、ブラウザ、モバイル、デスクトップ環境において、画面を認識し、推論し、クリックや入力などの操作を実行するカスタムエージェントを構築しやすくなります。
これにより、継続的なソフトウェアテストや、プロフェッショナルアプリケーションをまたいだナレッジワークなど、長期的なエンタープライズ向け自動化タスクでの活用が期待されます。
また、開発者や企業はGemini APIおよびGemini Enterprise Agent Platformを通じて、Gemini 3.5 FlashでのComputer Useを利用できます。
なお、Computer Useは画面操作を伴う機能であるため、Googleは重要な操作における人間の確認、サンドボックス化、アクセス制御などを推奨しています。
情報元
Introducing computer use in Gemini 3.5 Flash(Google公式ブログ「The Keyword」より画像引用)