社内SEゆうきの徒然日記

社内SE歴20年以上の経験からIT全般についてつぶやきます

【未来の働き方】Googleの新AI「Gemini 2.5 Computer Use」がヤバい!面倒なPC作業は全部AIにお任せの時代へ

アイデア次第で色々できそう・・・webediで受発注データ取りいって、自社の注文システムに入れたり。。。googleスプレッドシートとも連携できるのかな サイトのデータ見に行ってgoogleスプレッドシート≓EXCELのシートにデータ打ち込んだり・・・

RPA (MS Power Automate等の進化版になるかも)

 

gigazine.net

 

あなたの隣に、超有能なデジタルアシスタントがやってきた

 

金曜日の午後、あなたは複数のウェブサイトから顧客の名前とメールアドレスを一つのスプレッドシートに手作業でコピーしている…そんな光景を想像してみてください。退屈で、ミスも起こりやすく、貴重な時間の無駄遣いです。もし、あなたの画面を見て、たった一言の指示でその作業をすべて肩代わりしてくれる、超賢いアシスタントがいたらどうでしょう?

その夢のような話が、ついに現実のものとなりました。Googleが発表した新技術「Gemini 2.5 Computer Use」は、まさにその答えです。これは単なるチャットボットではありません。人間のようにウェブブラウザを能動的に「操作」できる、革命的なAIなのです 1

この記事では、この画期的な技術が一体何なのかを分かりやすく解説し、あなたの仕事や生活を激変させる可能性を秘めた驚くべき具体例を紹介します。そして、これが私たちのコンピュータとの関わり方、ひいては働き方そのものを、いかに根本から変えていくのかを探っていきます 2

この技術の登場は、AIが単なる「情報提供者」から、実際にタスクをこなす「実行者」へと進化する、重大な転換点を示しています。これまでAIは、質問に答えたり、文章を作成したりと、情報を提供することが主な役割でした。しかし、その情報を元に実際に行動を起こすのは、常に人間の役目でした。Gemini 2.5 Computer Useは、この境界線を越え、AIが自らグラフィカルユーザーインターフェース(GUI)上で一連の「行動」を起こし、目標を達成することを可能にします 2。これは、もはやAIが仕事について語るだけでなく、実際に仕事を「こなす」デジタルな同僚の第一歩と言えるでしょう。

 

Gemini 2.5 Computer Useとは? あなた専属の「デジタルインターン」を徹底解説

 

Gemini 2.5 Computer Useを最もシンプルに説明するなら、「あなたのPC画面を見て、そこに何が映っているかを理解し、指示されたタスクを完了するために、クリック、タイピング、スクロールといった操作を自動で行う専門AIモデル」です 3

この概念をより深く理解するために、「完璧なインターン」という例えが役立ちます。複雑なコードを書く必要はありません。ただ平易な言葉で指示を出すだけです。「このリストからカリフォルニア在住のペットオーナーを探し出して、うちのスパの予約システムに登録しておいて」と頼めば、AIは人間と同じように画面を見て、必要な手順を自ら考え、実行に移します 1

この驚異的な能力は、Googleの最先端AIモデルである「Gemini 2.5 Pro」が持つ高度な視覚的理解力と推論能力を基盤としています 1。これは単独の製品ではなく、既存の強力なAIに新たな「手足」を与える機能であり、現在、開発者向けにGoogle AI StudioやVertex AIといったプラットフォームを通じてプレビュー版が提供されています 1

 

理論から現実へ:すべてを変える実践的な活用事例

 

このAIの真価は、具体的な活用事例を見ることで最もよく理解できます。Googleが公開した公式デモは、その驚くべき能力を雄弁に物語っています。

 

活用事例1:複数サイトを横断するワークフロー自動化(ペットスパのデモ)

 

  • タスクの内容:ユーザーはAIに対し、あるウェブサイトから見込み客のリストを取得し、特定の地域(カリフォルニア)の顧客を特定した後、全く別のウェブサイト(顧客管理システム)に移動して、彼らの情報を入力し、予約を入れるよう指示します 5
  • これがなぜ凄いのか:このデモは、事前にプログラムされた連携(API)なしに、複数の無関係なウェブアプリケーションを横断して複雑な多段階プロセスを実行できる能力を示しています。データの抽出、入力、そしてナビゲーションという一連の作業を、AIが自律的にこなしているのです。

 

活用事例2:視覚的な整理タスク(付箋のデモ)

 

  • タスクの内容:ユーザーはAIに、無数のデジタル付箋でごちゃごちゃになったホワイトボードを見せ、それらを所定のカテゴリにドラッグ&ドロップで整理するように頼みます 1
  • これがなぜ凄いのか:これはAIの強力な視覚的理解力を浮き彫りにします。単にテキストを読んでいるのではありません。ウェブページのレイアウトを解釈し、個々の視覚要素(付箋)を識別し、その内容を理解した上で、ドラッグ&ドロップという物理的な操作に近いアクションを実行しているのです。

これらのデモは氷山の一角に過ぎません。この技術は、私たちの日常やビジネスに無限の可能性をもたらします。

 

個人の生産性向上に

 

  • 旅行の自動計画:「12月の第2週で東京から札幌への最も評価の高いフライトを探して。その後、市内中心部近くで一泊2万円以下のホテルを3つ見つけて、選択肢をスプレッドシートにまとめて。」
  • スマートショッピング:「この特定のカメラの価格をAmazon、楽天、ヨドバシカメラで比較して、送料込みで一番お得なのはどれか教えて。」
  • 物件探し:「SUUMOで渋谷駅から徒歩15分以内、家賃15万円以下の1LDK物件を検索して、上位5件のリンクを保存して。」

 

ビジネスオペレーションの効率化に

 

  • リードジェネレーション:「この業界ディレクトリサイトに行って、『ソフトウェア開発』カテゴリの全企業をリストアップし、会社名、ウェブサイト、連絡先メールアドレスを抽出してCSVファイルにまとめて。」 4
  • 市場調査:「競合上位5社のウェブサイトを訪問し、『プロプラン』の価格情報を収集して。各価格帯で提供される主要な機能を要約して。」
  • UIテストの自動化:開発者は「うちのウェブサイトのチェックアウトプロセスを実行して、『注文完了』ページが正しく表示されるか確認して」と指示するだけでテストが可能です。Google自身のチームも、この技術で開発速度を大幅に向上させています 1
  • レポート作成:「営業ダッシュボードにログインして、前四半期の売上データを取得し、その要約を週次レポートのテンプレートに貼り付けて。」

この技術がもたらす最も根源的な変化は、これまでデジタルオートメーションの前提であったAPI(アプリケーション・プログラミング・インターフェース)の必要性を覆す点にあります。何十年もの間、異なるプログラム同士を連携させる自動化は、このAPIという構造化された「対話方法」に依存してきました 2。APIを持たないサービス、特に大企業が抱える古い社内システムなどは、自動化が非常に困難でした。しかし、Gemini 2.5 Computer Useは、人間が使う画面そのもの(GUI)をインターフェースとして利用します 12。これにより、APIを持たない膨大な数のウェブサイトや社内ツールが、瞬時に「自動化可能」になるのです。これは、特に古いソフトウェアを抱える大企業にとって、生産性を劇的に解放する可能性を秘めています。

 

真の革命:従来のRPAとは「格が違う」理由

 

これまで企業では、RPA(Robotic Process Automation)と呼ばれる技術が業務自動化に利用されてきました。これは、あらかじめ記録されたクリックやキー入力の厳密なスクリプトを再生する、単純なロボットのようなものです。「座標(540, 320)をクリックし、『Hello World』と入力せよ」といった具合です 13

しかし、RPAには致命的な弱点があります。それは「脆さ」です。ウェブサイトのデザインが少しでも変わると、例えばボタンの位置がずれたり、フィールド名が変更されたりするだけで、RPAのスクリプトは完全に機能しなくなります。まるで、誰かがドアの位置を動かしたために、壁にぶつかり続けるロボットのようです 13

Gemini 2.5 Computer Useは、根本的に異なります。固定された座標に依存しません。ページの「文脈」を理解するのです。「送信ボタンをクリックして」と指示すれば、たとえそのボタンの位置や色が変わっても、それが「送信ボタン」であると認識してクリックします。人間のように、変化に対して柔軟かつ適応的なのです 2

特徴

RPA (ロボティック・プロセス・オートメーション)

Gemini 2.5 Computer Use (AIエージェント)

中核知能

ルールベース(厳密なスクリプトに従う)

AI駆動(文脈と目標を理解する)

適応性

低い(脆い)。 UIの変更で機能停止する。

高い(強靭)。 UIの変更に適応する。

タスクの複雑さ

単純、反復的、大量のタスク。

複雑、動的、多段階のワークフロー。

設定と保守

開発者による脆弱なスクリプトの作成と継続的な保守が必要。

自然言語で指示。保守の手間が少ない。

認知能力

なし。指示を文字通りに実行するのみ。

ユーザーの「意図」を理解し、自ら行動を計画する。

 

舞台裏を覗き見:その仕組みとは?

 

この魔法のような技術は、「エージェント・ループ」と呼ばれるシンプルなプロセスで動いています。

  1. 見る (Observe):AIはあなたの指示を受け取り、現在のウェブページの「スクリーンショット」を撮ります。
  2. 考える (Decide):あなたの目標と画面に映っているものを基に、AIは次に行うべき論理的なアクションを決定します(例:「『ログイン』ボタンをクリックする必要がある」)。
  3. 実行する (Execute):AIはclick_at(x, y)のようなコマンドを生成し、それがブラウザ上で実行されます。
  4. 繰り返す (Repeat):アクションの後、AIは新しいスクリーンショットを撮り、あなたのタスクが完了するまでこのループを繰り返します 2

このAIは、単にクリックやタイピングができるだけではありません。スクロール、マウスのホバー、キーボードショートカット(Ctrl+Cなど)の使用、アイテムのドラッグ&ドロップ、新しいURLへの移動など、人間のような幅広いアクションを実行できます 1

 

より大きな視点:「デジタルな同僚」の時代へようこそ

 

この技術がもたらす影響は、単なる効率化にとどまりません。これは、人間の仕事を奪うのではなく、人間を拡張するためのものです。反復的なデジタル雑務という、私たちの仕事の「ロボット的な」部分をなくし、人間が最も得意とする戦略、創造性、複雑な問題解決に集中できるようにするのです 2

AIエージェント開発競争において、Googleは意図的かつ的を絞ったアプローチを取っています。OpenAIのような競合他社がPC全体の制御を目指す中、Googleはまず、私たちのデジタル作業の大半が行われるブラウザ体験の完成度を高めることに注力しています。これにより、一般的なタスクに対してより速く、信頼性が高く、安全なツールを生み出しているのです 15

この「ブラウザ限定」というアプローチは、単なる技術的な制約ではなく、Googleの最大の強みであるChromeブラウザ市場での支配力を活かした戦略的な選択です。PC全体を制御するエージェントは、WindowsやmacOSなど、異なるOS間での膨大なセキュリティや互換性の課題に直面します 18。一方、Googleは自らが開発するChromeという環境を完全にコントロールできます。これにより、将来的にはどの競合他社も達成できないような、より深く、シームレスで、安全な統合が可能になります。つまり、この「制限」は、実際には世界で最も人気のあるブラウザを通じてAIエージェント分野をリードするための、強力な戦略的基盤となっているのです。

 

心に留めておくべきこと:現在の限界と安全対策

 

この技術の可能性に胸を躍らせる一方で、現実的な視点を持つことも重要です。

 

現状の限界

 

  • ブラウザ限定:現時点では、Gemini 2.5 Computer Useはあなたのウェブアシスタントです。デスクトップ上のファイルを整理したり、PhotoshopやExcelのようなネイティブアプリを操作したりすることはできません 1
  • 複雑さの壁:非常に強力ですが、極端に複雑なタスクや未知のインターフェースに対しては、人間のインターンが戸惑うように、失敗することもあります 5
  • APIは有料:他のGeminiモデルには無料枠がありますが、Computer UseのAPIへのアクセスは、開発者向けに当初から有料サービスとして提供されています 15

 

組み込まれた安全性

 

「AIに自分のPCを操作させて大丈夫なのか?」という懸念は当然です。Googleは、この点に細心の注意を払っています。

  • 人間の承認:購入の確定や個人情報の送信といった機密性の高い操作については、AIが自動で実行するのではなく、一旦停止してユーザーに明確な承認を求めるように設計されています 4
  • サンドボックス環境:ブラウザ限定アプローチの重要な安全上の利点は、AIが「サンドボックス化」されていることです。AIの行動はブラウザのタブ内に限定され、PCの基盤となるOSにアクセスしたり干渉したりすることを防ぎます 19
  • 多層的な保護:Googleは、有害なリクエストを拒否するようにモデルを訓練し、プロンプトインジェクション攻撃のようなリスクを軽減するための多層的なセキュリティメカニズムを実装しています 3

 

結論:より賢い働き方の時代に備えよう

 

GoogleのGemini 2.5 Computer Useは、単なる進化ではなく、自動化における革命です。AIにウェブブラウザ内での「視覚」と「行動」の能力を与えることで、AIは受動的なアシスタントから能動的なパートナーへと変貌を遂げます。

退屈なデジタル雑務の時代は終わりを告げようとしています。あなたの新しいデジタルな同僚にタスクを委任し、自動化し、協力する準備をしましょう。未来の働き方は、より懸命に働くことではなく、より賢く働くことです。そして、Geminiはその道筋を示してくれています。

 

よくある質問 (Q&A)

 

  1. Q: Gemini 2.5 Computer Useって、簡単に言うと何ですか?
    A: あなたの代わりにウェブブラウザを操作してくれる新しいGoogleのAIです。平易な言葉でタスクを指示すると、AIが仮想的にマウスやキーボードを操作して、ウェブサイトのクリックや文字入力、ページ移動などを行い、仕事を完了させてくれます。まるで専属のデジタルアシスタントです。
  2. Q: 普通のChatGPTやGeminiとはどう違うのですか?
    A: 通常のチャットボットは情報(テキスト、コード、アイデア)を提供します。一方、Gemini 2.5 Computer Useは「行動」します。航空券の予約方法を教えるだけでなく、実際に航空会社のウェブサイトに行って予約フォームをあなたに代わって入力することができるのです。
  3. Q: 無料で使えますか?
    A: 現在、この機能は開発者や企業向けに有料のAPI(Google AI StudioとVertex AI)を通じて提供されており、無料枠はありません 15。将来的にはこの技術を基盤とした消費者向け機能が登場する可能性はありますが、現時点でカスタムエージェントを構築するための直接的なアクセスは有料です。
  4. Q: どんなことに使うのが一番効果的ですか?
    A: ウェブ上での反復的なタスクの自動化に非常に優れています。例えば、複数のサイトから情報を収集するリサーチ作業、ウェブページからスプレッドシートへのデータ転記、長いフォームへの入力、ウェブサイトの機能テストなどが挙げられます。
  5. Q: 個人情報や金融情報を使っても安全ですか?
    A: Googleは重要な安全機能を組み込んでいます。AIは「サンドボックス化」されたブラウザ環境で動作し、購入のような機密性の高い操作を行う前には、処理を停止してユーザーの許可を求めるように設計されています 4。
  6. Q: Windows PCやMacでも動きますか?
    A: はい、ChromeやFirefoxなどのウェブブラウザ内で動作するため、お使いのPCのOSには依存しません。ただし、現時点ではデスクトップアプリの起動やファイルの管理といったOS自体の操作はできません 1。
  7. Q: このようなAIは仕事を奪うことになりませんか?
    A: この技術の目的は、人間を置き換えることではなく、人間の能力を拡張することです。仕事における退屈で反復的な部分をAIが担うことで、人間はより創造的で戦略的な、高度な思考を要する価値の高いタスクに集中できるようになります。
  8. Q: RPAという言葉を聞いたことがありますが、それより凄いのですか?
    A: 従来のRPAは、厳密なスクリプトに従うだけの単純なロボットのようなもので、ウェブサイトのレイアウトが変わるとすぐに機能しなくなります。Gemini 2.5 Computer Useは、ページの「意味」を理解する知的なエージェントなので、デザインの変更にも適応できます。そのため、はるかに強靭で多機能です 13。
  9. Q: 現時点での最大の限界は何ですか?
    A: 主な限界は、活動範囲がウェブブラウザ内に限定されていること(デスクトップ操作はまだ不可)、非常に複雑なタスクや未知のタスクではまだ失敗することがあること、そして開発者向けのアクセスが有料であることです 1。
  10. Q: 素晴らしいですね!実際に動いているところを見たり、試したりできますか?
    A: Googleは、その能力を示すデモ動画をいくつか公開しています。技術的なスキルがある方向けには、Google AI StudioやVertex AIのGemini APIを通じてプレビュー版が提供されています。また、Browserbaseがホストする公開デモ環境で、実際に動作する様子を見ることもできます 5。

引用文献

  1. Google debuts Gemini 2.5 Computer Use, an AI model with human-like web browsing skills, 10月 8, 2025にアクセス、 https://indianexpress.com/article/technology/artificial-intelligence/google-gemini-2-5-computer-use-ai-web-browsing-10294196/
  2. Gemini 2.5 Computer Use model explained: Google's AI agent to ..., 10月 8, 2025にアクセス、 https://www.digit.in/features/general/gemini-25-computer-use-model-explained-googles-ai-agent-to-navigate-interfaces.html
  3. Gemini 2.5 Computer Use - Model Card - Googleapis.com, 10月 8, 2025にアクセス、 https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf
  4. Computer Use model and tool | Generative AI on Vertex AI - Google Cloud, 10月 8, 2025にアクセス、 https://cloud.google.com/vertex-ai/generative-ai/docs/computer-use
  5. Google Enters CUA Battlefield, Releases Gemini 2.5 for Computer Use: Empowering AI to Directly Operate Browsers - 36氪, 10月 8, 2025にアクセス、 https://eu.36kr.com/en/p/3499977975339904
  6. Gemini 2.5 Computer Use Model: A Paradigm Shift in AI's Digital Dexterity, 10月 8, 2025にアクセス、 https://markets.financialcontent.com/stocks/article/tokenring-2025-10-7-gemini-25-computer-use-model-a-paradigm-shift-in-ais-digital-dexterity
  7. Google launches Gemini 2.5 Computer Use Model - AIxFunda - Substack, 10月 8, 2025にアクセス、 https://aixfunda.substack.com/p/google-launches-gemini-25-computer
  8. Introducing the Gemini 2.5 Computer Use model - Google Blog, 10月 8, 2025にアクセス、 https://blog.google/technology/google-deepmind/gemini-computer-use-model/
  9. Is Gemini 2.5 Computer Use Model the Future of AI-Driven Interface Control? - Apidog, 10月 8, 2025にアクセス、 https://apidog.com/blog/gemini-2-5-computer-use-model/
  10. Computer Use | Gemini API | Google AI for Developers, 10月 8, 2025にアクセス、 https://ai.google.dev/gemini-api/docs/computer-use
  11. Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do, 10月 8, 2025にアクセス、 https://timesofindia.indiatimes.com/technology/tech-news/google-announces-gemini-2-5-computer-use-ai-model-that-can-control-web-browsers-like-humans-do/articleshow/124383081.cms
  12. Revolutionary Breakthrough: Gemini 2.5 Computer Use Empowers Next-Gen Digital Hands, 10月 8, 2025にアクセス、 https://techgenyz.com/revolutionary-breakthrough-gemini-2-5-computer-use/
  13. RPA vs. computer AI agents · Tallyfy Pro, 10月 8, 2025にアクセス、 https://tallyfy.com/products/pro/integrations/computer-ai-agents/rpa-vs-computer-use-agents/
  14. Google Unveils Gemini 2.5 'Computer Use' API for Next-Gen Automated UI Control - The Rift, 10月 8, 2025にアクセス、 https://www.therift.ai/news-feed/google-unveils-gemini-2-5-computer-use-api-for-next-gen-automated-ui-control
  15. Google's Gemini 2.5 Computer Use model can navigate the web like a human, 10月 8, 2025にアクセス、 https://siliconangle.com/2025/10/07/googles-gemini-2-5-computer-use-model-can-navigate-web-like-human/
  16. 'Gemini 2.5 Computer Use' model enters preview with strong web, Android performance, 10月 8, 2025にアクセス、 https://9to5google.com/2025/10/07/gemini-2-5-computer-use-model/
  17. 2025 Complete Guide: Gemini 2.5 Computer Use Model - Revolutionary Breakthrough in AI Agent Interface Control, 10月 8, 2025にアクセス、 https://dev.to/czmilo/2025-complete-guide-gemini-25-computer-use-model-revolutionary-breakthrough-in-ai-agent-133
  18. Google launches Gemini 2.5 Computer Use to rival OpenAI agents - The Tech Buzz, 10月 8, 2025にアクセス、 https://www.techbuzz.ai/articles/google-launches-gemini-2-5-computer-use-to-rival-openai-agents
  19. Gemini 2.5 New Computer Use on AI Browse Like Human - Linkdood Technologies, 10月 8, 2025にアクセス、 https://linkdood.com/gemini-2-5-new-computer-use-on-ai-browse-like-human/
  20. Gemini 2.5: Our most intelligent models are getting even better - Google Blog, 10月 8, 2025にアクセス、 https://blog.google/technology/google-deepmind/google-gemini-updates-io-2025/
  21.  
にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村 IT技術ブログ セキュリティ・暗号化へ
.