OpenAIは、ユーザーのデバイスを操作し、タスクを自動化するためのエージェントソフトウェアの開発に取り組んでいると複数の海外メディアがます。この新しいアシスタントは、人間によるコマンドに基づいて個人的および業務上の複雑なタスクを実行できるように設計されており、緊密な監視を必要としません。このソフトウェアは、公開データの収集や旅程の作成、フライトチケットの予約など、ウェブベースのタスクを処理することを目的としています。
この取り組みの背景には、ChatGPTを「スーパースマートな個人アシスタント」に変えるというSam Altmanの願望があります。このアシスタントはテキスト入力、カーソル移動、さまざまなアプリケーションとの作業など、特定のタスクに焦点を当てる予定です。MicrosoftやGoogleがそれぞれのワークプレイスアプリのために初期形態のAIエージェントをリリースしていることから、この技術は労働者の生産性を向上させる可能性があるとされています。ただし、これらのプログラムは完璧ではなく、企業は従業員に対して、これらのプログラムを初心者のインターンのように扱うよう警告しています。
一方で、OpenAIが開発中の自律型AIアシスタントシステムは、ユーザーのデバイスを制御してタスクを実行する能力を持つことが報告されています。この将来の製品は、生成AIシステム(例:ChatGPTやGoogleのGemini)の次の論理的なステップとして、実世界の行動を実行するアクションエージェントに焦点を当てると考えられています。理論上、AIシステムは、スワイプ、タップ、クリック、ダブルクリック、タイピング、さらにはロボットではないことを証明するためのCAPTCHAパズルの解決など、人間が実行できる任意の物理的機能を実行できるようになります。しかし、この技術はプライバシーやセキュリティに関する課題を孕んでいます。
現在の最先端の生成AIシステムは離散的ではなく、巨大なクラウドコンピューティングセンターに接続する必要があります。完全にラップトップやスマートフォン上で実行可能なAI機能が存在するものの、想像されるAIアクションエージェントが単独のAIチップ上で実行可能であるとは考えにくいです。しかし、これはOpenAIがローカルでAIを実行することを示しているかもしれませんね。
参照元:REUTER YahooNews COINGRAPH
監修者のコメント:AIを使ってまとめました。一部独自見解を加えています