Google запускає нову модель Gemini 2.5 Computer Use, яка може взаємодіяти з браузером подібно до реального користувача
Google запускає нову модель Gemini 2.5 Computer Use, яка отримала можливість взаємодіяти з браузером подібно до реального користувача — натискати кнопки, прокручувати сторінки, вводити текст та виконувати інші дії, властиві людині. Така функціональність відкриває шлях до автоматизації завдань у середовищах, де немає API або де доступ до нього суворо обмежений.
Основою роботи моделі є поєднання візуального розпізнавання та логічного міркування, завдяки чому вона може виконувати складні інструкції користувача. Наприклад, Gemini 2.5 Computer Use здатна заповнити та надіслати онлайн-форму, провести тестування інтерфейсу чи взаємодіяти з вебресурсами, імітуючи дії людини. Подібні підходи Google вже випробовувала у своїх внутрішніх експериментах AI Mode та Project Mariner, але нова модель виводить їх на публічний рівень.
Gemini 2.5 демонструє перевагу над конкурентами у низці веб- і мобільних бенчмарків, що перевіряють здатність системи працювати з інтерфейсами. Вона підтримує 13 базових дій, серед яких відкриття вкладок, введення тексту у поля, перетягування об’єктів, навігація сторінками та інші. Важливо, що модель працює виключно через браузер і не має доступу до системного рівня операційної системи, що забезпечує додаткову безпеку.
Функціонал вже доступний розробникам через Google AI Studio та Vertex AI, що дозволяє інтегрувати можливості моделі у власні проєкти. Для широкої аудиторії компанія відкрила публічну демонстрацію на Browserbase, де користувачі можуть спостерігати, як Gemini 2.5 виконує різні завдання — від гри у “2048” до пошуку обговорень на платформі Hacker News.
Запуск Gemini 2.5 Computer Use означає суттєвий крок вперед у розвитку інструментів взаємодії штучного інтелекту з цифровим середовищем, оскільки модель поєднує гнучкість людських дій з швидкістю та точністю машинного виконання.




