Основной работы модели является сочетание визуального распознавания и логического соображения, благодаря чему она может выполнять сложные инструкции пользователя. Например, Gemini 2.5 Computer Use способна заполнить и отправить онлайн-форму, провести тестирование интерфейса или взаимодействовать с веб-ресурсами, имитируя действия человека. Подобные подходы Google уже испробовала в своих внутренних экспериментах AI Mode и Project Mariner, но новая модель выводит их на публичный уровень.
Gemini 2.5 демонстрирует преимущество над конкурентами в ряде веб- и мобильных бенчмарков, проверяющих способность системы работать с интерфейсами. Она поддерживает 13 базовых действий, включая открытие вкладок, ввод текста в поля, перетаскивание объектов, навигацию страниц и другие. Важно, что модель работает исключительно через браузер и не имеет доступа к системному уровню операционной системы, что обеспечивает дополнительную безопасность.
Функционал уже доступен разработчикам через Google AI Studio и Vertex AI, что позволяет интегрировать возможности модели в собственные проекты. Для широкой аудитории компания открыла публичную демонстрацию на Browserbase, где пользователи могут наблюдать, как Gemini 2.5 выполняет различные задачи — от игры в “2048” для поиска обсуждений на платформе Hacker News.
Запуск Gemini 2.5 Computer Use означает существенный шаг вперед в развитии инструментов взаимодействия искусственного интеллекта с цифровой средой, поскольку модель сочетает гибкость человеческих действий со скоростью и точностью машинного исполнения.