ЕС и мир

Google запускает новую модель Gemini 2.5 Computer Use, которая может взаимодействовать с браузером подобно реальному пользователю

Google

Основной работы модели является сочетание визуального распознавания и логического соображения, благодаря чему она может выполнять сложные инструкции пользователя. Например, Gemini 2.5 Computer Use способна заполнить и отправить онлайн-форму, провести тестирование интерфейса или взаимодействовать с веб-ресурсами, имитируя действия человека. Подобные подходы Google уже испробовала в своих внутренних экспериментах AI Mode и Project Mariner, но новая модель выводит их на публичный уровень.

Gemini 2.5 демонстрирует преимущество над конкурентами в ряде веб- и мобильных бенчмарков, проверяющих способность системы работать с интерфейсами. Она поддерживает 13 базовых действий, включая открытие вкладок, ввод текста в поля, перетаскивание объектов, навигацию страниц и другие. Важно, что модель работает исключительно через браузер и не имеет доступа к системному уровню операционной системы, что обеспечивает дополнительную безопасность.

Функционал уже доступен разработчикам через Google AI Studio и Vertex AI, что позволяет интегрировать возможности модели в собственные проекты. Для широкой аудитории компания открыла публичную демонстрацию на Browserbase, где пользователи могут наблюдать, как Gemini 2.5 выполняет различные задачи — от игры в “2048” для поиска обсуждений на платформе Hacker News.

Запуск Gemini 2.5 Computer Use означает существенный шаг вперед в развитии инструментов взаимодействия искусственного интеллекта с цифровой средой, поскольку модель сочетает гибкость человеческих действий со скоростью и точностью машинного исполнения.

ПОСМОТРИТЕ ЕЩЕ:  ППК "Вагнер" обвиняют в каннибализме в Африке

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Похожие статьи

Вернуться к началу