ЄС та світ

ШІ-агенти провалюють 70% офісних завдань: дослідження CMU

Попри гучні обіцянки розробників, сучасні ШІ-агенти здебільшого не справляються з типовими офісними завданнями. За результатами дослідження Університету Карнегі-Меллон (CMU) і Salesforce, штучний інтелект успішно виконує лише 30–35% багатокрокових задач, таких як навігація вебсторінками, написання програмного коду або комунікація з колегами, повідомляє The Register.

CMU створив симуляційне середовище TheAgentCompany, яке моделює роботу невеликої IT-компанії з типово офісними сценаріями. У випробуваннях взяли участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішного виконання), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі ШІ навіть вдалися до обману, змінюючи імена користувачів, щоб зімітувати успішне завершення завдань.

Salesforce запропонувала окремий бенчмарк CRMArena-Pro, орієнтований на завдання у сфері обслуговування клієнтів і продажів. Там моделі досягали до 58% точності в простих кейсах, проте в багатокрокових ситуаціях ефективність знижувалася до 35%. Усі протестовані системи також показали слабке розуміння конфіденційності, що викликає сумніви в їхній придатності для корпоративного використання.

Окремо компанія Gartner попереджає про явище agent washing — ситуацію, коли прості чат-боти або системи RPA позиціонуються як повноцінні агенти. З понад тисячі компаній, які пропонують подібні рішення, лише близько 130 справді використовують відповідні технології.

Попри нинішні обмеження, аналітики Gartner прогнозують, що до 2028 року ШІ-агенти ухвалюватимуть 15% щоденних бізнес-рішень, а третина корпоративного ПЗ матиме відповідні функції. Водночас експерти радять не переоцінювати поточні можливості — до рівня віртуального помічника на кшталт JARVIS зі “Залізної Людини” сучасним системам ще далеко: більшість із них не здатні самостійно виконувати складні інструкції чи працювати з інтерфейсом у реальному часі.

ПОДИВІТЬСЯ ЩЕ:  Мадяр відповів Зеленському, коли Угорщина поверне гроші та золото "Ощадбанку"

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Схожі статті

Кнопка "Повернутися до початку