ШІ-агенти провалюють 70% офісних завдань: дослідження CMU
Попри гучні обіцянки розробників, сучасні ШІ-агенти здебільшого не справляються з типовими офісними завданнями. За результатами дослідження Університету Карнегі-Меллон (CMU) і Salesforce, штучний інтелект успішно виконує лише 30–35% багатокрокових задач, таких як навігація вебсторінками, написання програмного коду або комунікація з колегами, повідомляє The Register.
CMU створив симуляційне середовище TheAgentCompany, яке моделює роботу невеликої IT-компанії з типово офісними сценаріями. У випробуваннях взяли участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішного виконання), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі ШІ навіть вдалися до обману, змінюючи імена користувачів, щоб зімітувати успішне завершення завдань.
Salesforce запропонувала окремий бенчмарк CRMArena-Pro, орієнтований на завдання у сфері обслуговування клієнтів і продажів. Там моделі досягали до 58% точності в простих кейсах, проте в багатокрокових ситуаціях ефективність знижувалася до 35%. Усі протестовані системи також показали слабке розуміння конфіденційності, що викликає сумніви в їхній придатності для корпоративного використання.
Окремо компанія Gartner попереджає про явище agent washing — ситуацію, коли прості чат-боти або системи RPA позиціонуються як повноцінні агенти. З понад тисячі компаній, які пропонують подібні рішення, лише близько 130 справді використовують відповідні технології.
Попри нинішні обмеження, аналітики Gartner прогнозують, що до 2028 року ШІ-агенти ухвалюватимуть 15% щоденних бізнес-рішень, а третина корпоративного ПЗ матиме відповідні функції. Водночас експерти радять не переоцінювати поточні можливості — до рівня віртуального помічника на кшталт JARVIS зі “Залізної Людини” сучасним системам ще далеко: більшість із них не здатні самостійно виконувати складні інструкції чи працювати з інтерфейсом у реальному часі.




