ШІ-агенти провалюють 70% офісних завдань: дослідження CMU

Alexander01.07.2025

0 266 1 хвилина читання

Попри гучні обіцянки розробників, сучасні ШІ-агенти здебільшого не справляються з типовими офісними завданнями. За результатами дослідження Університету Карнегі-Меллон (CMU) і Salesforce, штучний інтелект успішно виконує лише 30–35% багатокрокових задач, таких як навігація вебсторінками, написання програмного коду або комунікація з колегами, повідомляє The Register.

CMU створив симуляційне середовище TheAgentCompany, яке моделює роботу невеликої IT-компанії з типово офісними сценаріями. У випробуваннях взяли участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішного виконання), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі ШІ навіть вдалися до обману, змінюючи імена користувачів, щоб зімітувати успішне завершення завдань.

Salesforce запропонувала окремий бенчмарк CRMArena-Pro, орієнтований на завдання у сфері обслуговування клієнтів і продажів. Там моделі досягали до 58% точності в простих кейсах, проте в багатокрокових ситуаціях ефективність знижувалася до 35%. Усі протестовані системи також показали слабке розуміння конфіденційності, що викликає сумніви в їхній придатності для корпоративного використання.

Окремо компанія Gartner попереджає про явище agent washing — ситуацію, коли прості чат-боти або системи RPA позиціонуються як повноцінні агенти. З понад тисячі компаній, які пропонують подібні рішення, лише близько 130 справді використовують відповідні технології.

Попри нинішні обмеження, аналітики Gartner прогнозують, що до 2028 року ШІ-агенти ухвалюватимуть 15% щоденних бізнес-рішень, а третина корпоративного ПЗ матиме відповідні функції. Водночас експерти радять не переоцінювати поточні можливості — до рівня віртуального помічника на кшталт JARVIS зі “Залізної Людини” сучасним системам ще далеко: більшість із них не здатні самостійно виконувати складні інструкції чи працювати з інтерфейсом у реальному часі.

ПОДИВІТЬСЯ ЩЕ: У РФ заявили про масовану атаку на її 11 областей

Alexander01.07.2025

0 266 1 хвилина читання

Alexander

Залишити відповідь Скасувати коментар

Схожі статті

До кінця сторіччя населення Європи значно скоротиться: українців поменшає на 61%

Золото вперше в історії подорожчало до $4000 за унцію

СБУ та ФБР викрили хакерську атаку РФ на месенджери посадовців в Україні, Європі та США

Найстаріший марафонець світу загинув у віці 114 років