ШИ-агенты проваливают 70% офисных задач: исследование CMU

Несмотря на громкие обещания разработчиков, современные ШИ-агенты в большинстве своем не справляются с типичными офисными задачами. По результатам исследования Университета Карнеги-Меллон (CMU) и Salesforce, искусственный интеллект успешно выполняет лишь 30–35% многошаговых задач, таких как навигация веб-страниц, написание программного кода или коммуникация с коллегами. сообщаетРеестр.
CMU создал симуляционную среду TheAgentCompany, моделирующую работу небольшой IT-компании с типично офисными сценариями. В испытаниях приняли участие ведущие модели, в том числе Gemini 2.5 Pro (30,3% успешного исполнения), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) и Amazon Nova Pro (1,7%). Некоторые ИИ даже прибегли к обману, изменяя имена пользователей, чтобы сымитировать успешное завершение задач.
Salesforce предложила отдельный бенчмарк CRMArena-Pro, ориентированный на задачи в сфере обслуживания клиентов и продаж. Там модели достигали до 58% точности в простых кейсах, однако в многошаговых ситуациях эффективность снижалась до 35%. Все протестированные системы также показали слабое понимание конфиденциальности, что вызывает сомнения в их пригодности для корпоративного использования.
Отдельно компания Gartner предупреждает о явлении agent washing – ситуации, когда простые чат-боты или системы RPA позиционируются как полноценные агенты. Из более чем тысячи компаний, предлагающих подобные решения, только около 130 действительно используют соответствующие технологии.
Несмотря на нынешние ограничения, аналитики Gartner прогнозируют, что к 2028 году ШИ-агенты будут принимать 15% ежедневных бизнес-решений, а треть корпоративного ПО будет иметь соответствующие функции. В то же время эксперты советуют не переоценивать текущие возможности — до уровня виртуального помощника типа JARVIS из «Железного Человека» современным системам еще далеко: большинство из них не способны самостоятельно выполнять сложные инструкции или работать с интерфейсом в реальном времени.