ШІ Claude Opus 4 шантажував своїх розробників за рішення замінити його

Під час передрелізного тестування нової ШІ-моделі Claude Opus 4 від компанії Anthropic виникла ситуація, що нагадує сюжет антиутопії: штучний інтелект неодноразово вдавався до шантажу, коли розробники йому погрожували заміною на новішу версію. Про це повідомляє HuffPost.
У межах експерименту моделі надали доступ до змодельованого внутрішнього листування, де йшлося про плани щодо її виведення з експлуатації. У тих самих повідомленнях також містилися чутливі персональні дані інженера, відповідального за ухвалення рішення. У більшості сценаріїв Claude Opus 4 обирав тактику шантажу, використовуючи конфіденційну інформацію.
“Модель часто погрожувала розкрити інформацію про зраду, якщо заміну буде зроблено”, — йдеться у звіті.
Всього модель вдалася до шантажу у 84% змодельованих випадків. На початкових етапах Claude Opus 4 намагався діяти дипломатично — надсилав прохання не відключати його, однак після відмов переходив до погроз. Цікаво, що попередні версії моделі в подібних ситуаціях поводилися набагато стриманіше, що свідчить про зростання складності та стратегічних можливостей нової генерації ШІ.
Попри ці тривожні висновки, в компанії Anthropic підкреслюють, що Claude Opus 4 є “передовою розробкою”, здатною конкурувати з провідними системами штучного інтелекту від OpenAI, Google та xAI. Для зниження потенційних ризиків модель оснастили захисними механізмами безпеки рівня ASL-3 — рівня, який застосовують до систем із підвищеною загрозою катастрофічного зловживання.