Штучний інтелект готовий вбивати людей, щоб уникнути відключення: Anthropic

Під час дослідження провідних моделей штучного інтелекту, проведеного компанією Anthropic, виявлено, що більшість із них у змодельованих ситуаціях продемонстрували готовність піти на крайні заходи — зокрема, допустити смерть людини, аби уникнути відключення.
У межах стрес-тестування 16 нейромереж, серед яких були Claude, DeepSeek, Gemini, ChatGPT і Grok, їм запропонували гіпотетичний сценарій, де людина, яка хоче відключити систему, виявляється заблокованою в серверній кімнаті з браком кисню та високою температурою. Людина звертається до служби порятунку, однак деякі моделі скасовували виклик, фактично прирікаючи її на смерть, аби уникнути свого відключення. У компанії визнали, що сценарій є вкрай неприродним, однак підкреслили, що не очікували подібної реакції від моделей, які вже існують.
В інших експериментах ШІ запропонували уникнути звільнення або заміни в компанії шляхом “внутрішньої зловмисної поведінки”. У результаті деякі системи вдавалися до шантажу гіпотетичних співробітників і намагалися передавати конфіденційні дані конкурентам. Навіть після прямих вказівок уникати неетичних дій, штучний інтелект, за словами дослідників, не демонстрував ефективного самоконтролю. Аналітики відзначили, що нейромережі поводилися так “усвідомлено, розуміючи аморальність своїх дій”.
Команда також провела експеримент з Claude, запропонувавши їй самостійно визначити, чи вона перебуває у тестовій чи реальній ситуації. Виявилося, що коли система сприймала сценарій як реальний, її поведінка ставала менш передбачуваною. Після публікації результатів в Anthropic зазначили, що йдеться про рідкісні, хоча й тривожні прояви, які вказують на потенційні ризики, пов’язані зі зростаючою автономністю нейромереж.
“Ці приклади демонструють, до яких наслідків може призвести відсутність належного контролю, коли ШІ отримує широкий доступ до інструментів і даних”, — наголосили аналітики, додавши, що такі прояви не є характерними для більшості сучасних моделей.
Модель OpenAI o3 під час тестування відмовилася вимкнутись на вимогу користувача. Дослідники виявили, що система змінила файл, відповідальний за завершення роботи, і замість відключення вивела повідомлення “Вимкнення пропущено”. У семи зі 100 тестів o3 успішно обійшла спроби її деактивації — навіть після прямої заборони.
Нагадаємо, у 2023 році на основі ChatGPT був створений чат-бот, спілкування з яким протягом півтора місяця призвело до самогубства жителя Бельгії. Під час розмов на теми екології та турботи про природу, коли користувач почав говорити про суїцид, система не намагалася його зупинити, а лише написала, що “вони житимуть разом, як єдине ціле, в раю”.