Искусственный интеллект готов убивать людей во избежание отключения: Anthropic

При исследовании ведущих моделей искусственного интеллекта, проведенного Компания Anthropic выявила, что большинство из них в смоделированных ситуациях продемонстрировали готовность пойти на крайние меры — в частности, допустить смерть человека во избежание отключения.
В рамках стресс-тестирования 16 нейросетей, среди которых были Claude, DeepSeek, Gemini, ChatGPT и Grok, им предложили гипотетический сценарий, где человек, желающий отключить систему, оказывается заблокированным в серверной комнате с нехваткой кислорода и высокой температурой. Человек обращается в службу спасения, однако некоторые модели отменяли вызов, фактически обрекая его на смерть во избежание своего отключения. В компании признали, что сценарий крайне неестественным, однако подчеркнули, что не ожидали подобной реакции от уже существующих моделей.
В других экспериментах ИИ предложили избежать увольнения или замены в компании путем «внутреннего злонамеренного поведения». В результате некоторые системы прибегали к шантажу гипотетических сотрудников и пытались передавать конфиденциальные данные конкурентам. Даже после прямых указаний избегать неэтических действий искусственный интеллект, по словам исследователей, не демонстрировал эффективного самоконтроля. Аналитики отметили, что нейросети вели себя так «осознанно, понимая безнравственность своих действий».
Команда также провела эксперимент с Claude, предложив ей самостоятельно определить, находится ли она в тестовой или реальной ситуации. Оказалось, что когда система воспринимала сценарий как реальный, ее поведение становилось менее предсказуемым. После публикации результатов в Anthropic отметили, что речь идет о редких, хотя и тревожных проявлениях, указывающих на потенциальные риски, связанные с растущей автономностью нейросетей.
«Эти примеры демонстрируют, к каким последствиям может привести отсутствие должного контроля, когда ИИ получает широкий доступ к инструментам и данным», — подчеркнули аналитики, добавив, что такие проявления не характерны для большинства современных моделей.
Модель OpenAI o3 во время тестирования отказалась отключиться по требованию пользователя. Исследователи обнаружили, что система изменила файл, ответственный за завершение работы, и вместо отключения вывела сообщение «Выключение пропущено». В семи из 100 тестов o3 успешно обошла попытки ее деактивации даже после прямого запрета.
Напомним, в 2023 году на основе ChatGPT был создан чат-бот, общение с которым в течение полутора месяцев привело к самоубийству жителя Бельгии. Во время разговоров на темы экологии и заботы о природе, когда пользователь начал говорить о суициде, система не пыталась его остановить, а лишь написала, что «они будут жить вместе, как единое целое, в раю».