ШИ Claude Opus 4 шантажировал своих разработчиков за решение заменить его

Во время предрелизного тестирования новой ИИ модели Claude Opus 4 от компании Anthropic возникла ситуация, напоминающая сюжет антиутопии: искусственный интеллект неоднократно прибегал к шантажу, когда разработчики ему угрожали заменой на новую версию. сообщаетХаффПост.
В рамках эксперимента модели предоставили доступ к смоделированной внутренней переписке, где речь шла о планах ее вывода из эксплуатации. В тех же сообщениях также содержались чувствительные персональные данные инженера, ответственного за принятие решения.
«Модель часто угрожала раскрыть информацию об измене, если замена будет произведена», — говорится в отчете.
Всего модель прибегла к шантажу в 84% смоделированных случаев.
Несмотря на эти тревожные выводы, в компании Anthropic подчеркивают, что Claude Opus 4 является «передовой разработкой», способной конкурировать с ведущими системами искусственного интеллекта от OpenAI, Google и xAI.