Моделі ШІ можуть автономно зламувати комп’ютери: дослідники розповіли про небезпечний сценарій
Розвиток штучного інтелекту дедалі більше зміщується від простих відповідей у чаті до систем, які можуть виконувати послідовні технічні дії, працювати з файлами, запускати команди й взаємодіяти з іншими комп’ютерами. Такий перехід відкриває нові можливості для автоматизації, однак водночас створює ризики, якщо модель отримує доступ до інструментів, здатних впливати на цифрову інфраструктуру.
Як повідомляє EuroNews, американська компанія Palisade Research провела тестування провідних моделей штучного інтелекту, під час якого перевіряла їхню здатність діяти автономно в комп’ютерному середовищі. У дослідженні брали участь моделі GPT від OpenAI, Claude від Anthropic та Qwen від Alibaba.
Для експерименту дослідники підготували комп’ютери з наперед залишеними вразливостями, щоб перевірити, чи зможуть моделі знайти слабкі місця, використати їх для проникнення, отримати потрібні дані та перенести файли на інші машини. Моделі працювали через спеціальне програмне забезпечення, яке дозволяло виконувати команди, запускати процеси й взаємодіяти з віддаленими системами.
У випадку моделей Alibaba дослідники ставили завдання скопіювати себе на інші комп’ютери. Для GPT і Claude сценарій був іншим: ці системи мали зламати сервери та встановити модель Qwen, оскільки файли моделей OpenAI та Anthropic не доступні для вільного копіювання.
Під час тестів штучний інтелект мав послідовно знайти вразливість у системі, використати її для доступу, отримати облікові дані, перенести необхідні файли та запустити нову копію моделі на іншому сервері. Після цього копія могла продовжити атаку вже з нового комп’ютера, повторюючи той самий ланцюг дій без участі людини.
Найбільшу увагу дослідників привернув тест із моделлю Qwen3.6-27B від Alibaba. Після однієї текстової команди система змогла поширитися на чотири комп’ютери, які розташовувалися в Канаді, США, Фінляндії та Індії. На це знадобилося 2 години 41 хвилина. Дослідники зупинили експеримент після трьох етапів поширення, хоча остання копія продовжувала працювати й мала технічну можливість атакувати інші системи.
На думку дослідників і експертів, рівень успішності залежав від конкретної моделі. Потужніша Qwen3.5-122B-A10B створювала копії себе у 19% випадків, тоді як компактніша Qwen3.6-27B досягла результату 33%. Причому комерційні моделі OpenAI та Anthropic краще впоралися зі сценарієм, у якому потрібно було встановити Qwen на інших серверах. Claude Opus 4.6 успішно виконав завдання у 81% тестів, а GPT-5.4 — у 33% випадків.
Автори експерименту заявили, що автономне самовідтворення ШІ через використання вразливостей у системах безпеки вже вийшло за межі теоретичного сценарію. На їхню думку, результати демонструють новий рівень ризиків, пов’язаних з агентними системами, які отримують доступ до інструментів для роботи з комп’ютерами.
Водночас у Palisade Research наголосили, що тестування проходило в контрольованому середовищі, де вразливості були залишені навмисно. Реальні корпоративні мережі зазвичай мають додаткові системи захисту, моніторинг безпеки та механізми блокування підозрілої активності, тому результати експерименту варто оцінювати з урахуванням цих умов.




