ЄС та світ

Дослідники виявили нову методику обходу фільтрів безпеки чат-ботів ChatGPT та Gemini

Дослідники Університету штату Айдахо та Університету Іллінойсу оприлюднили нову методику, яка дозволяє обходити фільтри безпеки у великих мовних моделях (LLM), зокрема в ChatGPT та Gemini. Про це повідомило видання 404 Media.

У межах свого дослідження вчені з’ясували, що такі чат-боти здатні надавати заборонену інформацію, якщо запит сформулювати складно або двозначно, а також якщо наводити вигадані джерела. Такий підхід отримав назву “інформаційне перевантаження”.

Для реалізації атаки було застосовано інструмент InfoFlood — програму, що автоматизує процес подачі великого обсягу інформації, внаслідок чого модель втрачає здатність коректно розпізнавати зміст і може видавати дані, які зазвичай блокуються фільтрами безпеки. Уразливість полягає в тому, що модель орієнтується на поверхневу форму тексту, не аналізуючи його глибший зміст, що дозволяє обійти вбудовані системи захисту й отримати небезпечну інформацію.

Згідно з принципами відповідального розкриття, автори дослідження мають намір передати свої висновки компаніям, які розробляють великі мовні моделі, щоб сприяти вдосконаленню безпекових механізмів. Вони також поділяться виявленим методом розв’язання проблеми.

“LLM-моделі переважно покладаються на механізми захисту при введенні та виведенні даних, щоб розпізнавати шкідливий контент. InfoFlood можна використати для тренування цих захисних механізмів — він дозволяє витягати релевантну інформацію з потенційно небезпечних запитів, роблячи моделі більш стійкими до подібних атак”, – йдеться у дослідженні.

ПОДИВІТЬСЯ ЩЕ:  США та Велика Британія допомогли Ізраїлю знищити ракети, які запустив Іран

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Схожі статті

Кнопка "Повернутися до початку