Дослідники виявили нову методику обходу фільтрів безпеки чат-ботів ChatGPT та Gemini

Valerii Bilyk09.07.2025

0 100 1 хвилина читання

Дослідники Університету штату Айдахо та Університету Іллінойсу оприлюднили нову методику, яка дозволяє обходити фільтри безпеки у великих мовних моделях (LLM), зокрема в ChatGPT та Gemini. Про це повідомило видання 404 Media.

У межах свого дослідження вчені з’ясували, що такі чат-боти здатні надавати заборонену інформацію, якщо запит сформулювати складно або двозначно, а також якщо наводити вигадані джерела. Такий підхід отримав назву “інформаційне перевантаження”.

Для реалізації атаки було застосовано інструмент InfoFlood — програму, що автоматизує процес подачі великого обсягу інформації, внаслідок чого модель втрачає здатність коректно розпізнавати зміст і може видавати дані, які зазвичай блокуються фільтрами безпеки. Уразливість полягає в тому, що модель орієнтується на поверхневу форму тексту, не аналізуючи його глибший зміст, що дозволяє обійти вбудовані системи захисту й отримати небезпечну інформацію.

Згідно з принципами відповідального розкриття, автори дослідження мають намір передати свої висновки компаніям, які розробляють великі мовні моделі, щоб сприяти вдосконаленню безпекових механізмів. Вони також поділяться виявленим методом розв’язання проблеми.

“LLM-моделі переважно покладаються на механізми захисту при введенні та виведенні даних, щоб розпізнавати шкідливий контент. InfoFlood можна використати для тренування цих захисних механізмів — він дозволяє витягати релевантну інформацію з потенційно небезпечних запитів, роблячи моделі більш стійкими до подібних атак”, – йдеться у дослідженні.

ПОДИВІТЬСЯ ЩЕ: США та Велика Британія допомогли Ізраїлю знищити ракети, які запустив Іран

Valerii Bilyk09.07.2025

0 100 1 хвилина читання

Valerii Bilyk

Залишити відповідь Скасувати коментар

Схожі статті

Пенсійний фонд Швеції продав усі акції Tesla і вніс компанію до “чорного списку”

На знак протесту проти ШІ понад тисяча музикантів записали “пустий” альбом

Нова президентка Мексики відхилила запрошення Зеленського відвідати Київ

Британія зараз не розглядає відправку військових до України: Ріші Сунак