Исследователи обнаружили новую методику обхода фильтров безопасности чат-ботов ChatGPT и Gemini

Исследователи Университета штата Айдахо и Университета Иллинойса обнародовали новую методику, позволяющую обходить фильтры безопасности в больших языковых моделях (LLM), в частности ChatGPT и Gemini. Об этом сообщило издание 404 Media.
В рамках своего исследования ученые выяснили, что такие чат-боты способны предоставлять запрещенную информацию, если запрос сформулировать сложно или двусмысленно, а также приводить вымышленные источники. Такой подход получил название «информационная перегрузка».
Для реализации атаки был применен инструмент InfoFlood — программа, автоматизирующая процесс подачи большого объема информации, в результате чего модель теряет способность корректно распознавать содержание и может выдавать данные, обычно блокируемые фильтрами безопасности. Уязвимость состоит в том, что модель ориентируется на поверхностную форму текста, не анализируя его более глубокое содержание, что позволяет обойти встроенные системы защиты и получить опасную информацию.
Согласно принципам ответственного раскрытия, авторы исследования намерены передать свои выводы компаниям, разрабатывающим большие языковые модели, чтобы способствовать совершенствованию механизмов безопасности. Они также поделятся выявленным методом решения проблемы.
«LLM-модели преимущественно полагаются на механизмы защиты при вводе и выводе данных, чтобы распознавать вредоносный контент. InfoFlood можно использовать для тренировки этих защитных механизмов — он позволяет извлекать релевантную информацию из потенциально опасных запросов, делая модели более устойчивыми к подобным атакам», – говорится в исследовании.