ChatGPT та інші ШІ-моделі не змогли скласти українське ЗНО: дослідження

Жодна з провідних мовних моделей штучного інтелекту, зокрема ChatGPT, не змогла скласти українське ЗНО. Українські науковці опублікували результати дослідження на платформі arXiv, де перевірили здатність ШІ працювати з україномовним навчальним контентом, мовою та культурою.
Для цього був створений унікальний тест ZNO-Vision — перший в Україні мультимодальний бенчмарк, що оцінює знання моделей у цих сферах. Бенчмарк побудовано на реальних завданнях ЗНО з таких предметів, як математика, фізика, хімія, біологія, історія України, українська мова та література. Загалом він охоплює понад 4 тисячі запитань, серед яких є ті, що потребують не лише аналізу тексту, а й інтерпретації зображень, схем і графіків.
У межах дослідження були протестовані такі популярні моделі, як Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma тощо. Жодна з них не змогла набрати 70% правильних відповідей — тобто не пройшла поріг складання ЗНО за українськими критеріями.
Найвищий результат показала модель Gemini Pro — 67,5% правильних відповідей. Далі йдуть Claude 3.5 (64,3%), Qwen2-VL (51,2%), а GPT-4o дало правильні відповіді лише у 47% випадків. Для порівняння, випадковий вибір варіантів дає приблизно 22% правильних відповідей.
Дослідники зазначають, що навіть найсучасніші моделі мають обмеження у взаємодії з україномовним середовищем. Серед типових проблем — труднощі з розумінням українських інструкцій, помилки у зчитуванні текстів, змішування мов та нерозуміння культурного контексту. Наприклад, у завданні про українську кухню більшість моделей плутали назви страв, помилково визначали інгредієнти, а борщ, який ЮНЕСКО внесла до переліку культурної спадщини, іноді називали “російським”.
Погані результати пов’язані з тим, що більшість ШІ створені на основі переважно англомовних даних. Проте дослідники виявили, що адаптація до українських прикладів покращує результат: так, модель Paligemma після налаштування краще розпізнавала українські страви. Науковці підкреслюють: наразі штучний інтелект не здатен повноцінно працювати з українським контентом, однак розвиток у цьому напрямку має ключове значення.