Жодна з моделей штучного інтелекту не змогла пройти ЗНО, яке щороку здають українські діти

Під час війни діти в Україні навчаються не у звичних умовах класу, а між тривогами, евакуаціями, в укриттях, дистанційно або в переповнених класах тимчасових шкіл. Стабільність навчального процесу порушено, звичні орієнтири зламані. Відчуття майбутнього є розмитим, а очікування результатів надмірним. У цьому контексті завдання зовнішнього незалежного оцінювання, яке мало би бути стандартною перевіркою знань, перетворюється на психологічний бар’єр. І якщо підлітки ледь витримують його, то як з ним справляється штучний інтелект?
Дослідницька група українських науковців вирішила перевірити здатність сучасних мовних моделей працювати з контентом українського ЗНО — не в теорії, а на практиці. Їхні висновки оприлюднено на міжнародній науковій платформі arXiv. Для перевірки було створено спеціальний тестовий інструмент — ZNO-Vision. Це не просто набір питань, а мультимодальний бенчмарк, який вимагає від моделей розпізнавання графіків, інтерпретації схем, аналізу зображень, а не лише тексту. Завдання охоплювали сім основних предметів українського ЗНО: математику, фізику, хімію, біологію, історію України, українську мову та літературу.
База тесту включала понад чотири тисячі запитань. Для багатьох із них правильна відповідь потребує не лише базових знань, а й інтуїтивного розуміння логіки шкільного формулювання, стилістики підручників, особливостей українського гуманітарного дискурсу. Питання з історії України, наприклад, опираються на національну термінологію, розуміння хронології подій у контексті європейських процесів, а мова — на відтінки стилістичних засобів і культурні алюзії.
У цьому тесті брали участь такі моделі, як GPT-4o (OpenAI), Gemini Pro (Google), Claude 3.5 (Anthropic), Qwen2-VL (Alibaba), LLaMA (Meta), Paligemma (Google) та інші. Їхній результат був нижчим за пороговий бал, необхідний для складання ЗНО — 70% правильних відповідей. Найкращий результат показала модель Gemini Pro — 67,5%. Вона майже дотягла до прохідного рівня, проте не подолала його. Далі — Claude 3.5 з 64,3%, Qwen2-VL — 51,2%, GPT-4o — 47%. Для порівняння: при випадковому виборі варіантів правильну відповідь можна дати у приблизно 22% випадків.
У чому саме проблема? Чому навіть найсучасніші системи, що здатні генерувати код, писати симфонії, прогнозувати ринки та супроводжувати складні технічні рішення, виявилися неспроможними впоратися зі шкільним тестом для українських випускників? Дослідники вказують на кілька причин. Перша — мовна структура. Більшість сучасних моделей навчаються переважно на англомовних корпусах. Навіть якщо українська мова входить до обсягу тренувальних даних, її питома вага незначна. Друга — інструкції та формулювання.
Українські тестові завдання мають свої особливості: часто багатошарові, з неочевидними умовами, подвійними запереченнями, вбудованими культурними кодами. У багатьох випадках моделі просто не розуміли зміст інструкції або давали відповідь на не те, про що їх запитували.
Окремо дослідники фіксували типові помилки моделей у контексті української культури. Наприклад, у питанні про традиційну страву більшість моделей неправильно ідентифікували борщ, іноді називаючи його «російським», або змінювали інгредієнти, характерні для регіонів, які не відповідають умові. У питанні про українську літературу, де треба було впізнати персонажа за стилістикою, модель не розрізняла реальні твори й химерні варіанти, складені з цитат.
Серед найбільш вразливих сфер — інтерпретація графіків, робота з багаторівневою логікою, розпізнавання мови інструкцій. Траплялися й технічні проблеми: моделі плутали схеми, не зчитували зображення належним чином або орієнтувалися не на зміст, а на шаблон.
Водночас у деяких випадках адаптація моделі до україномовного контенту давала позитивний результат. Наприклад, Paligemma після тонкого налаштування почала точніше розпізнавати завдання, пов’язані з українськими реаліями. Але навіть із цим жодна система не пройшла базового порогу.
Результати дослідження мають кілька важливих наслідків. По-перше, вони підтверджують, що мовні моделі не є універсальними — їхні здібності нерівномірно розподілені між мовами. По-друге, ці результати демонструють, що українська мова, освіта й культура залишаються простором, який потребує окремого представлення в глобальному штучному інтелекті. І поки що вони в ньому — на периферії. По-третє, це підкреслює, що український освітній контент має свою складність, глибину й нюанси, які не зводяться до набору правильних відповідей. Навіть для машини, навіть із терабайтами текстів і трильйонами параметрів.
Провал найсучасніших мовних моделей на українському тесті ЗНО вказує на системну нерівність у представленні мов і культур у глобальній архітектурі штучного інтелекту. Водночас це дослідження відкриває не тільки межі ШІ, а й особливості самого українського навчального простору. Завдання, які здаються стандартними для випускника, виявляються надмірно складними для високоточних алгоритмів.
Крім того, результати дослідження демонструють, що завдання ЗНО мають високий рівень складності навіть для найсучасніших мовних моделей. Однак в українському контексті цим тестом щороку перевіряють підлітків, які вчаться в умовах нестабільної, подекуди неповної освітньої системи. Війна позбавила багатьох учнів системного доступу до шкільної програми, стабільного викладання, педагогічного супроводу та підготовки за єдиними стандартами.
Попри це, структура ЗНО залишається сталою: вона передбачає широке охоплення тем, роботу з абстрактними завданнями, складні формулювання й міжпредметні зв’язки. Такі вимоги формально залишаються однаковими для всіх, але фактично не враховують нерівномірність доступу до навчання, а отже — не є рівними. Якщо штучний інтелект з трильйонами параметрів не справляється із завданнями, створеними для 16–17-річних, то це є приводом переглянути не технічні можливості моделей, а запитання до самої системи оцінювання.
Це дослідження фіксує розрив між формальними критеріями освітньої успішності й фактичними умовами, в яких перебувають українські школярі. Завдання, розраховані на максимально підготовленого абітурієнта в умовах повноцінної школи, стають непідйомними для тих, чий досвід навчання обмежено обставинами, незалежними від них.