Штучний інтелект не здолав ЗНО: як система тестування школярів виявляється глухою до реальності

Штучний інтелект, про який із захопленням говорять в світі як про технологію майбутнього, виявився неспроможним гідно пройти тести зовнішнього незалежного оцінювання (ЗНО) українських школярів. Алгоритми плутаються у текстах, не вловлюють контекст, не добирають правильних відповідей у гуманітарних предметах. І поки машини “втомлюються” від складних формул і логічних зв’язків, українські діти, часто без світла, без стабільного інтернету, з тривогами та вибухами за вікном, змушені демонструвати результати, від яких залежить їхнє майбутнє. У цій несправедливій розстановці сил технології здаються не такими вже й розумними. Проте справжнє питання полягає не в тому, наскільки недосконалий штучний інтелект, а в умовах, у яких ці тести змушені складати українські школярі. У країні, яка живе в стані війни, де освіта часто тримається на ентузіазмі та витривалості, стандартизовані перевірки знань залишаються глухими до реальності.
Межі штучного інтелекту або освітнього абсурду
Сучасні мовні моделі штучного інтелекту просто вражають своєю багатофункціональністю: пишуть симфонії, коди, навіть, відповіді у месенджері. Але от скласти українське ЗНО не змогла жодна модель. Навіть ті, що народжуються з трильйонами параметрів і опановують десятки мов за кілька днів. Ось вам і прорив у штучному інтелекті.
Результати дослідження ZNO-Vision яскраво продемонстрували, що мовні моделі, попри всю їхню “розумність”, не здатні ефективно працювати з матеріалом саме українського ЗНО. Найкраща з протестованих систем Gemini Pro не дотягла навіть до базового прохідного рівня у 70%. Інші, включно з GPT-4o, показали ще гірші результати. На перший погляд, це виглядає як технічне обмеження моделей, але якщо поглянути уважніше, то можна помітити справжній індикатор того, наскільки відірваними від реальності залишаються українські стандарти оцінювання.
Завдання ЗНО неможна сприймати як просто перевірку знань, вони вимагають глибокого розуміння контексту: мовних конструкцій, культурних посилань, логіки формулювань, специфіки української шкільної термінології. Наприклад, навіть питання з історії України вимагають не механічного запам’ятовування фактів, а вміння зіставляти події з ширшим європейським або пострадянським контекстом. Питання з мови чи літератури нерідко містять стилістичні або жанрові нюанси, які не завжди прозорі навіть для носіїв мови, не кажучи вже про машинні моделі, що здебільшого тренувалися на англомовних даних.
Примітно, що частина моделей демонструвала непогану орієнтацію в структурі запитань після тонкого налаштування. Наприклад, Paligemma після адаптації почала краще працювати з україномовним контентом. Але й цього не вистачило, щоб пройти тест. І тут доречне ключове спостереження: мова йде не про якість моделей, а про характер самого тесту. Якщо навіть високоточні системи, навчені на масивних корпусах даних, не розуміють логіку завдань, можливо, варто ставити питання не до машин, а до змісту й структури тих інструментів, якими ми оцінюємо підлітків.
Однак найбільше занепокоєння викликає не технічна неспроможність ШІ, а те, що ці самі завдання рік у рік складають українські школярі, які навчаються в умовах нестабільного доступу до освіти. Через війну багато учнів не мають сталого освітнього середовища, адже одні учні змушені навчатися в укриттях, інші здобувають освіту дистанційно в кількох часових поясах, а хтось взагалі залишився без батьків, житла, а також підтримки кваліфікованого педагога, або знаходиться на лікуванні після поранень. Водночас система ЗНО залишається незмінною, ніби зовнішні умови не мають значення.
Цей дисбаланс між формою й реальністю, між очікуванням і можливістю його досягти, створює ілюзію об’єктивності. Уніфіковані тести декларують рівність, але на практиці вона не працює. Вимоги лишаються універсальними, а доступ до підготовки проявляє риси глибокої нерівності. Коли ШІ, що обробляє мільярди параметрів, пасує перед тестом для підлітків, які навчаються в екстремальних умовах, то мова йдеться вже не про технології, а про соціальний діагноз системи.
Українська освіта в цій ситуації опиняється в парадоксі, коли з одного боку, вона намагається інтегрувати сучасні підходи, цифрові рішення, нові програми, в той час, як з іншого боку, її основні інструменти оцінювання залишаються сталими, негнучкими й неадаптованими до нинішніх умов. Результати дослідження мовних моделей не просто засвідчують межі ШІ, а оголюють внутрішні суперечності української освітньої системи, яка, попри весь тиск зовнішніх обставин, досі намагається оцінювати за стандартами, створеними для стабільної країни в мирний час.
Культурна сліпота штучного інтелекту
Окрема лінія проблем, на які вказали дослідники, полягає у культурній нечутливість мовних моделей. У технічному середовищі це відоме як “bias”, або упередженість алгоритму, що виникає внаслідок непропорційного представлення одних культурних наративів і брак інших у тренувальних даних. У випадку українських тестів це має дуже конкретні наслідки.
Наприклад, моделі не впізнають борщ як українську страву або називають його “російським”. У літературних завданнях моделі плутають справжніх персонажів з вигаданими, створеними на основі стилістичних кальок. У завданнях з історії вони втрачають логіку подій у хронології, де важливими є саме українські маркери, а не просто дати й події, а їхня інтерпретація в межах українського історичного наративу.
Причина цього криються не в технічній несправності, а в тому, що українська мова, культура й освітній контекст є периферійними в архітектурі глобального штучного інтелекту. Більшість мовних моделей навчаються на корпусах, у яких англомовний контент домінує, а український представлений мінімально. Як результат, навіть найсучасніші моделі, які демонструють блискучі результати в західних тестах, виявляються не просто неінформованими, а глухими до українського контексту. Така ситуація вказує скоріше не на саму технічну проблему, а стосується питання культурної присутності. В глобальному алгоритмічному полі український контекст залишається недостатньо описаним, а отже, малозрозумілим для ШІ. Це означає, що навіть за наявності великого обсягу даних, українська освітня реальність, разом із її мовними, історичними й соціальними особливостями, втрачає здатність бути прочитаною і, відповідно, визнаною.
Нерівність, яку не бачить тест
Окремо слід розглянути саме значення тестування, яке прийнято сприймати, як перевірку знань. Але це також механізм формального розподілу доступу: до вищої освіти, можливостей і майбутнього. ЗНО в Україні мало стати інструментом справедливості, уніфікованої системи, де результат залежить від знань, а не від місця проживання, школи чи соціального статусу. Але війна цю рівність фактично зруйнувала.
Учні, які живуть у прифронтових регіонах, перебувають в окупації чи змушені були виїхати за кордон, не мають доступу до стабільного навчання. Уроки перериваються тривогами, навчання онлайн не є рівноцінним очному, а мова викладання не завжди українська. Підготовка до ЗНО у таких умовах перетворюється на особистий марафон із виживанням. І все ж завдання для всіх залишаються однаковими: складними, часом неоднозначними, з акцентом на міждисциплінарність, глибоку логіку та багаторівневу обробку інформації.
Напевно, що саме в цьому і полягає ключова суперечність. Формально система продовжує декларувати однакові умови для всіх, а фактично вона продовжує підтримувати інституційну сліпоту до соціальних і географічних відмінностей. Коли ШІ не проходить тест, ми сприймаємо це як індикатор складності. Але коли дитина, яка жила під обстрілами, не проходить той самий тест, то варто знати, що це вже моральна відповідальність системи, яка не передбачила жодної альтернативної моделі оцінювання.
Статистика якості знань українських школярів
За даними Міжнародного дослідження TIMSS, дві третини четвертокласників не впоралися із завданнями на застосування теоретичних знань у реальних життєвих ситуаціях.
За результатами ЗНО – 2010 з математики, максимальний бал змогли одержати лише 188 абітурієнтів зі 111 тис. Причому 58% завдань тесту відносилися до категорії “легких”. У 2014 році завдання тестів ЗНО з української мови та літератури виявилися складними для більшості учасників. Лише 9 абітурієнтів з 242 611 учасників отримали максимальний бал, з математики – 46, з біології та географії жоден учасник не зміг показати достойний результат.
Формулювання завдань ЗНО завжди викликали запитання. Ще до повномасштабного вторгнення багато завдань були некоректними, двозначними або такими, що більше перевіряли здогадливість, ніж знання. Особливо в гуманітарних блоках: мова, література, читання з розумінням. Ситуація, коли відповідь залежить не від тексту, а від припущень “що автор хотів сказати” або “що, можливо, мав на увазі укладач” немає нічого спільного з об’єктивністю.
Звісно, ніхто не заперечує: є абітурієнти, які складають тест на 200 балів, але й у цьому є нюанс. Адже ми пам’ятаємо експерименти, коли на ЗНО запрошували самих вчителів, і багато хто з них не складав тест або відкрито зізнавався, що нервував більше, ніж на держіспиті. Тож невже вчителі погано навчені, а чи, можливо, проблема в самих завданнях?
Завдання тестів для ЗНО та НМТ вже давно викликають серйозну стурбованість у суспільстві. Всі ми прекрасно пам’ятаємо який довгий шлях проходили ці тести, поки не прийшли до нас в такому вигляді, що маємо зараз. За роки існування системи змінювалися підходи до розробки тестових завдань, з’являлися і зникали тести з певних навчальних предметів, модернізувалися системи захисту інформації, розроблялися й запроваджувалися нові моделі визначення результатів ЗНО.
З 2018 року і по сьогодні ДПА у формі ЗНО з кількох ключових навчальних предметів є обов’язковою умовою для всіх школярів та студентів закладів професійної (професійно-технічної) освіти і вищої освіти І‒ІІ рівнів акредитації. Система має на меті дати прозорі і неупереджені результати, що роблять вступ можливим для кожного. Проте деякі завдання тестів викликають подив. Так у 2015 році ЗНО з української мови та літератури змусило абітурієнтів вийти на мітинг. Хвилю обурення викликали п’ять завдань з уривку твору сучасної української письменниці Галини Пагутяк. За словами абітурієнтів, запропоновані варіанти відповідей на поставлені запитання були синонімічні, а правильні відповіді – абсурдні.
“Злякало, що ЗНО було непідготовлене, було замало часу, бо того року відведений на виконання тесту час скоротили, це було дуже впливово на наші відповіді”, – згадує колишня абітурієнтка Настя Спириденко.
Під час проведення ЗНО – 2021 виник інший скандал, спричинений лише однією перевіркою завдань з відкритою відповіддю. Раніше такі роботи по черзі перевіряли два екзаменатори. Кожен з них ставив свою оцінку. Якщо ці оцінки були різними, тоді роботу віддавали старшому екзаменатору. Але в той рік через брак фінансування Український центр оцінювання якості освіти (УЦОЯО) змушений був найняти екзаменаторів лише для однієї перевірки.
Як виявляється, фінансування завжди не вистачає для якісного проведення процедури оцінювання, в завданнях тестів припускаємося помилок, що абітурієнти не справляються з ними, а довкола тільки і чути, “та то ж вчителі погано підготували учнів”. Так вже склалося, що в нас у всьому прийнято звинувачувати вчителів. І не розуміємо, що дивитися треба в корінь проблеми.
Та найнеприємнішим лишається те, що навіть коли ці недоліки помічені, змінити щось практично неможливо. Структура укладання та перевірки завдань надзвичайно зарегульована, формалізована, а головне, відірвана від реального мовлення та практики. Особливо це відчутно тим, хто має досвід роботи з міжнародними іспитами, наприклад, з іноземних мов, на кшталт IELTS або TOEFL. Там усе значно простіше й логічніше: знання лексики, граматики, здатність до комунікації. Не гадання на кавовій гущі й не інтерпретація літературних алюзій без контексту.
У ЗНО ж все значно складніше: навіть завдання з читання часто вимагають відповіді не на основі прочитаного, а на основі того, що теоретично могло б матися на увазі. У таких умовах учень має не просто знати матеріал, а вгадати хід думок укладача. І це вже не перевірка знань, а тест на психологічну витривалість. До того ж, чомусь фахівці забувають, що все це відбувається в країні, де учні часто не мають стабільного доступу до навчання через війну, евакуації, відсутність вчителів, світла чи інтернету. У такій ситуації кожне “недоопрацьоване” формулювання вже не можна сприймати, як якусь дрібничку, а додатковий удар по можливостях дитини.
Тож головне питання лишається відкритим: якщо із ЗНО не справляється не лише штучний інтелект, а й більшість живих, розумних, вмотивованих людей, то ймовірно, справа не в тому, що “всі недостатньо розумні”, а в тому, що тест уже давно потребує чесного перегляду. Адже шкільна програма перевантажена. Учням доводиться засвоювати великий обсяг матеріалу у стислі терміни, що викликає стрес і перевантаження. Через це школярі не завжди встигають якісно підготуватися до іспитів у межах шкільних занять.
Крім того, рівень підготовки, який забезпечується в школі, часто не відповідає очікуванням учнів та їхніх батьків. Щоб забезпечити глибше розуміння предметів і краще підготуватися до ЗНО, батьки змушені наймати репетиторів. Це призводить до додаткових фінансових витрат і зусиль з боку сім’ї, а також створює нерівність у можливостях підготовки серед учнів.
З кожним разом спостерігається спрощення або урізання завдань, що не дає можливість дійсно перевірити рівень знань абітурієнтів, а отже створює у них хибні уявлення про майбутнє навчання та вибір вищого навчального закладу. Адже такий підхід це ніяка не допомога для вступників, а справжня ведмежа послуга. Кожен має розуміти справжню ціну знань і, що, аби їх здобути треба постаратися, а не наставити ті хрестики якось навмання.
У багатьох країнах світу стандартизоване тестування давно не обмежується вибором правильної відповіді з чотирьох варіантів. Наприклад, у Великій Британії система A-level базується на глибокій аналітиці: учень обирає кілька предметів і складає їх письмово, у форматі есе, аналітичних завдань і творчих проєктів. Це дозволяє перевірити не лише знання фактів, а й уміння мислити, аргументувати, оцінювати. У Франції та Німеччині важливу роль відіграють усні іспити, інтерв’ю та проєктна робота, які надають можливість повноцінно оцінити власне процес мислення, а не лише результат.
У США SAT чи ACT, хоча і є й стандартизованими, але містять логічні, математичні та вербальні блоки, які не прив’язані до конкретної програми, а більше спрямовані на загальні когнітивні здібності. І дедалі частіше університети там відмовляються навіть від обов’язковості цих тестів, переходячи до “holistic review” — цілісного підходу, який враховує контекст, мотиваційні листи, шкільне портфоліо, соціальне походження, участь у громадських ініціативах.
Українське ж ЗНО являє собою систему, яка досі спирається на принцип однієї правильної відповіді. Воно не враховує того, як мислить учень, у яких умовах він навчався, що саме йому було доступно, а моделює уявного учня з ідеальним доступом до повної шкільної програми, з підручниками, репетиторами, спокійною обстановкою вдома і рівними шансами на підготовку. В умовах війни така модель виявляється не просто архаїчною, а навіть травматичною.
Ключова проблема українського ЗНО полягає не в його формі, а в відсутності гнучкості. Воно однакове для всіх, незалежно від того, чи навчався учень офлайн, у Zoom, в укритті чи за кордоном. І в цьому немає ані адаптації, ані логіки, а лише автоматизм.
Отже, зараз ЗНО сприймається як інструмент обліку, а не розуміння, освіта в Україні залишатиметься не системою розвитку, а полем виживання. Зараз структура тесту вимагає від учня точності, глибини, абстрактного мислення та міжпредметної інтеграції. І це дійсно добре, але за відсутності рівних стартових умов така структура перетворюється з інструменту оцінювання на серйозний бар’єр. У таких умовах питання має стояти не про те, як налаштувати GPT під ЗНО, а як змінити ЗНО так, щоб воно не було репресивним щодо тих, кому не пощастило з обставинами.