Искусственный интеллект не одолел ВНО: как система тестирования школьников оказывается глухой к реальности

Искусственный интеллект, о котором с увлечением говорят в мире как о технологии будущего, оказался неспособен достойно пройти тесты внешнего независимого оценивания (ВНО) украинских школьников. Алгоритмы путаются в текстах, не улавливают контекст, не подбирают правильные ответы в гуманитарных предметах. И пока машины устают от сложных формул и логических связей, украинские дети, часто без света, без стабильного интернета, с тревогами и взрывами за окном, вынуждены демонстрировать результаты, от которых зависит их будущее. В этой несправедливой расстановке сил технологии кажутся не столь уж разумными. Однако настоящий вопрос не в том, насколько несовершенен искусственный интеллект, а в условиях, в которых эти тесты вынуждены сдавать украинские школьники. В стране, живущей в состоянии войны, где образование часто держится на энтузиазме и выносливости, стандартизированные проверки знаний остаются глухи к реальности.
Пределы искусственного интеллекта или образовательного абсурда
Современные языковые модели искусственного интеллекта просто поражают своей многофункциональностью: пишут симфонии, коды, даже ответы в мессенджере. Но вот составить украинское ВНО не смогла ни одна модель. Даже рождающиеся с триллионами параметров и овладевающие десятками языков за несколько дней. Вот вам и прорыв в искусственном интеллекте.
Результаты исследования ZNO-Vision ярко продемонстрировали, что языковые модели, несмотря на всю их «умность», не способны эффективно работать с материалом именно украинского ВНО. Лучшая из протестированных систем Gemini Pro не дотянула даже до базового проходного уровня в 70%. Другие, включая GPT-4o, показали еще хуже результаты. На первый взгляд это выглядит как техническое ограничение моделей, но если посмотреть внимательнее, то можно заметить настоящий индикатор того, насколько оторванными от реальности остаются украинские стандарты оценивания.
Задачу ВНО нельзя воспринимать как просто проверку знаний, они требуют глубокого понимания контекста: языковых конструкций, культурных ссылок, логики формулировок, специфики украинской школьной терминологии. К примеру, даже вопросы по истории Украины требуют не механического запоминания фактов, а умения сопоставлять события с более широким европейским или постсоветским контекстом. Вопросы по языку или литературе нередко содержат стилистические или жанровые нюансы, которые не всегда прозрачны даже для носителей языка, не говоря уже о машинных моделях, в основном тренировавшихся на англоязычных данных.
Примечательно, что часть моделей демонстрировала неплохую ориентацию в структуре вопросов после тонкой настройки. К примеру, Paligemma после адаптации начала лучше работать с украиноязычным контентом. Но и этого не хватило, чтобы пройти тест. И здесь уместно ключевое наблюдение: речь идет не о качестве моделей, а о характере самого теста. Если даже высокоточные системы, обученные на массивных корпусах данных, не понимают логику задач, возможно стоит ставить вопрос не к машинам, а к содержанию и структуре тех инструментов, которыми мы оцениваем подростков.
Однако наибольшее беспокойство вызывает не техническая несостоятельность ИИ, а то, что эти же задачи из года в год составляют украинские школьники, которые учатся в условиях нестабильного доступа к образованию. В результате многие ученики не имеют устойчивой образовательной среды, ведь одни ученики вынуждены учиться в укрытиях, другие получают образование дистанционно в нескольких часовых поясах, а кто-то вообще остался без родителей, жилья, а также поддержки квалифицированного педагога или находится на лечении после ранений. В то же время система ВНО остается неизменной, будто внешние условия не имеют значения.
Этот дисбаланс между формой и реальностью, между ожиданием и возможностью его достичь создает иллюзию объективности. Унифицированные тесты декларируют равенство, но на практике оно не работает. Требования остаются универсальными, а доступ к подготовке проявляет черты глубокого неравенства. Когда ИИ, обрабатывающее миллиарды параметров, подходит перед тестом для обучающихся в экстремальных условиях подростков, то речь идет уже не о технологиях, а о социальном диагнозе системы.
Украинское образование в этой ситуации оказывается в парадоксе, когда, с одной стороны, оно пытается интегрировать современные подходы, цифровые решения, новые программы, в то время как с другой стороны, его основные инструменты оценивания остаются постоянными, негибкими и неадаптированными к нынешним условиям. Результаты исследования языковых моделей не просто свидетельствуют о границах ИИ, а обнажают внутренние противоречия украинской образовательной системы, которая, несмотря на все давление внешних обстоятельств, до сих пор пытается оценивать по стандартам, созданным для стабильной страны в мирное время.
Культурная слепота искусственного интеллекта
Отдельная линия проблем, на которые указали исследователи, заключается в культурной нечувствительности языковых моделей. В технической среде это известно как «bias», или предвзятость алгоритма, возникающего вследствие непропорционального представления одних культурных нарративов и нехватки других в тренировочных данных. В случае украинских тестов это очень конкретные последствия.
Например, модели не узнают борщ как украинское блюдо или называют его русским. В литературных задачах модели путают настоящих персонажей с вымышленными, созданными на основе стилистических калек. В задачах по истории они теряют логику событий в хронологии, где важны именно украинские маркеры, а не просто даты и события, а их интерпретация в рамках украинского исторического нарратива.
Причина этого кроются не в технической неисправности, а в том, что украинский язык, культура и образовательный контекст периферийны в архитектуре глобального искусственного интеллекта. Большинство языковых моделей учатся на корпусах, где англоязычный контент доминирует, а украинский представлен минимально. Как результат, даже самые современные модели, демонстрирующие блестящие результаты в западных тестах, оказываются не просто неинформированными, а глухими к украинскому контексту. Такая ситуация показывает скорее не саму техническую проблему, а касается вопроса культурного присутствия. В глобальном алгоритмическом поле украинский контекст остается недостаточно описанным, а значит малопонятным для ИИ. Это означает, что даже при наличии большого объема данных, украинская образовательная реальность вместе с ее языковыми, историческими и социальными особенностями теряет способность быть прочитанной и, соответственно, признанной.
Неравенство, которое не видит тест
Отдельно следует рассмотреть само значение тестирования, которое принято воспринимать как проверку знаний. Но это также механизм формального распределения доступа: к высшему образованию, возможностям и будущему. ВНО в Украине должно стать инструментом справедливости, унифицированной системы, где результат зависит от знаний, а не от места жительства, школы или социального статуса. Но война это равенство фактически разрушило.
Ученики, живущие в прифронтовых регионах, находятся в оккупации или вынуждены были уехать за границу, не имеют доступа к стабильному обучению. Уроки прерываются тревогами, обучение онлайн не равноценно очному, а язык преподавания не всегда украинский. Подготовка к ВНО в таких условиях превращается в личный марафон с выживанием. И все же задачи для всех остаются одинаковыми: сложными, иногда неоднозначными, с акцентом на междисциплинарность, глубокую логику и многоуровневую обработку информации.
Наверное, именно в этом и заключается ключевое противоречие. Формально система продолжает декларировать одинаковые условия для всех, а фактически она продолжает поддерживать институциональную слепоту к социальным и географическим различиям. Когда ИИ не проходит тест, мы воспринимаем это как индикатор сложности. Но когда ребенок, живший под обстрелами, не проходит тот же тест, то следует знать, что это уже моральная ответственность системы, не предусмотревшей никакой альтернативной модели оценивания.
Статистика качества знаний украинских школьников
За данным Международного исследования TIMSS, две трети четвертоклассников не справились с задачами применения теоретических знаний в реальных жизненных ситуациях.
По результатам ВНО-2010 по математике, максимальный балл смогли получить только 188 абитуриентов из 111 тыс. Причем 58% задач теста относились к категории «легких». В 2014 году задачи тестов ВНО по украинскому языку и литературе оказались сложными для большинства участников. Только 9 абитуриентов из 242 611 участников получили максимальный балл, по математике – 46, по биологии и географии ни один участник не смог показать достойный результат.
Формулирование задач ВНО всегда вызывали вопросы. Еще до полномасштабного вторжения многие задачи были некорректными, двусмысленными или более проверяющими догадливость, чем знания. Особенно в гуманитарных блоках: язык, литература, чтение с пониманием. Ситуация, когда ответ зависит не от текста, а от предположений, что автор хотел сказать или что, возможно, имел в виду составитель, нет ничего общего с объективностью.
Конечно, никто не возражает: есть абитуриенты, которые сдают тест на 200 баллов, но и в этом есть нюанс. Ведь мы помним эксперименты, когда на ВНО приглашали самих учителей, и многие из них не сдавали тест или открыто признавались, что нервничали больше, чем на госэкзамене. Неужели учителя плохо обучены, а может, проблема в самих задачах?
Задачи тестов для ВНО и НМТ уже давно вызывают серьезную обеспокоенность в обществе. Все мы прекрасно помним, какой долгий путь проходили эти тесты, пока не пришли к нам в таком виде, что имеем сейчас. За годы существования системы изменялись подходы к разработке тестовых заданий, появлялись и исчезали тесты по определенным учебным предметам, модернизировались системы защиты информации, разрабатывались и внедрялись новые модели определения результатов ВНО.
С 2018 года и по сегодняшний день ГНА в форме ВНО по нескольким ключевым учебным предметам является обязательным условием для всех школьников и студентов учреждений профессионального (профессионально-технического) образования и высшего образования ІІІ уровней аккредитации. Система имеет целью дать прозрачные и беспристрастные результаты, делающие вступление возможным для каждого. Однако некоторые задачи тестов вызывают удивление. Так, в 2015 году ВНО по украинскому языку и литературе заставило абитуриентов выйти на митинг. Волну возмущения вызвали пять задач по отрывку произведения современной украинской писательницы Галины Пагутяк. По словам абитуриентов, предложенные варианты ответов на поставленные вопросы были синонимичны, а правильные ответы – абсурдны.
«Испугало, что ВНО было неподготовлено, было мало времени, потому что в том году отведенное на выполнение теста время сократили, это было очень влиятельно на наши ответы”, — вспоминает бывшая абитуриентка Настя Спириденко.
Во время проведения ВНО-2021 возник другой скандал, вызванный лишь одной проверкой задач с открытым ответом. Ранее такие работы поочередно проверяли два экзаменатора. Каждый из них ставил свою оценку. Если эти оценки были разными, то работу отдавали старшему экзаменатору. Но в тот год из-за нехватки финансирования Украинский центр оценивания качества образования (УЦОКО) вынужден был нанять экзаменаторов только для одной проверки.
Как оказывается, финансирования всегда не хватает для качественного проведения процедуры оценки, в задачах тестов допускаем ошибки, что абитуриенты не справляются с ними, а вокруг только и слышно, “и то учителя плохо подготовили учеников«Уже сложилось, что у нас во всем принято обвинять учителей. И не понимаем, что смотреть надо в корень проблемы.»
Но самым неприятным остается то, что даже если эти недостатки замечены, изменить что-либо практически невозможно. Структура заключения и проверки задач чрезвычайно зарегулирована, формализована, а главное, оторвана от реальной речи и практики. Особенно это ощутимо тем, кто имеет опыт работы с международными экзаменами, например, иностранными языками, вроде IELTS или TOEFL. Там все гораздо проще и логичнее: знание лексики, грамматики, способность к коммуникации. Не гадания на кофейной гуще и не интерпретация литературных аллюзий без контекста.
В ВНО все значительно сложнее: даже задачи по чтению часто требуют ответа не на основе прочитанного, а на основе того, что теоретически могло бы иметься в виду. В таких условиях учащийся должен не просто знать материал, а угадать ход мыслей составителя. И это уже не проверка знаний, а тест на психологическую выносливость. К тому же, почему-то специалисты забывают, что все это происходит в стране, где ученики часто не имеют стабильного доступа к учебе из-за войны, эвакуации, отсутствия учителей, света или интернета. В такой ситуации каждую «недоработанную» формулировку уже нельзя воспринимать, как какую-то безделушку, а дополнительный удар по возможностям ребенка.
Поэтому главный вопрос остается открытым: если из ВНО не справляется не только искусственный интеллект, но и большинство живых, умных, мотивированных людей, то вероятно дело не в том, что «все недостаточно умны», а в том, что тест уже давно нуждается в честном просмотре. Ведь школьная программа перегружена. Учащимся приходится усваивать большой объем материала в сжатые сроки, что вызывает стресс и перегрузку. Поэтому школьники не всегда успевают качественно подготовиться к экзаменам в рамках школьных занятий.
Кроме того, уровень подготовки, который обеспечивается в школе, часто не соответствует ожиданиям учащихся и их родителей. Чтобы обеспечить более глубокое понимание предметов и лучше подготовиться к ВНО, родители вынуждены нанимать репетиторов. Это приводит к дополнительным финансовым затратам и усилиям со стороны семьи, а также создает неравенство в возможностях подготовки среди учащихся.
С каждым разом наблюдается упрощение или урезание задач, что не позволяет действительно проверить уровень знаний абитуриентов, а следовательно создает в них ошибочные представления о будущем обучении и выборе высшего учебного заведения. Ведь такой подход это никакая не помощь для поступающих, а настоящая медвежья услуга. Каждый должен понимать истинную цену знаний и, чтобы их получить надо постараться, а не наставить те крестики как-то наугад.
Во многих странах мира стандартизированное тестирование давно не ограничивается выбором правильного ответа из четырех вариантов. К примеру, в Великобритании система A-level базируется на глубокой аналитике: ученик выбирает несколько предметов и составляет их письменно, в формате эссе, аналитических задач и творческих проектов. Это позволяет проверить не только знания фактов, но и умение мыслить, аргументировать, оценивать. Во Франции и Германии важную роль играют устные экзамены, интервью и проектная работа, которые позволяют полноценно оценить собственно процесс мышления, а не только результат.
В США SAT или ACT, хотя и стандартизированы, но содержат логические, математические и вербальные блоки, которые не привязаны к конкретной программе, а больше направлены на общие когнитивные способности. И все чаще университеты там отказываются даже от обязательности этих тестов, переходя к “holistic review” — цельному подходу, учитывающему контекст, мотивационные письма, школьное портфолио, социальное происхождение, участие в общественных инициативах.
Украинское же ВНО представляет собой систему, которая до сих пор опирается на принцип одного правильного ответа. Оно не учитывает того, как мыслит ученик, в каких условиях он учился, что именно ему было доступно, а моделирует воображаемого ученика с идеальным доступом к полной школьной программе, с учебниками, репетиторами, спокойной обстановкой на дому и равными шансами на подготовку. В условиях войны такая модель оказывается не просто архаичной, а даже травматической.
Ключевая проблема украинского ВНО заключается не в его форме, а в отсутствии гибкости. Оно одинаково для всех, независимо от того, учился ли ученик офлайн, в Zoom, в укрытии или за границей. И в этом нет ни адаптации, ни логики, а только автоматизма.
Так что сейчас ВНО воспринимается как инструмент учета, а не понимания, образование в Украине будет оставаться не системой развития, а полем выживания. Сейчас структура теста требует от учащегося точности, глубины, абстрактного мышления и межпредметной интеграции. И это действительно хорошо, но при отсутствии равных стартовых условий такая структура превращается из инструмента оценки в серьезный барьер. В таких условиях вопрос должен стоять не о том, как настроить GPT под ВНО, а как изменить ВНО так, чтобы он не был репрессивным по отношению к тем, кому не повезло с обстоятельствами.