Дети войны

Ни одна из моделей искусственного интеллекта не смогла пройти ВНО, которое каждый год сдают украинские дети.

Во время войны дети в Украине учатся не в привычных условиях класса, а между тревогами, эвакуациями, в укрытиях, дистанционно или переполненных классах временных школ. Стабильность учебного процесса нарушена, привычные ориентиры сломаны. Чувство будущего размыто, а ожидание результатов чрезмерным. В этом контексте задача внешнего независимого оценивания, которая должна быть стандартной проверкой знаний, превращается в психологический барьер. И если подростки с трудом выдерживают его, то как с ним справляется искусственный интеллект?

Исследовательская группа украинских ученых решила проверить способность современных языковых моделей работать с контентом украинского ВНО не в теории, а на практике. Их выводы обнародовано на международной научной платформе arXiv Для проверки был создан специальный тестовый инструмент – ZNO-Vision. Это не просто набор вопросов, а мультимодальный бенчмарк, требующий от моделей распознавания графиков, интерпретации схем, анализа изображений, а не только текста. Задания включали в себя семь основных предметов украинского ВНО: математику, физику, химию, биологию, историю Украины, украинский язык и литературу.

База теста включала более четырех тысяч вопросов. Для многих из них правильный ответ нуждается не только в базовых знаниях, но и в интуитивном понимании логики школьной формулировки, стилистике учебников, особенностях украинского гуманитарного дискурса. Вопросы по истории Украины, например, опираются на национальную терминологию, понимание хронологии событий в контексте европейских процессов, а язык — оттенки стилистических средств и культурные аллюзии.

В этом тесте принимали участие такие модели как GPT-4o (OpenAI), Gemini Pro (Google), Claude 3.5 (Anthropic), Qwen2-VL (Alibaba), LLaMA (Meta), Paligemma (Google) и другие. Их результат был ниже порогового балла, необходимого для составления ВНО — 70% правильных ответов. Лучший результат показала модель Gemini Pro – 67,5%. Она почти дотянула до проходного уровня, но не преодолела его. Далее — Claude 3.5 с 64,3%, Qwen2-VL — 51,2%, GPT-4o — 47%. Для сравнения: при случайном выборе вариантов правильный ответ можно дать примерно в 22% случаев.

ПОСМОТРИТЕ ЕЩЕ:  Украинских детей могут не пустить в Польшу: какие документы нужны при пересечении границы

В чем именно проблема? Почему даже самые современные системы, способные генерировать код, писать симфонии, прогнозировать рынки и сопровождать сложные технические решения, оказались не в состоянии справиться со школьным тестом для украинских выпускников? Исследователи указывают на несколько причин. Первая – языковая структура. Большинство современных моделей учатся преимущественно на англоязычных корпусах. Даже если украинский язык входит в объем тренировочных данных, его удельный вес незначителен. Вторая – инструкции и формулировки.

Украинские тестовые задания имеют свои особенности: часто многослойные, с неочевидными условиями, двойными возражениями, встроенными культурными кодами. Во многих случаях модели просто не понимали содержание инструкции или давали ответ на не то, о чем их спрашивали.

Отдельно исследователи фиксировали типичные ошибки моделей в контексте украинской культуры. Например, в вопросе о традиционном блюде большинство моделей неправильно идентифицировали борщ, иногда называя его «русским», или меняли ингредиенты, характерные для не соответствующих условию регионов. В вопросе об украинской литературе, где нужно было узнать персонажа по стилистике, модель не различала реальные произведения и причудливые варианты, составленные из цитат.

Среди наиболее уязвимых сфер – интерпретация графиков, работа с многоуровневой логикой, распознавание языка инструкций. Случались и технические проблемы: модели путали схемы, не считывали изображение должным образом или ориентировались не на содержание, а на шаблон.

В некоторых случаях адаптация модели к украиноязычному контенту давала положительный результат. Например, Paligemma после тонкой настройки начала более точно распознавать задачи, связанные с украинскими реалиями. Но даже с этим ни одна система не прошла базового порога.

Результаты исследования имеют несколько важных последствий. Во-первых, они подтверждают, что языковые модели не универсальны — их способности неравномерно распределены между языками. Во-вторых, эти результаты показывают, что украинский язык, образование и культура остаются пространством, которое требует отдельного представления в глобальном искусственном интеллекте. И пока они в нем — на периферии. В-третьих, это подчеркивает, что у украинского образовательного контента есть своя сложность, глубина и нюансы, которые не сводятся к набору правильных ответов. Даже для машины даже с терабайтами текстов и триллионами параметров.

ПОСМОТРИТЕ ЕЩЕ:  Миллионы на жилье: преодолеет ли Николаев один из худших показателей школьной безопасности в Украине

Провал современных языковых моделей на украинском тесте ВНО указывает на системное неравенство в представлении языков и культур в глобальной архитектуре искусственного интеллекта. В то же время, это исследование открывает не только границы ИИ, но и особенности самого украинского учебного пространства. Задачи, которые кажутся стандартными для выпускника, оказываются излишне сложными для высокоточных алгоритмов.

Кроме того, результаты исследования показывают, что задачи ВНО имеют высокий уровень сложности даже для самых современных языковых моделей. Однако в украинском контексте этим тестом ежегодно проверяют подростков, которые учатся в условиях нестабильной, иногда неполной образовательной системы. Война лишила многих учащихся системного доступа к школьной программе, стабильного преподавания, педагогического сопровождения и подготовки по единым стандартам.

Несмотря на это, структура ВНО остается устойчивой: она предполагает широкий охват тем, работу с абстрактными задачами, сложные формулировки и межпредметные связи. Такие требования формально остаются одинаковыми для всех, но фактически не учитывают неравномерность доступа к обучению, а следовательно, не равны. Если искусственный интеллект с триллионами параметров не справляется с задачами, созданными для 16–17-летних, то это является поводом пересмотреть не технические возможности моделей, а вопросы самой системы оценки.

Это исследование фиксирует разрыв между формальными критериями образовательной успеваемости и фактическими условиями, в которых находятся украинские школьники. Задачи, рассчитанные на максимально подготовленного абитуриента в условиях полноценной школы, становятся неподъемными для тех, чей опыт обучения ограничен обстоятельствами, независимыми от них.

 

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Related Articles

Back to top button