«Когда инструмент превосходит пользователя на его же экзамене — вопрос уже не в инструменте, а в самом экзамене.»
Японский эксперимент 2026 года зафиксировал переломную точку. ChatGPT 5.2 Thinking впервые набрал баллы выше лучших живых абитуриентов двух ведущих университетов страны. Для рынка образования и корпоративного обучения это сигнал, который нельзя игнорировать.
Кто проводил эксперимент и почему это важно
Организаторы: стартап LifePrompt, газета Nikkei и сеть подготовительных школ Kawai Juku.
Это третий последовательный замер одной и той же методологии:
- 2024 — ChatGPT 4 не преодолел минимальный проходной балл Токийского университета.
- 2025 — версия o1 впервые перешла этот порог.
- 2026 — ChatGPT 5.2 Thinking превысил результаты лучших поступивших.
Три года подряд, одна методика, измеримая прогрессия. Это уже тренд, а не анекдот.
Задания передавались в виде изображений — то есть модель работала без прямого текстового ввода. Сочинения и развёрнутые ответы оценивали живые преподаватели Kawai Juku. Человеческая оценка субъективных блоков снижает риск «подгонки под формат».
Конкретные цифры: что именно сдал ИИ
Токийский университет, медицинское направление:
- Математика — максимальный балл.
- Гуманитарный блок — 452 из 550. Лучший абитуриент: 434.
- Естественные науки — 503 из 550. Лучший абитуриент: 453.
- Английский — 90% (недобор).
- Всемирная история — 25% (провал).
Киотский университет:
- Юридический факультет — 771 балл. Лучший абитуриент: 734.
- Медицинский факультет — 1 176 баллов. Лучший абитуриент: 1 098.
Паттерн читается чётко: точные дисциплины и логические рассуждения — сильная сторона модели. Языковые нюансы и историческая интерпретация — слабая.
Почему провалилась всемирная история
25% по всемирной истории при 503/550 по естественным наукам — разрыв, требующий объяснения.
Японские вступительные экзамены по истории строятся на интерпретации первоисточников, хронологических связях и нарративных рассуждениях. Там нет одного правильного ответа — есть контекст, оценочные суждения и культурные коды.
Модель работает с паттернами из обучающей выборки. Если исторические нарративы в этой выборке неполны или противоречивы — результат предсказуем.
Для корпоративного применения это прямая подсказка: ИИ-ассистент надёжен там, где есть формализованные правила. Там, где нужна интерпретация — нужен человек рядом.
Что сказал профессор Курихара и почему это важнее самих баллов
Глава Японского общества искусственного интеллекта Сатоси Курихара (Университет Кэйо) прокомментировал результаты скептически. Его аналогия: калькулятор считает быстрее человека — это не означает, что он умнее.
Добавил: нынешние вступительные экзамены требуют пересмотра.
Это управленческий вывод, а не философский. Если инструмент стабильно превосходит человека в формате проверки знаний — формат устарел. Тот же принцип работает в бизнесе: если ИИ закрывает задачу быстрее и дешевле, процесс вокруг задачи нужно пересматривать, а не защищать.
Что это означает для корпоративного обучения и аттестации
Большинство корпоративных тестов на знание продукта, регламентов и процедур построены по той же логике, что японские вступительные экзамены. Закрытые вопросы, правильный ответ, балл.
Если ChatGPT 5.2 сдаёт Токийский медицинский — он сдаст и внутренний тест на знание регламентов отдела продаж.
Последствия для HR и L&D (корпоративного обучения):
- Тесты на воспроизведение фактов теряют диагностическую ценность.
- Аттестация должна смещаться в сторону прикладных кейсов и принятия решений в условиях неопределённости.
- Сертификаты, основанные только на тестировании, начинают обесцениваться как сигнал компетентности.
Что это означает для маркетинга образовательных продуктов
Образовательные платформы, которые продают доступ к «знаниям» — в уязвимой позиции.
CAC (стоимость привлечения клиента) в EdTech и без того высокий. Если ценностное предложение строится на передаче информации — модель легко воспроизводит этот контент бесплатно.
Где образовательный продукт сохраняет ценность:
- Обратная связь от практикующего эксперта.
- Нетворк и среда — то, что ИИ не создаёт.
- Прикладные симуляции с реальными последствиями.
- Диплом как социальный сигнал (пока институты его поддерживают).
LTV (пожизненная ценность клиента) в образовании держится на доверии к бренду и социальному капиталу. Это пока недосягаемо для модели.
Три года прогрессии: что ждать дальше
| Год | Модель | Результат |
|---|---|---|
| 2024 | GPT-4 | Ниже проходного балла |
| 2025 | o1 | Прошёл минимальный порог |
| 2026 | GPT 5.2 Thinking | Выше лучших абитуриентов |
Если темп сохраняется — через два-три года разрыв между ИИ и лучшими студентами будет измеряться не в баллах, а в категориях задач, которые модель решает принципиально иначе.
Провал по всемирной истории (25%) показывает: потолок пока существует. Но он смещается быстрее, чем успевают реагировать институты.
Что делать
Пересмотрите внутренние аттестации. Если тест можно сдать с помощью ChatGPT — он измеряет умение пользоваться инструментом, а не компетентность сотрудника. Это не плохо, но надо это признать явно.
Перестройте ценностное предложение образовательных продуктов. Уберите из позиционирования «доступ к знаниям» как главный аргумент. Делайте ставку на практику, среду и экспертную обратную связь.
Зафиксируйте слабые зоны модели. Историческая интерпретация, культурный контекст, нарративные суждения — это реальные узкие места текущего поколения ИИ. Стройте процессы так, чтобы человек закрывал именно эти участки.
Следите за следующим замером LifePrompt. Три года последовательных данных — это уже бенчмарк (ориентир). В 2027 году картина изменится снова.
Переосмыслите найм через дипломы. Если диплом подтверждает способность сдавать тесты — его сигнальная ценность снижается. Практические портфолио и кейсы становятся более надёжным фильтром.
Меня в этой истории интересует не то, что ИИ обогнал абитуриентов. Меня интересует реакция профессора Курихары: он сказал, что экзамены нужно пересматривать. Это честная позиция. Рынок образовательных услуг в России реагирует медленнее — большинство платформ до сих пор продают «знания» как продукт. Это работало, пока знания были дефицитом. Сейчас дефицит в другом: в умении применять, интерпретировать и принимать решения под давлением. Кто перестроит продукт под этот запрос первым — тот и выиграет следующие три года.