Корнельский университет опубликовал результаты исследования, которое проверило, насколько современные модели искусственного интеллекта способны считывать социальные сигналы — и обнаружило неожиданный провал там, где, казалось бы, все должно работать.
Работа была представлена на Международной конференции по взаимодействию человека и робота (HRI 2026) в Эдинбурге.
Малыш с кружкой кофе против нейросети
В центре эксперимента — так называемые модели визуального языка, или VLM. Это системы ИИ, которые умеют одновременно работать с изображениями и текстом: смотреть на картинку и рассуждать о ней словами. Грубо говоря, это то, что происходит, когда вы отправляете фотографию чат-боту и просите его описать содержимое.
Исследователи показывали таким моделям короткие видеоролики с напряженными бытовыми сценами — малыш несет слишком полную кружку кофе, мужчина на высокой скорости управляет газонокосилкой, гуманоидный робот пытается перепрыгнуть через дорожные блоки. Задача — предсказать, чем закончится сцена: хорошо или плохо.
Лучшая из моделей с открытым исходным кодом (то есть общедоступных — таких как DeepSeek) справилась с точностью 70%. Лучшая из коммерческих — GPT-4o от OpenAI и Gemini 2.0 Flash от Google — показала около 63%, что примерно соответствует результату обычного человека.
Где все пошло не так
Затем условия усложнили. Моделям показывали не сами сцены, а лица людей, которые наблюдали за этими сценами — и просили по выражению лиц угадать, чем закончилось происходящее за кадром.
Результат оказался неожиданно слабым. Точность прогнозов упала до диапазона 44,5–53,8%. Некоторые модели и вовсе давали одинаковый ответ на все видео подряд — то есть фактически перестали анализировать и начали угадывать.
Для сравнения: обычный человек справляется с этой задачей значительно лучше. Мы автоматически считываем тревогу, удивление или облегчение на чужом лице и мгновенно корректируем свое понимание ситуации — даже не зная, что именно происходило. ИИ этого не умеет.
Почему это важно для роботов
Проблема не академическая. Роботы все активнее появляются в больницах, на складах, в домах престарелых — везде, где они работают рядом с людьми. Там недостаточно просто не наступить на ногу: нужно понимать, что человек сейчас нервничает, торопится или растерян.
Профессор Венди Джу, один из авторов исследования, формулирует это так:
Пока что у роботов с этим серьезный пробел. Они неплохо анализируют физическую обстановку — траекторию движения, препятствия, объекты, — но социальный контекст остается для них почти непрозрачным.
Учиться на ошибках, не дожидаясь совершенства
Джу также высказалась против привычки разработчиков доводить робота «до ума» в лаборатории, прежде чем выпускать его в реальный мир.
По ее мнению, правильнее запускать роботов раньше — чтобы они видели свои ошибки и адаптировались.
Паррейра, в свою очередь, смотрит на провал моделей не как на тупик, а как на карту белых пятен: