Трудности в интерпретации визуальных данных

Ученые Эдинбургского университета провели серию тестов, чтобы оценить способности современных мультимодальных языковых моделей (MLLM). Оказалось, что системы от Google, OpenAI и Anthropic справлялись с определением времени по циферблату только в 25% случаев. Исследователи экспериментировали с разными типами часов: использовали римские цифры, разноцветные циферблаты и нестандартные стрелки.
Ограничения и возможности технологий
В рамках подготовки статьи, которая сейчас проходит рецензирование, специалисты выявили любопытную закономерность. Наибольшие ошибки ИИ допускал при анализе стилизованных элементов — например, римских цифр или декоративных стрелок. Эти результаты подчеркивают важность дальнейшей работы над улучшением интерфейсов взаимодействия искусственного интеллекта с визуальной информацией.
Источник: naked-science.ru



