Современные модели искусственного интеллекта (ИИ), например, ChatGPT или Gemini, достигли впечатляющих успехов в обработке и генерации текста. Несмотря на это, они не способны воспринимать мир так, как это делает человек. Исследование, проведенное учеными Университета штата Огайо (США) объясняет различия в восприятии понятий между людьми и ИИ.
Человек против ИИ
Дело в том, что люди обладают уникальной способностью воспринимать мир через сенсорные ощущения: зрение, слух, обоняние, осязание, вкус, не говоря уже о более экзотических способностях. Например, когда мы думаем о цветке, мы не просто представляем его внешний вид. Мы можем ощутить его запах, представить, как бархатистые лепестки касаются нашей кожи, и даже вспомнить, как мы поливаем цветы или собираем из них букет. Все это в купе создает многослойное восприятие, которое невозможно воспроизвести без личного сенсорного опыта.
С другой стороны, ИИ, например, его большие языковые модели обучаются в основном на текстах, которые содержат лишь словесные описания объектов и явлений. Как отметил Цихуй Сюй, один из авторов исследования, “большая языковая модель не может чувствовать запах розы, прикасаться к лепесткам ромашки или ходить по полю луговых цветов”. Без этих сенсорных взаимодействий ИИ не может по-настоящему понять, что такое цветок, и воспринимает его исключительно как набор символов и ассоциаций.
Наглядный эксперимент
Чтобы подтвердить эту теорию, ученые провели эксперимент. В рамках исследования они сравнили восприятие 4 442 слов людьми и четырьмя популярными современными нейросетями: GPT-3.5, GPT-4 от OpenAI и PaLM, Gemini от Google. Участникам эксперимента было предложено оценить слова по двум шкалам: «Нормы Глазго» и «Нормы Ланкастера».
Первая шкала использует девять показателей, включая эмоциональное возбуждение, конкретику и воображение. Это позволяет оценить, насколько слово вызывает у человека эмоциональный отклик и насколько легко его можно представить в уме.
Нормы Ланкастера же фиксируют количество сенсорных и моторных компонентов, связанных с понятием. Например, она учитывает, видим ли мы предмет, обозначенный конкретным словом, можем ли его услышать, понюхать, потрогать или попробовать на вкус.
Результаты и выводы
Результаты исследования показали, что люди гораздо более образно и понятно воспринимают слова с сенсорной нагрузкой, чем языковые модели. Например, слово “цветок” для человека связано с множеством ощущений и действий, в то время как для ИИ оно представляет собой лишь текстовую информацию, лишенную реального контекста.
В результате специалисты пришли к выводу об ограниченности современных языковых моделей и их неспособности к полноценному пониманию мира. ИИ может генерировать текст, который выглядит правдоподобно, но без реального опыта он не может “ощущать” или “представлять” мир так, как это делает человек.