AI-модели далеки от мышления на уровне AGI: исследование Apple

Гонка за разработкой искусственного общего интеллекта (AGI) ещё далека от завершения, согласно исследователям Apple, которые обнаружили, что ведущие AI-модели по-прежнему испытывают трудности с рассуждениями.

Недавние обновления ведущих больших языковых моделей (LLM), таких как ChatGPT от OpenAI и Claude от Anthropic, включали в себя большие модели рассуждений (LRM), но их фундаментальные возможности, свойства масштабирования и ограничения «остаются недостаточно изученными», – утверждают исследователи Apple в июньской работе под названием «Иллюзия мышления».

Они отметили, что текущие оценки в основном сосредоточены на устоявшихся математических и кодовых бенчмарках, «подчеркивая точность конечного ответа».

Однако, по их словам, такая оценка не даёт понимания о способностях AI-моделей к рассуждениям.

Исследование контрастирует с ожиданиями, что искусственный общий интеллект всего в нескольких годах.

Исследователи Apple тестируют AI-модели, умеющие «мыслить»

Исследователи разработали различные головоломки для тестирования вариантов Claude Sonnet, o3-mini и o1 от OpenAI, а также DeepSeek-R1 и V3, способных «мыслить» и «не способных мыслить», за пределами стандартных математических бенчмарков.

Они обнаружили, что «современные LRM сталкиваются с полным коллапсом точности при достижении определенной сложности», неэффективно обобщают рассуждения, и их преимущество исчезает с увеличением сложности, вопреки ожиданиям относительно возможностей AGI.

«Мы обнаружили, что LRM имеют ограничения в точном вычислении: они не используют явные алгоритмы и рассуждают непоследовательно при решении головоломок».

Apple _Проверка конечных ответов и промежуточных трасс рассуждений (верхний график), и графики, показывающие, что модели, не умеющие «мыслить», более точны при низкой сложности (нижние графики). Источник: Apple Machine Learning Research__

AI-чат-боты слишком много думают, утверждают исследователи

Они обнаружили непоследовательные и поверхностные рассуждения в моделях, а также наблюдали излишнее обдумывание: AI-чат-боты генерируют правильные ответы вначале, а затем отклоняются в неверные рассуждения.

Исследователи пришли к выводу, что LRM имитируют шаблоны рассуждений, не по-настоящему их усваивая или обобщая, что не соответствует мышлению на уровне AGI.

«Эти выводы бросают вызов преобладающим предположениям о возможностях LRM и предполагают, что текущие подходы могут столкнуться с фундаментальными барьерами к обобщённым рассуждениям».

Apple Иллюстрация четырёх сред для решения головоломок. Источник: Apple

Гонка за разработкой AGI

AGI – это Святой Грааль разработки AI, состояние, в котором машина способна мыслить и рассуждать как человек и сопоставима по интеллекту с человеком.

В январе генеральный директор OpenAI Сэм Альтман заявил, что компания ближе, чем когда-либо, к созданию AGI. «Мы теперь уверены, что знаем, как создать AGI, как мы его традиционно понимали», – заявил он в то время.

В ноябре генеральный директор Anthropic Дарио Амодей заявил, что AGI превзойдёт возможности человека в течение следующего или двух лет. «Если просто оценить темпы роста этих возможностей, то кажется, что мы достигнем этого к 2026 или 2027 году», – сказал он.