Разделы

Цифровизация Техника Искусственный интеллект

ChatGPT «сломал» тест Тьюринга: ученые ищут и не находят новый метод оценки ИИ

Тест Тьюринга практически официально признан устаревшим. Исследователи искусственного интеллекта обнаружили, что не обладают средствами квалифицированной оценки возможностей искусственного интеллекта. И даже не понимают, что у него внутри.

Ни теста Тьюринга, ни счетчика Гейгера

В авторитетном издании Nature вышла статья, посвященная искусственному интеллекту и средствам его оценки. В заголовке утверждается, что ChatGPT «сломал» тест Тьюринга, хотя он и был лишь неофициальным инструментом.

Как выяснилось этой весной, языковая модель GPT-4, например, не справляется с логическими головоломками: мыслить абстрактными понятиями она неспособна.

«В общем и целом существуют два лагеря исследователей с противоположными взглядами на то, что происходит “под капотом” массивных лингвистических моделей», — приводит Nature слова Томера Уллмана (Tomer Ullman), исследователя в области познания в Гарвардском университете в Кэмбридже. Одни считают, что впечатляющие способности алгоритмов связаны с зачаточной способностью рассуждать или понимать, с чем те имеют дело. Сам Уллман принадлежит к лагерю, члены которого не склонны очаровываться.

По его мнению, проблема состоит в том, что никаких убедительных свидетельств в поддержку любой из этих точек зрения нет. «Не существует такого счетчика Гейгера, который можно было бы навести на что-либо, услышать “бип-бип-бип” и сказать “да, это действительно разум”, — говорит Уллман.

Представители обоих лагерей, впрочем, сходятся на том, что логические головоломки не только показывают разницу между способностями людей и ИИ-системами, а также обозначить «белые пятна» в методах машинного обучения.

robot_700.jpg
Фото: ru.freepik.com
Тест Тьюринга в прошлом. Оценивать им современный ИИ бессмысленно

«У исследований в этом направлении есть самая что ни на есть практическая сторона: если ИИ предстоит применять в сферах, напрямую касающихся жизней людей, то прежде необходимо понять, где лежит предел их возможностям», — считает Мелани Митчелл (Melanie Mitchell), профессор информатики в институте Санта Фе в Нью-Мехико. Именно ей и ее соратникам пришла в голову мысль разработать логические загадки, которыми тестируют крупные языковые модели.

«Нам необходимо понять, что на самом деле они могут, и чего нет, и только тогда мы сможем использовать в безопасной манере», — говорит Митчелл.

На сегодняшний день такого понимания нет.

Тест Тьюринга и премия Лёбнера: и то и другое — в прошлом

Что касается теста Тьюринга, то он сравнительно субъективен. Принцип его действия сводится к тому, что человек ведет диалог с машиной, а судьи, которые не видят ни того, ни другого, пытаются понять, чьи реплики человеческие, а чьи сгенерированы машиной. Если все реплики выглядят так, будто говорит человек, тест Тьюринга считается пройденным.

Официально этому тесту GPT-4 не подвергали, в том смысле, что на премию Лёбнера эта система не выдвигалась. И уже не будет, поскольку основатель и спонсор этих мероприятий, бизнесмен и филантроп Хью Лёбнер (Hugh Loebner) умер в 2013 г.

С другой стороны, израильская компания AI21 Labs создала онлайн-игру на базе теста Тьюринга, к которой в итоге подключились в общей сложности 1,5 человек. Каждому игроку предлагалось в течение 2 минут беседовать либо с человеком, либо с чат-ботом на основе массивной языковой модели и дальше определить, с кем именно он имел дело.

Пользователи правильно определяли ботов лишь в 60% случаев, что не сильно отличается от случайного везения.

Эксперты считает, что люди, знающие, как работают масштабные языковые модели (LLM), легко определят собеседника по хорошо известным им слабым местам.

Например, если предоставить LLM-системе сценарий, являющийся вариацией на тему тех сценариев, которые входили в обучающий массив данных, машина, скорее всего, начнет давать ответы теми же словами, которыми бы отвечала на вопросы в оригинальных тренировочных сценариях, вместо того, чтобы дать правильный ответ в новом сценарии.

В целом, тесты, связанные с созданием ложного впечатления человекоподобия, среди экспертов по ИИ считаются сомнительными и нерепрезентативными. Если опираться на них, то разработчики будут скорее учить ИИ отдельным трюкам, а не полезным и интересным навыкам.

Бенчмарки и экзамены для людей

Сегодня для тестирования ИИ нередко применяются различные бенчмарки, которые определяют возможности ИИ в конкретных областях, таких как языкознание, математика и умение оставаться в рамках здравого смысла. Плюс все чаще используются экзамены, созданные для людей.

Например, GPT-4 прогнали по бенчмаркам на понимание текста, математику и программирование, а затем через 30 экзаменов для людей. С бенчмарками система управилась без труда, да и с экзаменами показала результаты, примерно равные тем, которых добивались 10% лучших студентов.

Проблема в том, что сами по себе эти бенчмарки имеют свои ограничения, и успешное их прохождение не гарантирует, что машина действительно способна превзойти человека в тестируемых областях.

Модели обучаются на таких больших объемах текста, что вполне могут встречать похожие вопросы и находить готовые ответы, а не формулировать их самостоятельно.

Это «загрязнение» — одна из распространенных проблем, с которой разработчики LLM пытаются бороться. OpenAI утверждает, что ее разработчики прицельно искали в тренировочных массивах данных комбинации из слов, похожие на те, которые встречаются в бенчмарках, и что и до, и после их удаления и переобучения машины результаты оказались примерно равными.

Тем не менее, некоторые ученые сомневаются, что такой тест адекватно отражает реальную ситуацию.

Что касается экзаменов, то, как рассказала Митчелл, ChatGPT успешно сдал магистерский экзамен по администрированию бизнеса для студентов, но стоило ей слегка переформулировать один из вопросов, и чат-бот не смог на него ответить правильно. Для человека это не было бы проблемой в принципе.

Суть в том, что машины и люди оперируют данными совершенно по-разному. Экзамены, предназначенные для людей, позволяют с высокой степенью надежности определить общий уровень интеллекта. Это размытое понятие, но оно описывает способность компетентно решать разные задачи и адаптироваться к различным условиям и контекстам. Иными словами, тот, кто получил высокие оценки на экзаменах (проведенных чисто, непредвзято и без попыток подменить результаты в чьих-либо интересах), справятся с другими когнитивными тестами и легко оперируют абстрактными понятиями.

Слово есть, да нету смысла

Для LLM это совершенно не так: экстраполяция человеческих экзаменов на машины иногда оказывается бесполезной. LLM обучаются исключительно на языковых конструкциях. У них нет возможности через личный опыт осознать связь языка и различных физических объектов, их свойств и ощущений, которые они могут вызывать у человека. По мнению Брендена Лейка (Brenden Lake), исследователя когнитивных вычислений в Университете Нью-Йорка, это доказывает, что можно свободно оперировать языком, но не обладать подлинным пониманием значений слов.

Однако в отношении LLM, в том числе над GPT-4, производились и более широкие эксперименты. В марте 2023 г. Себастьен Бабек (Sebastien Bubeck), сотрудник Microsoft Research, и его коллеги опубликовали препринт под названием «Искры общего искусственного интеллекта: ранние эксперименты с GPT-4».

Им удалось задокументировать целый ряд неожиданных способностей, проявленных ранней версией GPT-4, многие из которых не были напрямую связаны с языком (или, по крайней мере, связь была неочевидной). В частности, GPT-4 смог пройти тест, который психологи используют для оценки модели психики человека. Грубо говоря, это проверка на способность воспринимать как свои собственные переживания, так и переживания других людей, что позволяет объяснять и прогнозировать их поведение.

Как государство сэкономит 100 млрд руб. на ИКТ-инфраструктуре
цифровизация

«Исходя из широты и глубины возможностей GPT-4, мы считаем, что есть основания рассматривать его как раннюю (и неполную) версию общего искусственного интеллекта», — заявили исследователи.

В разговоре с журналистами Nature Бабек отметил, что GPT-4 в любом случае не мыслит, как человек, и все его способности приобретены способом, свойственным только ему.

Публикация вызвала много шума и скепсиса. В этом исследовании LLM и ее возможности не изучались системно, говорит Мелани Митчелл. В свою очередь Томер Уллман заявил, что для того, чтобы убедиться в наличии модели психики, нужно увидеть когнитивный процесс, который напоминал бы человеческую модель психики. То, что машина дала те же ответы, что и человек, ничего, в сущности, не значит.

Логические головоломки, сломавшие ИИ

Чтобы понять возможности и слабые места LLM, необходимы более обширные и, главное, точные средства оценки. Цветные логические головоломки могут стать одним из таких средств.

Эти головоломки определяют ключевую особенность человеческого разума — способность к абстрактному мышлению и экстраполяции их на новые проблемы.

В 2019 г. Франсуа Шолле (Francois Chollet), разработчик в Google, задолго до появления LLM, предложил новый метод тестирования ИИ-систем на логику: «Корпус абстрагирования и рассуждения» (ARC).

Возможности MySQL и PostgreSQL: взгляд инфраструктурного провайдера
Маркет

Тем, кто проходил этот тест, предлагалось несколько визуальных демонстраций, где один паттерн на матрице из квадратов по определенным правилам преобразовывался в другой, и предлагалось определить, как будет выглядеть следующая трансформация.

В 2020 г. Шолле организовал соревнование между ботами (не включавшее LLM), которое выиграла ИИ-система, натасканная специально на решение ARC-подобных задач, но лишенная, в отличие от LLM, каких-либо способностей общего характера. И то, ей удалось правильно решить только 21% задач. Люди в среднем управлялись с 80% таких головоломок.

Впоследствии несколько исследовательских команд применяли ARC, чтобы определить потенциал ИИ-систем. Ни одна из них не справлялась с этими головоломками на уровне, хотя бы отдаленно напоминающем уровень людей.

Митчелл и ее коллеги разработали свой метод, т. н. ConceptARC: основанный на ARC, он проще (чтобы можно было точнее определить, есть ли у LLM хотя бы рудиментарная способность к абстрактному мышлению) и отличается узкой направленностью на определенные понятия. Для каждого понятия создан свой набор головоломок, являющихся вариациями на одну и ту же тему: одинаковость/подобие, расположение в пространстве и т. д.

Смысл теста — помешать машине пройти его без осознания базовой концепции.

Люди без труда решили эти головоломки — процент успеха составил 91-97. GPT-4 давал правильные ответы лишь в трети случаев.

Тем не менее, Митчелл отметила, что GPT-4 все-таки справлялся с определенными задачами, хотя никогда не сталкивался с ними.

Боты из вышеупомянутого соревнования Шолле, настроенные на решение задач ARC, справились с тестами Митчелл лучше, чем GPT-4, но все равно намного хуже людей: в одной категории им удалось набрать до 77%, в остальных — меньше 60%.

Другое дело, что, как отмечают исследователи, языковые модели в принципе оперируют только словами и числами. И даже если присвоить каждому пикселю изображения номерное обозначение цвета, соревнование с людьми с их развитым зрением — не лучший способ сопоставлять возможности.

В OpenAI разрабатывают мультимодальный вариант GPT-4, который способен принимать изображения в качестве входных данных. Когда эта версия станет общедоступной, Митчелл планирует протестировать ConceptARC на ней. Однако она уже сомневается в том, что результаты будут намного лучшими.

Проблема: как оценить разум

К настоящему времени, как утверждают некоторые эксперты, у LLM время от времени проявляются отдельные признаки абстрактного мышления. Ключевой проблемой, однако, остается адекватная оценка способности машин к абстрактному мышлению и другим проявлениям интеллекта.

Специалист по когнитивным наукам Стэнфордского университета в Пало Альто Майкл Фрэнк (Michael Frank) указывает, что единого теста, нового теста Тьюринга, который бы сразу позволял определить разумность машины, нет и, скорее всего, не будет. «Не существует Рубикона, какой-то одной линии», — говорит он. Каждую такую систему придется тщательно тестировать на наличие сильных и слабых мест самыми разнообразными способами.

«Парадокс в том, что создав ИИ даже в такой зачаточной форме как массивные лингвистические системы, человечество уже не может в полной мере понять, как это функционирует, и что там “под капотом”, вернее, в “черном ящике”, — говорит Дмитрий Гвоздев, генеральный директор компании “Информационные технологии будущего”. — Между тем, ИИ-системы уже повсеместно внедряют, и похоже речь всерьез идет о том, чтобы доверить человеческие жизни системам, для которых не существует полноценных средств аудита и мониторинга. Разработка таких средств — задача первостепенной важности. Пока что и исследователи, и те, кто занимается коммерциализацией и внедрением ИИ, пытаются опередить друг друга без адекватной оценки рисков, а это в какой-то момент может привести к трагическим последствия. Средства контроля ИИ должны стать такой же обыденностью, как правила дорожного движения или стандарты качестве продукции».

Эксперты также призывают не пытаться присваивать искусственному интеллекту человеческие свойства.

«Мы склонны очеловечивать все, что, как нам кажется, демонстрирует зачатки разумности, — говорит Роб Уортэм (Rob Wartham), сопредседатель Британского общества изучения искусственного интеллекта и поведенческой симуляции, который с 2014 по 2019 гг. проводил соревнования на премию Лёбнера. — Это, вообще говоря, проклятье, потому что мы себе не можем представить чего-либо, демонстрирующего поведение, ориентированное на достижение целей, иначе как принимая человека за образец. И нам кажется, что это нечто совершает те или иные действия, потому что на самом деле оно думает так же как мы».

Роман Георгиев