Тест Тьюринга и почему в эпоху ИИ все про него забыли

Помните был такой знаменитый тест Тьюринга который должен был с вероятностью, но всё же как-то показать развитие робототехники.

Сам тест довольно простой. Если вы про него не слышали, я обьясню. Есть человек, задача которого определить человек с ним разговаривает или машина. Дальше есть вариации общения, клавиатура, записки, голос не в этом суть. Главное что человек каким-либо образом должен общаться с обьектом. Сообщениями, вопросами, диалогами, рассуждениями. Задачи компьюетрной программы же постараться отвечать так, чтобы человек не догадался что ему отвечает программа. Дальше есть вариации с размерами цепи диалогов (Отпредели машина перед тобой или наз за 10-40 ответов), режимами ввода, временем ввода сообщения. Но суть я думаю ясна.

Долгое время этот тест пфтались применить ко всему на свете что связано с ответами. Чатботам начала нулевых, биноминальным и статистическим ботам, к построенным на цепях Маркова ответах и просто на рандомных ответах которые пользователи писали ранее. Но сейчас эпоха ChatGPT И всем я думаю давным давно ясно что человек не знакомый досконально со слабостями нейросетей не особо сможет отличить ChatGPT от человека. Но почему-то сейчас не особо то про тест Тьюринга и говорят. И главный вопрос «Почему»?

Ниже я постараюсь на него ответить.

Во первых хотелось бы рассказать про то, нужен он вообще или нет. По задумке автора тест вообще-то задумывался как некий детектор отвечавший на вопрос «А может ли машина мыслить?». А теперь вопрос. А может ли это свойство определить тест? Тест Тьюринга сравнительно субъективен. Принцип его действия сводится к тому, что человек ведет диалог с машиной, а судьи, которые не видят ни того, ни другого, пытаются понять, чьи реплики человеческие, а чьи сгенерированы машиной. Если все реплики выглядят так, будто говорит человек, тест Тьюринга считается пройденным.

Официально этому тесту GPT-4 не подвергали, в том смысле, что на премию Лёбнера эта система не выдвигалась. И уже не будет, поскольку основатель и спонсор этих мероприятий, бизнесмен и филантроп Хью Лёбнер (Hugh Loebner) умер в 2013 г.

С другой стороны, израильская компания AI21 Labs создала онлайн-игру на базе теста Тьюринга, к которой в итоге подключились в общей сложности 1,5 человек. Каждому игроку предлагалось в течение 2 минут беседовать либо с человеком, либо с чат-ботом на основе массивной языковой модели и дальше определить, с кем именно он имел дело.

Пользователи правильно определяли ботов лишь в 60% случаев, что не сильно отличается от случайного везения.

Эксперты считает, что люди, знающие, как работают масштабные языковые модели (LLM), легко определят собеседника по хорошо известным им слабым местам.

Например, если предоставить LLM-системе сценарий, являющийся вариацией на тему тех сценариев, которые входили в обучающий массив данных, машина, скорее всего, начнет давать ответы теми же словами, которыми бы отвечала на вопросы в оригинальных тренировочных сценариях, вместо того, чтобы дать правильный ответ в новом сценарии.

В целом, тесты, связанные с созданием ложного впечатления человекоподобия, среди экспертов по ИИ считаются сомнительными и нерепрезентативными. Если опираться на них, то разработчики будут скорее учить ИИ отдельным трюкам, а не полезным и интересным навыкам.

1 комментарий к “Тест Тьюринга и почему в эпоху ИИ все про него забыли”

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *