Как Искусственный Интеллект может «понимать»? История от одного из создателей ChatGPT.
Искусственному интеллекту казаться разумным легко, а вот человеку разработать действенную проверку знаний компьютера — трудно.
Помните созданный IBM суперкомпьютер Watson? Тот самый, чей искусственный интеллект победил в американской телевикторине? В рекламе 2010 года говорилось: «Watson понимает естественный язык со всей его многозначностью и сложностью». Однако затем попытка Watson «произвести революцию в медицине с помощью искусственного интеллекта» с треском провалилась. Это наглядный пример того, что кажущееся владение языком и настоящее понимание человеческой речи — не одно и то же.
Научить компьютер понимать человеческий язык — уже давно одна из основных задач исследований в области ИИ. Сперва ученые пытались вручную ввести в программу всё, что потребуется компьютеру для осмысления новостных сюжетов, художественной литературы или других текстов, написанных людьми. Такой подход, как и показал пример с Watson, оказался неэффективным, так как невозможно зафиксировать все неписаные законы, правила и допущения, необходимые для понимания текста.
Позднее была предложена другая концепция: вместо встраивания в систему общеизвестных фактов мы позволим ЭВМ самостоятельно учиться понимать язык. Для этого собирают огромное количество текстов, по которым ИИ учится предсказывать слова. В результате получается то, что исследователи называют «языковой моделью». Если такие модели строятся на крупных нейросетях, как, например, GPT-3 от Open AI, они могут генерировать прозу (и поэзию!), поразительно похожую на созданную человеком, и выдавать замысловато выглядящие лингвистические рассуждения.
Но можем ли мы сказать, что обученный на текстах тысяч веб-сайтов, книг и энциклопедий GPT-3 превзошел пустышку, которой оказался IBM Watson? Действительно ли он понимает язык, на котором говорит, и будто бы даже рассуждает? На эту тему мнения исследователей ИИ кардинально расходятся. Прежде подобные дискуссии больше относились к философской стороне вопроса, однако в последнее десятилетие ИИ вырвался из контролируемой среды в настоящую жизнь. И непонимание реалий этого мира может иметь значительные, а иногда и губительные последствия. В ходе одного из исследований было обнаружено, что Watson предлагал «многочисленные примеры небезопасных и неправильных рекомендаций по лечению». Другое исследование показало, что система машинного перевода Google допускала существенные ошибки в переводе с английского языка медицинских инструкций.
Как нам определить на практике, понимает ли компьютер? В 1950 году Алан Тьюринг, первопроходец в сфере вычислительной техники, попытался ответить на этот вопрос с помощью знаменитой «имитационной игры», которую теперь называют «тестом Тьюринга». Испытуемый, не видя, кто перед ним, пытался определить, с кем он говорит — человеком или машиной. Если судья не может понять, кто из собеседников человек, то тогда, по утверждению Тьюринга, мы в праве считать, что ЭВМ мыслит, а значит, и понимает.
К сожалению, Тьюринг недооценил, как легко машинам удается вводить людей в заблуждение. Виртуальный собеседник «Элиза», созданный Джозефом Вейценбаумом в 1960-х годах в качестве пародии на психотерапевта, а также другие простые чат-боты во время беседы казались людям разумными существами, даже если они знали, что это программы.
В научной работе 2012 года исследователи в области ИИ Гектор Левеск, Эрнест Дейвис и Леора Моргенштерн предложили более объективный тест под названием «схема Винограда». С тех пор ученые считают его одним (и, быть может, лучшим) из способов оценить разумность компьютера. Однако, как мы увидим далее, и он не идеален. Эта схема, названная в честь лингвиста Терри Винограда, включает пары предложений, отличающихся только одним словом. После каждого предложения следует вопрос. Вот два примера:
Предложение 1: Я наливал воду из бутылки в чашку, пока она не наполнилась.
Вопрос: Что наполнилось: бутылка или чашка?
Предложение 2: Я наливал воду из бутылки в чашку, пока она не опустела.
Вопрос: Что опустело: бутылка или чашка?
Предложение 1: Дядя всё еще может обыграть Джо в теннис, хотя он и на 30 лет старше.
Вопрос: Кто старше: Джо или его дядя?
Предложение 2: Дядя всё еще может обыграть Джо в теннис, хотя он на 30 лет младше.
Вопрос: Кто младше: Джо или его дядя?
В каждой паре предложений от разницы в одно слово зависит, к какому предмету или человеку относится местоимение. Для правильного ответа на такие вопросы нужно обладать здравым смыслом. Именно на его проверку и нацелены схемы Винограда, компенсируя слабые места теста Тьюринга: ненадежные человеческие суждения или уловки чат-ботов. В частности, ученые разработали несколько сотен схем, которым «не помог бы» Google: компьютер не мог использовать эту и другие поисковые системы, чтобы дать правильный ответ.
В 2016 году по этим схемам было устроено соревнование. Победившая программа дала только 58% правильных ответов, что не слишком отличалось от простого угадывания. Тогда Орен Эциони, ведущий исследователь в области ИИ, колко подметил: «Если ИИ не может определить, про что в предложении говорится «он» или «она», то тяжело представить, как машины захватят мир».
Как бы то ни было, умение ИИ решать схемы Винограда резко выросло благодаря появлению крупных нейросетевых языковых моделей. Отчет компании OpenAI за 2020 год гласит, что языковая модель GPT-3 справилась с 90% предложений из схем. А другие после практики конкретно на таких заданиях показали еще более убедительные результаты. На момент написания этой статьи лучшим результатом считается точность около 97% в решении определенного набора схем Винограда. Они являются составляющей SuperGLUE — соревнования ИИ в понимании языка. Такой показатель близок к уровню человеческого понимания. Означает ли это, что нейросетевые языковые модели стали по-человечески разумными?
Вряд ли. Несмотря на усилия разработчиков, схемы Винограда всё же можно было решить с помощью поисковых запросов. Как и во многих других тестах для ИИ, нейросети с помощью уловок успешно справлялись с этими схемами, на самом деле так и не понимая свои ответы. Рассмотрим, к примеру, следующие предложения: «спортивный автомобиль обогнал почтовый фургон, потому что он ехал быстрее» и «спортивный автомобиль обогнал почтовый фургон, потому что он ехал медленнее». Если языковую модель обучали на огромном корпусе предложений английского языка, то она обнаружит взаимосвязь между словосочетанием «спортивный автомобиль» и прилагательным «быстрый», «почтовый фургон» и «медленный». Тогда ИИ даст правильный ответ, руководствуясь этим соотношением, так и не поняв смысла предложений. Подобные статистические уловки, как оказывается, вполне срабатывают в соревновании SuperGLUE применительно ко многим схемам Винограда.
Группа исследователей из Института искусственного интеллекта имени Аллена решила не отказываться от использования схем Винограда, а попробовать исправить их недостатки. В 2019 году они выпустили Winogrande — более крупный набор схем Винограда. Теперь количество примеров стало ошеломляющим: 44 000 предложений взамен нескольких сотен. Чтобы собрать так много примеров, исследователи обратились к известной краудсорсинговой платформе Amazon Mechanical Turk. Каждого пользователя (человека) попросили написать несколько пар предложений, но с ограничениями, чтобы в подборке затрагивались разнообразные темы. Однако на этот раз предложения в парах могли отличаться больше чем на одно слово.
Затем ученые постарались исключить предложения, с которыми бы сработали статистические уловки. Для этого удалили схемы, с которыми легко справились более простые программы ИИ. Как и ожидалось, оставшиеся предложения оказались гораздо труднее для ЭВМ, чем первоначальный набор схем Винограда. Люди по-прежнему давали почти все правильные ответы, в то время как показатели нейросетевых языковых моделей теперь были далеки от идеальных. Этот новый тест WinoGrande должен был компенсировать недостатки схем Винограда в качестве способа определения разумности ЭВМ. При этом обязательным условием стал тщательный подбор предложений, чтобы верные ответы нельзя было загуглить.
Однако дело приняло неожиданный оборот. За почти два года, прошедшие с выпуска WinoGrande, нейросетевые языковые модели стали крупнее, а значит, результаты прохождения теста тоже улучшились. На момент написания этой статьи результаты лучших программ, обученных на терабайтах текста, а затем на тысячах примеров из WinoGrande, верны почти на 90% (у людей на 94%). Такой прогресс достигнут практически полностью благодаря увеличению размеров языковых моделей и их обучающих данных.
Получается, более крупные языковые модели наконец достигли уровня понимания, равного человеческому? Вряд ли. Есть несколько моментов, о которых не стоит забывать, оценивая эти результаты. Например, поскольку предложения были написаны пользователями Amazon Mechanical Turk, их качество и связность были на разном уровне. Также, несмотря на то, что после предварительной проверки получилось избавиться от нескольких статистических уловок, более крупным и продвинутым языковым моделям все-таки удавалось находить ответы в сети. Более того, этим методом предложения проверяли по одному, и в результате некоторые из них остались без своего «двойника». Дальнейшее исследование показало, что нейросетевые языковые модели, которые проходили проверку на парах предложений (и верно отвечали в обоих случаях), показывали куда менее точные результаты по сравнению с человеком. А значит, прежний показатель в 90% не так значим, как мы думали.
Чем же показательна вся эта история? В первую очередь тем, что по прохождению тестов зачастую сложно определить, действительно ли системы ИИ понимают информацию, которую обрабатывают. Теперь мы знаем, что для достижения высоких показателей в схемах Винограда и схожих испытаниях нейросети используют уловки, построенные на статистике, вместо настоящего осмысления, как у людей.
На мой взгляд, проблема в том, что понимание языка подразумевает понимание окружающего мира, а компьютер, работающий только с языком, на понимание мира не способен. Только представьте, что требуется для понимания предложения: «Спортивный автомобиль обогнал почтовый фургон, потому что он ехал медленнее». Необходимо различать спортивные автомобили и почтовые фургоны, знать, что автомобили могут «обгонять» друг друга, ну и понимать самое простое: транспортные средства — это объекты, которые существуют в мире, управляемом людьми с их собственными целями.
Всю эту информацию люди воспринимают как должное, но она не встроена в ЭВМ и не дается развернуто в тренировочных тестах для языковых моделей. По мнению некоторых когнитивистов, для изучения и понимания языка люди опираются на врожденные, доязыковые, базовые знания о пространстве, времени и других сущностных характеристиках мира. Если мы ждем от ИИ понимания человеческого языка на схожем уровне, то в первую очередь необходимо обучить компьютеры принципам, знакомым нам с рождения. Тогда для того, чтобы оценить их понимание, нам предстоит сначала оценить усвоение ими принципов, которые можно было бы назвать «метафизикой младенца».
Может показаться, что обучение и оценка ЭВМ лишь для того, чтобы довести их до умственных способностей малышей — это гигантский шаг назад после умопомрачительных подвигов Watson и GPT-3. Но если нам нужно подлинное и достоверное понимание, то это, может быть, единственно верный для компьютеров способ по-настоящему осознать, какие слова в предложении заменены местоимениями — и что из этого вытекает.
По материалам Quanta Magazine
Автор: Мелани Митчелл
Иллюстрация: Мэгги Чан
История Миры Мурати, которая работает в OpenAI и участвовала в создании ChatGPT
Мира Мурати (Фото DR)
Среди тех, кто стоит за созданием нейросети ChatGPT — 35-летняя Мира Мурати. Она работала над автомобилем Tesla Model X, занималась технологией захвата движения в Leap Motion, а затем пришла в OpenAI, где теперь является техническим директором. Forbes Woman рассказывает о ее карьере в мире высоких технологий
В ноябре 2022 года компания OpenAI представила свою последнюю разработку — чатбот ChatGPT, который умеет с поразительной правдоподобностью «разговаривать» на естественном языке. За несколько месяцев он смог сдать экзамен на получение степени MBA в Уортонской школе бизнеса при Пенсильванском университете, экзамен на получение медицинской лицензии в США, несколько экзаменов на юридическом факультете Университета Миннесоты (а в России — написать дипломную работу, которую затем удалось защитить в РГГУ). «У вас блестящий ребенок», — иронизирует корреспондент Time. «Мы не ожидали такого сильного волнения от прихода нашего ребенка в этот мир. Скорее испытывали по этому поводу трепет. Мне любопытно посмотреть, в каких областях он начнет приносить людям пользу, а не только поражать новизной», — отвечает технический директор OpenAI Мира Мурати.
От железа к искусственному интеллекту
Мира Мурати родилась в Албании, но в 16 лет уехала в США. Она окончила Инженерную школу Тайера при Дартмутском колледже со степенью бакалавра в области машиностроения. Ее первым местом работы стала французская аэрокосмическая компания Zodiac Aerospace (сейчас входит в Safran Aerosystems), которая производит оборудование для самолетов. А затем в 2013 году Мурати пришла в Tesla — работать над кроссовером Model X.
Этот автомобиль был представлен годом ранее и в 2013-м как раз должен был поступить в продажу. Но поставки начались только в 2015-м. Объясняя двухлетнюю задержку, основатель Tesla Илон Маск отмечал: «Model X — особенно сложный автомобиль. Возможно, это самый сложный автомобиль в мире. Я не уверен, что будет сложнее». Авторы многочисленных обзоров с восторгом описывали двери в форме крыла сокола, способность разгоняться до 100 км/ч за 3,1 секунды, систему очистки воздуха, умную пневмоподвеску и систему Autopilot — набор функций помощи водителю вроде центрирования полосы движения, самостоятельной парковки и полуавтономного вождения.
«Полная автономия на самом деле ограничена программным обеспечением, — говорил Илон Маск позже. — Оборудование для ее обеспечения существует. Так что речь на самом деле идет о разработке продвинутого узкого искусственного интеллекта для работы автомобиля. Я хочу подчеркнуть: узкого — мир он не захватит, но сможет хорошо водить машиной». Чтобы обучать этот ИИ, компания еще в 2014 году начала устанавливать первые версии Autopilot на все свои серийные автомобили. Датчики, входящие в аппаратную часть, собирали данные, благодаря которым совершенствовалось программное обеспечение.
Тогда-то инженер Мурати и «заболела» искусственным интеллектом. В 2016 году она покинула должность старшего менеджера по продукту в Model X и перешла в компанию Leap Motion.
Leap Motion разрабатывала жестовое управление в AR/VR на основе технологии захвата движения и в 2016 году как раз выпустила обновление Orion: используя контроллер, похожий на Kinect для XBox, оно позволяла отобразить в виртуальной реальности руки пользователя, которыми можно было «брать» виртуальные объекты.
«Наши руки — универсальная форма ввода, — объясняла Мурати в интервью Design News. — Мы [ими] строим, играем в шахматы, бросаем мячи, но когда дело доходит до технологий, оказываемся ограничены сенсорным экраном». Сенсорные экраны и вообще любые компьютерные интерфейсы она считала ограниченными — ведь они предусматривали только определенные функции, которые, к тому же, пользователь должен был изучить. Ей же хотелось, чтобы люди взаимодействовали с цифровыми объектами так же, как с физическими, — интуитивно. Виртуальную реальность Мурати называла наиболее человеко-ориентированной платформой.
Через год после ее прихода на должность вице-президента по продукту и разработкам Leap Motion привлекла $50 млн в раунде C. Компания заявила, что собирается расширять присутствие в коммерческих и корпоративных приложениях — в образовании, здравоохранении, промышленном симуляционном обучении, — и объявила об открытии офиса в Шанхае. Технологии захвата движения рук нашлось применение в распознавании жестового языка. Но несмотря на столь амбициозные планы и открывающиеся возможности, Мурати пришла к выводу, что продукт Leap Motion находится на слишком ранней стадии.
До сих пор она занималась узким ИИ — то есть таким, который решает конкретные задачи. Ей же хотелось решать задачи планетарного масштаба. В 2018 году Мурати перешла в компанию OpenAI, которая занимается разработками в области общего ИИ.
Разговоры с ботами
Общий ИИ (или ОИИ) знаком нам по научно-фантастическим книгам и фильмам. Это бортовой компьютер HAL 9000 из «Космической одиссеи 2001 года» (любимый фильм Мурати), дроид R2-D2 из «Звездных войн» или Саманта из фильма «Она». В некоторых из этих произведений показано, каким ОИИ может быть опасным. Неслучайно на сайте OpenAI говорится: «Если ОИИ будет успешно создан, эта технология поможет нам вывести человечество на более высокий уровень за счет приумножения достатка, ускорения мировой экономики и помощи в открытии новых научных знаний, которые изменят пределы возможностей <...> С другой стороны, ОИИ также сопряжен с серьезным риском неправильного использования, серьезных аварий и социальных потрясений». «Сейчас уникальный момент времени, когда у нас есть возможность влиять на то, как [ОИИ] формирует общество. И это работает в обоих направлениях: технология формирует нас, а мы формируем ее, — говорит Мурати в интервью Time. — Есть много сложных проблем, которые нужно решить. Как заставить модель делать то, что вы от нее хотите, и как убедиться, что она соответствует человеческим намерениям и в конечном счете служит человечеству?»
OpenAI была основана в 2015 году как раз для создания безопасного ОИИ президентом венчурного фонда Y Combinator Сэмом Олтменом и Илоном Маском, — впрочем, последний в 2018-м покинул совет директоров из-за возможного конфликта интересов, поскольку собственные разработки в области ИИ были и у Tesla.
Тогда же компания представила первую версию GPT — генеративной языковой модели, способной генерировать связный текст. В 2019-м появилась более продвинутая GPT-2. Опасаясь ее недобросовестного использования (например, для генерирования фальшивых отзывов в интернет-магазинах), OpenAI отказалась выкладывать исходный код. Доступ к GPT-3, представленной в 2020 году, осуществлялся через API.
Мурати объясняет, что таковы принципы безопасности компании: ограниченный доступ к исходному коду снижает риски, при этом непрерывное развертывание разработок позволяет эти риски выявлять. Например, в случае с GPT-3 разработчики больше всего боялись, что злоумышленники будут использовать модель для создания фейков, но оказалось, что ее особенно полюбили спамеры.
Кроме того, непрерывное развертывание необходимо для совершенствования моделей за счет обратной связи от аудитории. «Модель не признáется, что у нее нет экспертизы в какой-то теме или что она не знает ответа», — говорит Мурати. Обратная связь помогает уличать модель, когда она «выдумывает» несуществующие факты (и в целом ведет себе «неестественно»), и делать ее более надежной за счет обучения с подкреплением.
Именно за обучение с подкреплением Мурати отвечала, когда только пришла в OpenAI. В нем у модели нет заранее размеченных данных, которые позволяют понять, какие действия считаются правильными, — зато есть среда, которая в зависимости от действий меняется. Модель подобна младенцу, исследующему мир, пробующему на зуб игрушки и пытающемуся дотянуться до всего, что недостаточно хорошо спрятано, объясняла Мурати в лекции на фестивале Girl Geek X. В случае с GPT подкреплением становится реакция пользователя.
Естественная форма такого обмена действиями и реакциями — диалог. Неслучайно последняя версия GPT — чатбот, который способен не просто генерировать текст, но и связно отвечать на вопросы пользователя. Он мгновенно привлек всеобщее внимание поразительной естественностью своих реплик; к 1 февраля 2023-го число пользователей чатбота достигло 100 млн. Отвечая на вопрос о том, какую пользу может приносить ChatGPT уже сейчас, Мурати предполагает, что бот справится с персонализацией обучения.
Она также руководила развертыванием DALL-E — нейросети, которая генерирует изображение из текстового описания. Это мультимодальная версия GPT-3, то есть работающая с разнородными типами данных (текстом, изображениями и др.). «Одна из целей, которые мы преследовали с DALL-E, заключалась в том, чтобы добиться более четкого представления о мире — чтобы модели понимали мир так же, как и мы», — говорит Мурати.
Но, помимо мультимодальности, нейросети заимствуют у человеческого интеллекта когнитивные искажения. Модель может «прочитать» миллионы текстов и научиться составлять последовательности из слов или «прослушать» миллионы треков и научиться генерировать музыку, но может ли она отличить талантливое произведение от посредственного, а нейтральное изложение фактов — от агрессии и транслирования стереотипов? OpenAI разрабатывает способы тонкой настройки моделей (для чего приходится, например, собирать и размечать образцы токсичных комментариев из интернета). Отдельное направление машинного обучения — создание интерпретируемых моделей, про которые точно понятно, что именно происходит у них «внутри».
Однако в конечном счете необходим доступ к технологиям ИИ для как можно большего числа людей, считает Мурати. Она — сторонница регулирования ИИ, в том числе со стороны государства («для всех очень важно начать в этом участвовать, учитывая то влияние, которое эти технологии будут иметь»).
Правда, сама OpenAI весной 2019 года заключила партнерство с Microsoft, которая стала привилегированным партнером при коммерческом внедрении новых разработок (при этом Microsoft вложила в OpenAI $1 млрд). В 2021-м две компании объявили о создании фонда OpenAI Startup Fund, который планирует инвестировать в общей сложности $100 млн в стартапы, работающие в тех областях, где ИИ может иметь «преобразующий эффект». Наконец, в 2023 году Microsoft анонсировала новые многомиллиардные инвестиции в OpenAI, а The Information и Bloomberg со ссылкой на источники сообщили, что она планирует добавить возможности ChatGPT в свою поисковую систему Bing и в офисные приложения.
Мурати сравнивает разработки в области ИИ с изобретением парового двигателя: он заменил мускульную силу человека, но поначалу приносил выгоду только тем, у кого был капитал и кто мог строить фабрики и заводы. «Я рассматриваю ИИ как платформу, которую можно использовать для создания продуктов, творчества, решения повседневных и рабочих задач. Но для этого она должна быть доступна, она должна быть — пусть это звучит как клише — демократичной», — говорит Мурати.
Этому принципу — масштабировать любую технологию, чтобы превратить ее в платформу и сделать взаимодействие с технологией интуитивно понятным — Мурати следует на любом месте работы, идет ли речь об автомобилях, виртуальной реальности или нейросетях.
Комментарии
Отправить комментарий