Читать книгу «Совместимость: Как контролировать искусственный интеллект» онлайн полностью📖 — Стюарта Рассел — MyBook.
image

Большинство читателей этой книги, как и ее автор, предпочли бы ставку А, несмотря на то что ожидаемая ценность призывает к противоположному выбору! Бернулли предположил, что ставки оцениваются не по ожидаемой денежной ценности, а по ожидаемой полезности. Полезность – способность приносить человеку пользу или выгоду – является, по его мысли, внутренним, субъективным качеством, связанным, но не совпадающим с денежной ценностью. Главное, полезность отличается убывающей доходностью по отношению к деньгам. Это означает, что полезность данной суммы денег не строго пропорциональна сумме, но возрастает медленнее ее. Например, полезность владения суммой в $1 000 000 100 намного меньше сотни полезностей владения $10 000 000. Насколько меньше? Спросите об этом себя! Какими должны быть шансы выиграть $1 млрд, чтобы это заставило вас отказаться от гарантированных $10 млн? Я задал этот вопрос своим студентам, и они ответили, что около 50 %, из чего следует, что ставка Б должна иметь ожидаемую ценность $500 млн, чтобы сравниться с желательностью ставки А. Позвольте повторить: ставка Б была бы в 50 раз выше ставки А в денежном выражении, но обе ставки имели бы равную полезность.

Введение понятия полезности – невидимого свойства – для объяснения человеческого поведения посредством математической теории было потрясающим для своего времени. Тем более что, в отличие от денежных сумм, ценность разных ставок и призов с точки зрения полезности недоступна для прямого наблюдения. Полезность приходится выводить из предпочтений, демонстрируемых индивидом. Пройдет два столетия, прежде чем практические выводы из этой идеи будут полностью разработаны и она станет общепринятой среди статистиков и экономистов.

В середине XX в. Джон фон Нейман (великий математик, в честь которого названа архитектура компьютеров – «архитектура фон Неймана»[27]) и Оскар Моргенштерн опубликовали аксиоматическую основу теории полезности[28]. Имеется в виду следующее: поскольку предпочтения, выражаемые индивидом, отвечают определенным базовым аксиомам, которым должен отвечать любой рациональный агент, выбор, сделанный этим индивидом, неизбежно может быть описан как максимизирующий ожидаемое значение функции полезности. Короче говоря, рациональный агент действует так, чтобы максимизировать ожидаемую полезность.

Трудно переоценить важность этого вывода. Во многих отношениях поиск ИИ заключается в том, чтобы выяснить, как именно строить рациональные машины.

Давайте подробнее рассмотрим аксиомы, которым, предположительно, должны удовлетворять рациональные сущности. Одна из них называется транзитивностью: если вы отдаете предпочтение А перед Б и Б перед В, то вы отдаете предпочтение А перед В. Это кажется вполне разумным! (Если пицца с сосисками нравится вам больше стандартной пиццы, а стандартная больше пиццы с ананасом, то представляется обоснованным предположить, что, выбирая между пиццей с сосисками и пиццей с ананасом, вы остановитесь на первой.) Вот еще одна аксиома, монотонность: если вы отдаете предпочтение призу А перед призом Б и можете выбирать между лотереями, единственными возможными выигрышами в которых являются А и Б, то предпочтете лотерею с наивысшей вероятностью выиграть приз А, а не Б. Опять-таки разумно!

Предпочтения касаются не только пиццы и денежных лотерей. Они могут быть связаны с чем угодно, в частности со всей будущей жизнью, вашей и других людей. Применительно к предпочтениям, касающимся последовательностей событий во времени, часто делается еще одно допущение – о так называемой стационарности: если два разных будущих, А и Б, начинаются с одного и того же события и вы отдаете предпочтение А перед Б, то будете предпочитать А и после того, как это событие произойдет. Это звучит разумно, но имеет на удивление значимое следствие: полезность любой цепи событий есть сумма вознаграждений, связанных с каждым событием (возможно, уценивающихся со временем на своего рода процентную ставку)[29]. Несмотря на повсеместную распространенность предположения о «полезности как сумме вознаграждений» – восходящего по меньшей мере к XVIII в., к «гедонистическому исчислению» Джереми Бентама, основателя утилитаризма, – допущение стационарности, на котором оно основано, необязательно является свойством рационального агента. Стационарность исключает также вероятность того, что чьи-либо предпочтения могут меняться со временем, тогда как наш опыт свидетельствует об обратном.

Несмотря на разумность аксиом и важность выводов, которые из них следуют, на теорию полезности обрушивается шквал критики с тех самых пор, как она получила широкую известность. Некоторые отвергают ее за то, что она, предположительно, сводит все к деньгам и эгоизму. (Некоторые французские авторы презрительно называли эту теорию «американской»[30], несмотря на то что она уходит корнями во французскую мысль.) Действительно, что может быть разумнее, чем мечтать прожить жизнь в самоотречении, желая лишь уменьшить страдания других. Альтруизм заключается попросту в том, чтобы придавать существенный вес благополучию других при оценке любого конкретного будущего.

Другой комплекс возражений связан с трудностью получения необходимой оценки ценности возможностей и полезностей и их перемножения для расчета ожидаемой полезности. При этом просто смешиваются две разные вещи: выбор рационального действия и выбор его путем вычисления ожидаемых полезностей. Например, если вы пытаетесь ткнуть пальцем себе в глаз, веко опускается, чтобы защитить глазное яблоко; это рационально, но никакие расчеты ожидаемой полезности этому не сопутствуют. Можете также представить, что катитесь на велосипеде без тормозов вниз по склону и имеете возможность выбирать, врезаться в одну бетонную стену на скорости 16 км/ч или в другую, ниже по склону, на скорости 32 км/ч. Что вы предпочтете? Если вы выбрали 16 км/ч, мои поздравления! Вы вычисляли ожидаемую полезность? Вряд ли. Тем не менее выбор скорости 16 км/ч рационален. Это следует из двух базовых предположений: во-первых, что вы предпочитаете менее серьезные травмы более серьезным, во-вторых, что при любой тяжести травмы увеличение скорости столкновения повышает вероятность превышения этого уровня. Из этих двух предположений математически следует (совершенно без вычисления конкретных числовых значений), что столкновение на скорости 16 км/ч имеет более высокую ожидаемую полезность, чем столкновение на скорости 32 км/ч[31]. В общем, максимизация ожидаемой полезности необязательно требует вычисления каких-либо ожиданий или полезностей. Это чисто внешнее описание рациональной сущности.

Еще одна критика теории рациональности лежит в определении места принятия решений, то есть что рассматривается в качестве агентов. Кажется очевидным, что агентами являются люди. Но как быть с семьями, племенами, корпорациями, цивилизациями, государствами? Если обратиться к социальным насекомым, таким как муравьи, можно рассматривать индивидуального муравья как интеллектуального агента, или же интеллект связан со всей муравьиной колонией, с неким синтетическим мозгом, состоящим из мозгов и тел многих муравьев, взаимосвязанных феромонными сигналами, в отличие от сигналов электрических? С эволюционной точки зрения так думать о колонии муравьев, вероятно, более продуктивно, так как муравьи тесно связаны. Отдельно взятые муравьи, как и другие социальные насекомые, по-видимому, не обладают инстинктом самосохранения, в отличие от инстинкта сохранения колонии: они всегда вступают в битву против захватчиков, даже ценой собственной жизни. Иногда и люди поступают так же, чтобы защитить совсем чужих людей. Виду полезно наличие определенной доли индивидуумов, способных пожертвовать собой в бою, или отправиться в экспедиции в неизвестные земли, или воспитывать чужое потомство. В подобных случаях анализ рациональности, основанный на интересах одного индивида, очевидно упускает из виду нечто существенное.

Другие принципиальные возражения против теории полезности носят эмпирический характер – они опираются на экспериментальные свидетельства, заставляющие предположить, что люди иррациональны. Мы систематически не угождаем аксиомам[32]. Я сейчас не ставлю своей целью отстоять теорию полезности как формальную модель человеческого поведения. Действительно, люди не всегда могут вести себя рационально. Наши предпочтения распространяются на всю собственную дальнейшую жизнь, жизни детей и внуков, а также других существ, которые живут сейчас или будут жить в дальнейшем. Тем не менее мы не можем даже сделать правильные ходы на шахматной доске, в крохотном и простом пространстве с четкими правилами и очень коротким горизонтом планирования. Причина не в иррациональности наших предпочтений, а в сложности проблемы принятия решения. В огромной мере наша когнитивная структура занята тем, что компенсирует несоответствие маленького медленного мозга непостижимо громадной сложности проблемы принятия решения, с которой мы постоянно сталкиваемся.

Таким образом, в то время как было бы весьма неразумно основывать теорию выгодного для нас ИИ на предположении, что люди рациональны, можно вполне заключить, что взрослый человек имеет довольно последовательные предпочтения относительно своей дальнейшей жизни. А именно – если бы вы имели возможность посмотреть два фильма, каждый из которых достаточно подробно описывает вашу возможную будущую жизнь, вы могли бы сказать, какой вариант предпочитаете, или выразить безразличие к обоим[33].

Это, возможно, чересчур сильное заявление, если наша единственная цель – гарантировать, чтобы развитие интеллектуальных машин не обернулось катастрофой для человеческой расы. Сама идея катастрофы предполагает жизнь, со всей определенностью не являющуюся предпочитаемой. Таким образом, чтобы избежать катастрофы, нам достаточно заявить, что взрослые люди способны опознать катастрофическое будущее, если оно показано подробно. Конечно, предпочтения людей имеют намного более детальную и, предположительно, проверяемую структуру, чем простое «отсутствие катастрофы лучше, чем катастрофа».

В действительности теория благотворного ИИ может принять во внимание непоследовательность человеческих предпочтений, но непоследовательную часть предпочтений невозможно удовлетворить, и ИИ здесь совершенно бессилен. Предположим, например, что ваши предпочтения в отношении пиццы нарушают аксиому транзитивности:

РОБОТ. Добро пожаловать домой! Хотите пиццу с ананасами?

ВЫ. Нет, пора бы знать, что я больше люблю обычную.

РОБОТ. Хорошо, обычная пицца уже готовится!

ВЫ. Нет уж, мне больше хочется пиццу с сосисками.

РОБОТ. Прошу прощения! Пожалуйста, вот пицца с сосисками!

ВЫ. Вообще-то, лучше уж с ананасами, чем с сосисками.

РОБОТ. Это мой промах, вот вам с ананасами!

ВЫ. Я ведь уже сказал, что мне больше нравится обычная пицца, а не с ананасами.

Нет такой пиццы, которой робот мог бы вас осчастливить, потому что вы всегда предпочитаете какую-нибудь другую. Робот может удовлетворить только последовательную часть ваших предпочтений – например, если вы предпочитаете все три вида пиццы отсутствию пиццы. В этом случае услужливый робот мог бы подать вам любую из трех пицц, таким образом удовлетворив ваше предпочтение избежать «отсутствия пиццы» и предоставив вам на досуге обдумывать свои раздражающе непоследовательные предпочтения относительно ее ингредиентов.

Рациональность на двоих

Базовая идея, что рациональный агент действует так, чтобы максимизировать ожидаемую полезность, достаточно проста, даже если в действительности добиться этого сложно до невозможности. Теория, однако, применима только в случае, если агент действует в одиночку. При более чем одном агенте идея, что возможно – хотя бы в принципе – приписать вероятности разным результатам его действий, становится проблематичной. Дело в том, что теперь имеется часть мира – другой агент, – пытающаяся предугадать, какое действие вы собираетесь предпринять, и наоборот, поэтому становится неочевидной оценка вероятности того, как намерена вести себя эта часть мира. В отсутствии же вероятностей определение рационального действия как максимизации ожидаемой полезности неприменимо.

Таким образом, как только подключается кто-то еще, агенту требуется другой способ принятия рациональных решений. Здесь вступает в действие теория игр. Несмотря на название, теория игр необязательно занимается играми в обычном понимании; это попытка распространить понятие рациональности на ситуации с участием многих агентов. Очевидно, что это важно для наших целей, поскольку мы (пока) не планируем строить роботов, которые будут жить на необитаемых планетах других звездных систем; мы собираемся поместить роботов в наш мир, населенный нами.


Чтобы прояснить, зачем нам нужна теория игр, рассмотрим простой пример: Алиса и Боб играют во дворе в футбол (рис. 3). Алиса готовится пробить пенальти, Боб стоит на воротах. Алиса собирается направить мяч справа или слева от Боба. Поскольку она правша, для нее проще и надежнее бить вправо от Боба. У Алисы мощный удар, и Боб знает, что должен броситься в одну либо в другую сторону – у него не будет времени подождать и узнать, куда летит мяч. Боб мог бы рассуждать так: «У Алисы больше шансов забить гол, если она пробьет справа от меня, поскольку она правша, значит, это она и выберет, и мне нужно броситься вправо». Однако Алиса не дурочка, она может представить этот ход рассуждений Боба и тогда пробьет влево. Поскольку Боб тоже не дурак и поймет, что замыслила Алиса, то бросится влево. Но Алиса умна и способна представить, что Боб думает именно так… В общем, вы поняли. Иными совами, если у Алисы есть рациональный выбор, Боб тоже может его обнаружить, предвосхитить и помешать Алисе забить гол, так что выбор, в принципе, не может быть рациональным.

Еще в 1713 г. – опять-таки в ходе анализа азартных игр – был найден выход из этого затруднительного положения[34]. Хитрость состоит в том, чтобы выбирать не какое-либо действие, а рандомизированную стратегию. Например, Алиса может выбрать стратегию «бить правее Боба с вероятностью 55 % и левее с вероятностью 45 %». Боб может выбрать «кидаться вправо с вероятностью 60 % и влево с вероятностью 40 %». Каждый мысленно бросает монету с соответствующей тенденцией перед каждым действием, чтобы не отклониться от своих намерений. Действуя непредсказуемо, Алиса и Боб избегают ограничений, описанных в предыдущем абзаце. Даже если Боб выяснит, в чем состоит рандомизированная стратегия Алисы, он бессилен справиться с ней, если у него нет «хрустального шара».

Следующий вопрос: какими должны быть вероятности? Рационален ли выбор Алисы, 55 % на 45 %? Конкретные значения зависят от того, насколько выше точность Алисы при ударе направо от Боба, насколько успешно Боб берет мяч, когда кидается вправо, и т. д. (Полный анализ см. в сносках[35].) Общий критерий, впрочем, очень прост:

1. Стратегия Алисы – лучшая, которую она может выбрать при условии, что Боб неподвижен.

2. Стратегия Боба – лучшая, которую он может выбрать при условии, что Алиса неподвижна.

Если выполняются оба условия, мы говорим, что стратегии находятся в равновесии. Такого рода равновесие называется равновесием Нэша в честь Джона Нэша, который в 1950 г. в возрасте 22 лет доказал, что оно существует для любого числа агентов с любыми рациональными предпочтениями, независимо от правил игры. После нескольких десятилетий борьбы с шизофренией Нэш выздоровел и в 1994 г. получил за эту работу Нобелевскую премию за достижения в экономических науках.

В футбольном матче Алисы и Боба равновесие лишь одно. В других случаях их может быть несколько. Таким образом, концепция равновесия Нэша, в отличие от решений на основе ожидаемой полезности, не всегда ведет к уникальным рекомендациям о том, как действовать.

Что еще хуже, бывают ситуации, когда равновесие Нэша может приводить к крайне нежелательным результатам. Одним из таких случаев является знаменитая «дилемма заключенного», название которой дал в 1950 г. научный руководитель Нэша Альберт Таккер[36]. Игра представляет собой абстрактную модель печально распространенных в реальном мире ситуаций, когда взаимодействие было бы лучше во всех смыслах, но люди тем не менее выбирают взаимное уничтожение.

Вот как работает «дилемма заключенного». Алиса и Боб подозреваются в преступлении и оказываются в одиночном заключении. У каждого есть выбор: признать вину и заложить подельника или отказаться давать показания[37]. Если оба откажутся, то будут обвинены в менее серьезном преступлении и отсидят два года; если оба сознаются, то получат более серьезное обвинение и сядут на 10 лет; если один сознается, а второй запирается, то сознавшийся выходит на свободу, а второй садится на 20 лет.

Итак, Алиса размышляет: «Если Боб решит признаться, то и мне следует признаваться (10 лет лучше, чем 20); если он планирует запираться, то мне лучше заговорить (выйти на свободу лучше, чем провести два года в тюрьме); так или иначе, нужно признаваться». Боб мыслит так же. В результате оба дают признательные показания и сидят 10 лет, тогда как, совместно отказавшись признавать вину, они могли бы отсидеть только два года. Проблема в том, что совместный отказ не является равновесием Нэша, потому что у каждого есть стимул предать другого и освободиться путем признания.

Заметьте, что Алиса могла бы рассуждать следующим образом: «Как бы я ни мыслила, Боб тоже будет размышлять. В конце концов мы выберем одно и то же. Поскольку совместный отказ лучше совместного признания, нам нужно молчать». Эта разновидность рассуждения признает, что, будучи рациональными агентами, Алиса и Боб сделают согласующийся выбор, а не два независимых. Это лишь один из многих подходов, опробованных в теории игр в попытке получить менее удручающие решения «дилеммы заключенного»[38].

Другой знаменитый пример нежелательного равновесия – трагедия общих ресурсов, впервые проанализированная в 1833 г. английским экономистом Уильямом Ллойдом[39], хотя дал ей название и привлек к ней внимание всего мира эколог Гаррет Хардин в 1968 г.[40] Проблема возникает, если несколько человек могут использовать ограниченный и медленно восполняемый ресурс – например, общее пастбище или рыбный пруд. В отсутствие любых социальных или юридических ограничений единственное равновесие Нэша для эгоистичных (неальтруистичных) агентов заключается в том, чтобы каждый потреблял как можно больше, что вело бы к быстрому исчерпанию ресурса. Идеальное решение, при котором все пользуются ресурсом так, чтобы общее потребление было устойчивым, не является равновесием, поскольку у каждого индивида есть стимул хитрить и брать больше справедливой доли – перекладывая издержки на других. На практике, конечно, люди предпринимают меры во избежание этой ситуации, создавая такие механизмы, как квоты и наказания или схемы ценообразования. Они могут это сделать, потому что не ограничены в решении о том, сколько потреблять; кроме того, они имеют возможность принять решение осуществлять коммуникацию. Расширяя проблему принятия решения подобным образом, мы находим выходы, лучшие для каждого.

Эти и многие другие примеры иллюстрируют тот факт, что распространение теории рациональных решений на несколько агентов влечет за собой много видов интересного и сложного поведения. Это крайне важно еще и потому, очевидно, что людей на свете больше одного. Скоро к ним присоединятся интеллектуальные машины. Незачем говорить, что мы должны достичь взаимной кооперации, влекущей за собой пользу для людей, а не взаимное уничтожение.

1
...