Читать книгу «Мир-фильтр. Как алгоритмы уплощают культуру» онлайн полностью📖 — Кайла Чейка — MyBook.

Однако технология проекта “Киберсин” являлась лишь фасадом, своеобразным фантастическим дизайн-концептом – интерактивной иллюзией возможного. Компьютерные сети того времени не позволяли реализовать его потенциал. Вывод данных осуществлялся вручную, а не автоматически. Центр использовал единственный компьютер, получавший информацию от чилийских заводов с помощью телексных аппаратов через телефонные линии. И, наконец, хотя центр и закончили, его так и не запустили[12]. Одиннадцатого сентября 1973 года правительство Альенде было свергнуто при поддержке ЦРУ, и к власти пришел Аугусто Пиночет.

Фотографии проекта “Киберсин” по-прежнему обладают неоспоримой притягательностью. Они снова и снова мелькают на дизайнерских досках настроения, демонстрируя эстетику, которая даже спустя много десятилетий все еще выглядит футуристично. Возможно, эти изображения впечатляют по той причине, что мы сохраняем мечту обработки реальных исходных данных и переработки их в цифровые схемы, после оценивания которых определяется правильный путь действий. Проект “Киберсин” излучал ощущение непогрешимости, хотя изобретатели уровня Тьюринга понимали, что компьютеры не могут работать настолько идеально. Как утверждал пионер кибернетики Стаффорд Бир, мы стремимся использовать машины для автоматизации уже существующих структур и процессов, которые изначально являлись творениями человека. Указывая на этот парадокс, Бир писал в своей книге 1968 года “Наука управления”: “Мы закрепляем в стали, стекле и полупроводниках те самые ограничения руки, глаза и мозга, для преодоления которых и был изобретен компьютер”. Как и в случае с механическим турком, внутри машины остается человек.

Сегодня мы уже располагаем вариантами алгоритмического правительства и алгоритмической жизни: банки прибегают к машинам, чтобы определить, кто получит кредит; Spotify использует данные о ваших прошлых действиях, чтобы рекомендовать те песни, которые лучше всего подходят вашей душевной организации. Однако технология, которая все это обеспечивает, не похожа на проект “Киберсин”. У нее нет шестиугольных комнат и кресел с подлокотниками. Алгоритмы стали одновременно невидимыми и вездесущими, они содержатся в приложениях, которые мы носим с собой на телефонах, хотя их данные физически хранятся где-то далеко, на огромных серверных фермах с градирнями, расположенных в малозаметных местах на природе. Если в проекте “Киберсин” предполагалось, что мир, управляемый данными, может быть последовательным и понятным и его можно заключить в рамки помещения диспетчерского центра, то теперь мы знаем, что он абстрактный и диффузный, он везде и нигде одновременно. Нас побуждают забыть о наличии алгоритмов.

Новые технологии неизбежно порождают новые формы поведения, но это поведение редко совпадает с тем, которого ожидают изобретатели. Технология обладает собственным смыслом, который в конечном итоге выходит на первый план. Маршалл Маклюэн написал знаменитый афоризм “Средство коммуникации есть сообщение”[13] в своей книге 1964 года “Понимание медиа: внешние расширения человека”. Он имел в виду, что структура нового средства передачи информации – электрического света, телефона, телевидения – важнее содержания, которое через него передается. Сама способность телефона соединять людей превосходит любой конкретный разговор. Маклюэн писал: “Ибо «сообщением» любого средства коммуникации, или технологии, является то изменение масштаба, скорости или формы, которое привносится им в человеческие дела”. В нашем случае средством передачи является алгоритмическая лента; она масштабирует и ускоряет взаимосвязь людей по всему миру до невообразимой степени. Смысл ее функции заключается в том, что на каком-то уровне наши коллективные потребительские привычки, переведенные в данные, приводят к одинаковости.

Как работают рекомендательные алгоритмы

Алгоритмы – это цифровые машины, которые, подобно конвейеру на фабрике, превращают серию входных данных в определенный результат на выходе. Отличие одного алгоритма от другого заключается не столько в структуре, сколько в компонентах, из которых они строятся. Все рекомендательные алгоритмы работают, собирая набор исходных данных. Общий термин для этого набора данных – “сигнал”, собранные входные данные, которые поступают в машину. Этот сигнал может включать в себя сведения о прошлых покупках пользователя на Amazon или о том, сколько других пользователей отдали предпочтение определенной песне на Spotify. Подобные сведения имеют не качественную, а количественную форму, поскольку их должна обрабатывать машина. Поэтому даже если эти данные относятся к такой субъективной теме, как музыкальные предпочтения, они выражаются цифрами: х пользователей поставили группе y среднюю оценку z, или х пользователей прослушали треки группы y z раз. Основным сигналом для многих рекомендаций в социальных сетях является проявление интереса, или вовлеченность, которая описывает, каким образом пользователи взаимодействуют с контентом. Это может выражаться в лайках, ретвитах или просмотрах – всевозможные кнопки, расположенные рядом с постом. Высокая вовлеченность означает, что количество лайков, просмотров или перепостов у данного сообщения выше, чем у других.

Этот сигнал проходит через преобразователь данных, который превращает его в пакеты, предназначенные для обработки различными алгоритмами. Данные о вовлеченности можно отделить от данных о рейтингах или от данных о тематике самого контента. Чтобы добавить информацию об отношениях пользователей друг к другу в рамках одной платформы, можно использовать социальный калькулятор – например, я часто просматриваю в Инстаграме посты моего друга Эндрю, и это заставляет систему рекомендаций с большей вероятностью ставить его посты на первое место в моей персональной ленте.

Далее идет конкретное уравнение индивидуального алгоритма. В современных платформах очень редко работает лишь один алгоритм – обычно их много. Мы имеем дело с целым набором различных уравнений, которые учитывают переменные и обрабатывают их несколькими способами. Одно уравнение рассчитывает результат, основываясь только на вовлеченности (например, находит контент с самой высокой средней вовлеченностью), в то время как другое отдает приоритет социальному контексту контента для конкретного пользователя. Эти алгоритмы также получают тот или иной показатель приоритета относительно друг друга. Комбинированная фильтрация – технология, в рамках которой используется несколько методов. Наконец, на выходе получается сама рекомендация – следующая песня в автоматическом плейлисте или упорядоченный список постов. Алгоритм определяет, например, что сообщение из жизни друга появится в вашей ленте Фейсбука выше политических новостей.

Один из руководителей сервиса Pandora, который каталогизирует и рекомендует музыку, однажды описал мне систему этой компании как целый “оркестр” алгоритмов с “дирижирующим” алгоритмом. Каждый алгоритм применяет собственные стратегии для выработки рекомендаций, а затем алгоритм-дирижер определяет, какие варианты выдать в тот или иной момент. (При этом единственный результат работы сервиса – следующая песня в плейлисте.) В разные моменты требуются разные алгоритмические методы рекомендаций.

Единого монолитного “алгоритма” не существует, поскольку каждая платформа работает по-своему, используя индивидуальные переменные и наборы уравнений. Важно помнить, что работа ленты Фейсбука – это коммерческое решение, аналогичное тому, как производитель продуктов питания решает, какие ингредиенты использовать. Алгоритмы также меняются со временем, совершенствуясь с помощью машинного обучения. Данные, которые они получают, используются для постепенного самосовершенствования, чем стимулируется еще большее вовлечение; машина адаптируется к пользователям, а пользователи – к машине. Различия между платформами стали более заметными и актуальными в середине 2010-х годов, когда социальные сети и стриминговые сервисы усилили алгоритмическую подачу информации и та стала основой пользовательского опыта.

Мы, пользователи, в принципе не понимаем, как обычно работают алгоритмические рекомендации. Их уравнения, переменные и весовые коэффициенты не являются общедоступной информацией, потому что технологические компании не заинтересованы в их обнародовании. Они являются коммерческой тайной и важны для бизнеса почти так же, как коды запуска ядерных ракет – для государства. Их редко раскрывают; редко встречаются даже намеки на них. Одна из причин заключается в том, что в условиях общедоступности алгоритма пользователи получат возможность обманывать систему, чтобы продвигать свой собственный контент. Еще одна причина – страх перед конкуренцией: другие цифровые платформы могут украсть “секретный ингредиент” и состряпать более качественный продукт. И все же эти инструменты, как и многие другие цифровые технологии, зародились в некоммерческой среде.

Алгоритмы рекомендаций как способ автоматической обработки и сортировки информации начали применяться в 1990-х годах. Одним из первых примеров стала система сортировки электронной почты – муторное занятие и по сей день. Уже в 1992 году инженеры научно-исследовательского центра компании Xerox в Пало-Альто (более известного как PARC) начали утопать в почте. Они пытались решить проблему “растущего использования электронной почты, в результате которого пользователей захлестывает колоссальный поток входящих документов”, как написали Дэвид Голдберг, Дэвид Николс, Брайан Оки и Дуглас Терри в статье 1992 года. (Они даже не подозревали, с каким объемом цифровой коммуникации мы столкнемся в XXI веке.) Их система фильтрации электронной почты под названием Tapestry использовала два вида алгоритмов, работавших совместно: “фильтрация на основе содержания” и “совместная фильтрация”. Первый, который уже применялся в нескольких системах электронной почты, оценивал текст писем – например, если вы хотели установить приоритет по слову “алгоритм”. Второй, более инновационный метод, основывался на действиях других пользователей. При определении приоритета конкретного письма учитывалось, кто его открыл и как на него отреагировал. В статье говорилось:

Люди помогают друг другу осуществлять фильтрацию, записывая свои реакции на прочитанные документы. Например, такая реакция может уведомлять, что документ показался особенно интересным (или особенно неинтересным). Подобные реакции, называемые в общем случае аннотациями, могут быть доступными фильтрам других людей.

В Tapestry использовались “фильтратор”, запускавший повторяющиеся запросы по набору документов, “ящичек”, собиравший материалы, которые могли заинтересовать пользователя, и “оценщик”, который устанавливал приоритеты и категоризировал документы. Концептуально это очень похоже на современные алгоритмические ленты: цель Tapestry заключалась в том, чтобы выводить на первый план контент, который с наибольшей вероятностью окажется важен для пользователя. Однако подобная система требовала гораздо больше предварительных действий со стороны пользователей: им приходилось писать запросы, по которым система определяла, что они желают увидеть, основываясь либо на контенте, либо на действиях других пользователей. Остальным пользователям в системе также приходилось выполнять весьма целенаправленные действия, помечая материал как важный или нерелевантный. Для подобной схемы требуется небольшая группа людей, которые уже знают друг друга и понимают, как их сообщество взаимодействует с электронной почтой – например, вы уже осведомлены, что Джефф отвечает только на особо важные письма, и поэтому вы хотите, чтобы ваш фильтр выводил наверх все письма, на которые отвечает Джефф. Tapestry лучше всего функционировала в весьма небольшой системе.

В 1995 году Упендра Шардананд и Пэтти Маес из MIT Media Lab (медиалаборатории Массачусетского технологического института) описали в своей статье “социальную фильтрацию информации” – “технику создания персонализированных рекомендаций из любой базы данных для пользователя на основе сходства профилей интересов”. Эта работа опиралась на идеи Tapestry и стала ответом на перегруженность онлайн-информацией: “Объем значительно больше, нежели человек может отфильтровать, чтобы найти то, что ему понравится”. Авторы пришли к выводу о необходимости автоматизированных фильтров: “Нам нужна технология, которая поможет продраться через всю информацию, чтобы найти то, что нам действительно нужно, и избавит нас от того, с чем мы не хотим заморачиваться”. (Естественно, эта проблема актуальна до сих пор.) Шардананд и Маес утверждали, что у фильтрации на основе содержания есть существенные недостатки. Она требует перевода материала в данные, понятные машине, например в текст; ей не хватает интуитивной прозорливости, поскольку она может фильтровать только по терминам, которые вводит пользователь; и она не измеряет внутреннее качество. Она не способна “отличить хорошо написанную статью от плохо написанной, если в этих двух работах используются одинаковые термины”. Невозможность оценить качество наводит на мысли об искусственном интеллекте: новые инструменты вроде ChatGPT, казалось бы, способны понимать и генерировать осмысленный язык, однако на самом деле они лишь повторяют схемы, присущие уже существующим данным, на которых они обучались. Качество субъективно; сами по себе данные – без человеческой оценки – не могут его определить.

Социальная фильтрация информации позволяет обойти эти проблемы, поскольку основана на действиях людей-пользователей, которые самостоятельно оценивают содержание, используя как количественные, так и качественные суждения. Это больше похоже на сарафанное радио, когда мы получаем советы, что послушать или посмотреть, от друзей, чьи предпочтения схожи с нашими собственными: “Объекты рекомендуются пользователю на основе величин, присвоенных другими людьми со сходным вкусом”, – говорилось в статье. Сходство вкусов одного пользователя с другим определялось с помощью статистической корреляции. Чтобы давать музыкальные рекомендации, исследователи разработали систему под названием Ringo, использующую электронную почту. Пользователю предлагали первоначальную группу из 125 исполнителей, он выставлял оценки по шкале от 1 до 7, после чего строилась диаграмма его предпочтений. Затем программа сравнивала эту диаграмму с диаграммами других пользователей и подбирала музыку, которая человеку предположительно понравится (или совсем не понравится – такой вариант тоже был). Рекомендации Ringo также сопровождались указателем уровня уверенности, который выдавал вероятность того, что предложение окажется удачным, и позволял пользователю дополнительно подумать над предложенным алгоритмическим выбором. К сентябрю 1994 года у Ringo были двадцать одна сотня пользователей и пятьсот электронных писем в день с оценками музыки.

Ringo тестировала различные алгоритмы для принятия решений на основе музыкальных рейтингов. Первый алгоритм измерял несходство между вкусами пользователей и основывал рекомендации на максимальном сходстве. Второй измерял сходство, а затем использовал для принятия решений положительные и отрицательные корреляции с другими пользователями. Третий определял корреляцию между различными исполнителями и рекомендовал музыкантов, которые сильно коррелировали с теми, что уже нравились данному человеку. Четвертый алгоритм (по мнению исследователей, самый эффективный) подбирал пользователей на основе того, положительно или отрицательно они оценивали одни и те же вещи – иными словами, на основе совпадения вкусов. Сходство оказалось наилучшей переменной. Чем больше пользователей включалось в систему и чем больше сведений они предоставляли, тем лучше работала Ringo – некоторые пользователи даже назвали систему “пугающе точной”. Инновация Ringo заключалась в том, что она подтверждала: наилучшим источником точных рекомендаций или лучших индикаторов релевантности, скорее всего, являются другие люди, а не анализ самого содержания. Концепция отражала повышение важности человеческого вкуса.

Первые алгоритмы интернета разработали для того, чтобы просеивать огромное количество материала в поисках вещей, важных для пользователя, и затем представлять их в связном виде. Целью были рекомендации: рекомендовать ту или иную информацию, песню, картинку или новость в социальных сетях. Алгоритмическую подачу информации иногда более формально и буквально называют “рекомендательными системами” за простой акт выбора того или иного контента.

1
...