Роль больших данных

Первой из движущих сил, породившей огромный интерес и создавшей высочайшую активность в области искусственного интеллекта, является колоссальный объем данных, доступных в современном мире. Специалисты называют разные цифры, но все они сходятся на том, что объем данных, генерируемых человечеством, удваивается каждые два года. Это означает, например, что в 2022 году будет создано (или скопировано) 88 зетабайт (то есть 88 трлн гигабайт) данных. Для нашей темы это исключительно важно, потому что большая часть технологий искусственного интеллекта подпитывается массовыми данными – без них искусственный интеллект был бы бесполезен, как электростанция без топлива.

Чтобы обучить систему искусственного интеллекта (например, нейронную сеть) с той или иной степенью точности, требуются миллионы примеров, и чем сложнее модель, тем больше примеров необходимо. Вот почему крупные интернет-компании и социальные сети, такие как Google и Facebook, настолько активны в сфере искусственного интеллекта – именно у них в первую очередь достаточно данных для такой работы. Поиски, выполняемые с помощью Google, создают около 3,5 млрд запросов в день, а публикации в «Фейсбуке» ежедневно обновляют 421 млрд статусов, загружают 350 млн фотографий и генерируют почти 6 трлн «лайков» – так вот и возникает топливо для этих систем. Один только Facebook формирует около 4 млн гигабайт данных каждые 24 часа.

Этот огромный объем данных используется искусственным интеллектом для создания тех или иных «ценностей» – в самом широком понимании. Воспользуемся снова простым примером, который я использовал в предыдущей главе: когда систему DNN обучают распознавать изображения собак. Чтобы научить систему, вам понадобится множество изображений собак, помеченных для системы как «собака», и такое же множество других изображений, где собаки отсутствуют и которые, соответственно, помечены как «собак нет». Только после того, как система научится распознавать собак с использованием исходного набора данных и пройдет этап предварительной проверки, на котором алгоритм дополнительно настраивается с использованием обучающих данных, разбитых на подмножества, систему можно (и нужно) протестировать на «чистом», то есть немаркированном наборе изображений.

Не существует строгих указаний относительно того, сколько именно данных необходимо для подобного тестирования, но, как правило, потребность в обучающих данных составляет около 30 % от общего массива.

Огромные объемы данных, которые мы постоянно создаем, используются в компьютерном мире каждую минуту и большей частью без нашего ведома, но с нашего согласия (как правило, невольного или неявного). Взять, к примеру, ваши поиски в Google. Когда вы вводите поисковый запрос, вы периодически пишете слова неправильно, или с ошибками, или не вполне стандартным (например, просторечным) образом. В ответ на это Google обычно предлагает вам результаты, основанные на правильном, или более распространенном, или более литературном написании этого слова. Скажем, если я пишу «Эндрю Дерджесс» (англ. Andrew Durgess), Гугл показывает мне результаты для Эндрю Берджесса (англ. Andrew Burgess), хотя я могу заставить его выполнить поиск именно для написанного мной варианта. Это означает, что Google постоянно собирает данные о версиях слов с ошибками и, что еще важнее, о том, какие предлагаемые системой исправления являются приемлемыми для пользователя, а какие – нет. Все эти данные затем используются для настройки проверки орфографии с помощью искусственного интеллекта. Но если, как в моем примере, существует реальный человек по имени Эндрю Дерджесс, который завтра внезапно станет знаменитым, то множество людей бросятся искать информацию о нем, и Google быстро отменит исправление «Эндрю Берджесс», поскольку все меньше и меньше людей принимают его и вместо этого выберут поиск: «Эндрю Дерджесс, точно как написано».

Экспоненциальный рост объема данных происходит сейчас не только в социальных сетях и поисковых системах. Все больше и больше нашей коммерческой деятельности осуществляется в интернете или обрабатывается с помощью корпоративных систем, что создает огромный поток информации. Так, в секторе розничной торговли для создания новых данных нам совершенно необязательно совершать покупки именно онлайн. Даже когда наша покупка регистрируется в обычном магазине (причем здесь нет даже необходимости фиксировать наше имя), розничные компании смогут использовать эти данные для прогнозирования тенденций спроса и выбора товаров, что уже помогает им оптимизировать цепочку поставок. А когда эти покупки удается связать с отдельным клиентом (например, с помощью карты постоянного покупателя или учетной записи в интернете), данные становятся гораздо информативнее и, следовательно, намного ценнее. Теперь фирма может предсказывать, какие еще товары или услуги вы также можете купить на ее торговых площадках, и будет активно их вам предлагать. Если вы совершаете покупки в интернете, то записываются не только данные о самих покупках: каждая посещенная вами страница, время, которое вы проводите на них, просмотренные вами продукты – все это отслеживается, увеличивая объем и ценность данных, «скармливаемых» искусственному интеллекту.

Как только покупка совершена, торговая компания тут же начнет создавать и собирать новые данные и извлекать из них ценность. Каждый раз, когда вы взаимодействуете с продавцами через веб-сайты, контакт-центры или оставляете отзыв у них на сайте или через сторонние агрегаторы (либо социальные сети), вы сами создаете все больше полезных для них данных. Даже бытовое использование продуктов или услуг, подключенных к интернету или зарегистрированных онлайн, создаст дополнительные сведения, выгодные для коммерции. Например, телекоммуникационные компании будут использовать данные о любой вашей сетевой активности и взаимодействиях, чтобы с помощью искусственного интеллекта попытаться предсказать, не захотите ли вы (и если захотите, то как скоро) перейти от них к конкуренту. Данные для обучения искусственного интеллекта поступают даже от клиентов, которые фактически расторгли контракты (то есть в одностороннем порядке перестали пользоваться услугами): искусственный интеллект использует эти сведения для определения всевозможных факторов, формирующих отток клиентов, и затем применяет их для анализа активности и особенностей поведения существующих клиентов. Аналогичным образом банки могут выявлять мошеннические транзакции на вашем счету благодаря тому, что у них имеется множество обработанных данных о подлинных, сомнительных и откровенно нелегальных транзакциях по различным счетам: ведь ежедневно в мире совершается около 300 млн транзакций по кредитным и дебетовым картам.

Другим источником больших данных являются всевозможные текстовые документы: газеты, книги, технические документы, сообщения в блогах, электронные письма и т. д. Еще одну группу составляют генетические и биомедицинские данные (рентген, пьезоэлектрическая и магнитно-резонансная томография, ультразвуковая диагностика и т. д.), климатические и метеорологические показатели (температура, влажность, давление, ветер, содержание кислорода и т. д.).

Там же, где данных не существует, они создаются целенаправленно. Обучающие наборы данных специально собираются или разрабатываются для самых распространенных или насущных задач, где можно применить искусственный интеллект. Например, чтобы распознавать числа в рукописном виде, американский Национальный институт стандартов (National Institute of Standards) создал базу данных (MNIST), содержащую 60 000 образцов рукописных цифр и 10 000 тестовых образцов. Существуют аналогичные базы данных для распознавания лиц, аэрофотоснимков, новостных статей, речи, для отслеживания движения, для диагностики биологических и антропометрических параметров и многого другого. Они незаменимы для разработки самых актуальных и необходимых приложений для машинного обучения.

Еще один интересный аспект, касающийся лавинообразного накопления и использования данных, заключается в том, что они прямо на наших глазах ставят привычные бизнес-модели с ног на голову. Google и Facebook не создавались в качестве компаний, занимающихся сбором данных и использованием искусственного интеллекта, но они быстро превратились именно в таких бизнес-гигантов. А сейчас для сбора данных специально создаются новые компании, которые используют для получения информации другие (обычно бесплатные) сервисы. Хорошим примером целенаправленного сбора и использования данных для доброго дела является деятельность компании Sea Hero Quest. На первый взгляд, их сервис очень похож на игру для мобильного телефона, но на самом деле он использует данные о том, как люди играют на телефоне или планшете, чтобы лучше понять природу старческой деменции и, в частности, разобраться в том, какие особенности существуют в нарушениях пространственной навигации в разрезе возраста, пола и географии. На момент написания книги в игровом сервисе приняло участие 2,7 млн человек, и это крупнейший проект по исследованию деменции в истории. Коммерческие предприятия используют аналогичный подход: они создают «фасадные» продукты или услуги, которые на самом деле существуют только для сбора ценных данных, реально использующихся совсем в других целях.

Конец ознакомительного фрагмента.

...

3 4 5

Премиум

(2 оценки)

Читать книгу: «Искусственный интеллект – для вашего бизнеса. Руководство по оценке и применению»

Name: Искусственный интеллект – для вашего бизнеса. Руководство по оценке и применению
Rating: 3 (2 reviews)
Author: Эндрю Берджесс
ISBN: 9785907394001