Данные – это новая нефть.
Меглена Кунева, еврокомиссар по защите прав потребителей
Единственным источником знаний является опыт.
Альберт Эйнштейн
Богу мы верим, все остальные должны предоставлять данные.
Уильям Эдвардс Деминг (американский ученый, известный своей теорией управления качеством)
Большинство людей не испытывают никакого интереса к данным. Что может быть скучнее, чем эти бесконечные массивы сухих цифр и фактов, порой столь банальных, как пост в Twitter типа «Я купил себе новые кроссовки!». Это бесполезный побочный продукт, который в огромных количествах образуется в процессе ведения любого бизнеса.
Вы ошибаетесь! Правда в том, что данные представляют собой бесценное собрание опыта, на котором можно учиться. Каждая медицинская процедура, кредитная заявка, публикация на Facebook, рекомендация фильма, акт мошенничества, спам-сообщение или покупка – каждый положительный или отрицательный результат, каждая успешная или неудачная попытка продажи, каждый инцидент, событие и транзакция – кодируются как данные и сохраняется в базе данных. По оценкам, объемы данных увеличиваются на 2,5 квинтиллиона байтов в день (это единица с 18 нулями). Вот где произошел настоящий Большой взрыв, породив безграничные потоки сырых, необработанных данных, с которыми могут справиться только компьютеры. При правильном использовании компьютеры жадно поглощают этот океан данных – и учатся на них.
Иногда погоня за данными превращается в настоящую золотую лихорадку. Но данные – это не золото. Повторяю, необработанные данные – это сырье. Золото – то, что можно из них добыть.
Процесс машинного обучения на основе данных раскрывает всю мощь этого все возрастающего ресурса. Он позволяет выявить, что движет людьми и их поступками, что цепляет нас за душу и как устроен мир. Получение таких знаний и делает прогнозирование возможным.
Например, благодаря машинному обучению мы получили такие ценные сведения, как[1]:
• ранний выход на пенсию уменьшает ожидаемую продолжительность жизни;
• люди, которых на сайтах знакомств чаще отмечают как привлекательных, вызывают меньше интереса;
• большинство фанатов Рианны по своим политическим убеждениям – демократы;
• вегетарианцы реже пропускают авиарейсы;
• количество преступлений на местном уровне увеличивается после публичных спортивных мероприятий.
Машинное обучение опирается на подобные знания, чтобы совершенствовать прогнозные возможности систем через процесс обработки больших объемов данных по методу проб и ошибок, уходящий корнями в статистику и компьютерную науку.
Располагая такими возможностями, что мы хотели бы спрогнозировать? Фактически все, что делает человек, стоит того, чтобы стать предметом прогнозирования, – а именно то, как мы потребляем, думаем, работаем, уходим, голосуем, любим, воспроизводим потомство, разводимся, создаем проблемы, обманываем, воруем, убиваем или умираем. Давайте рассмотрим некоторые примеры[2].
• Голливудские киностудии, принимая решение о производстве фильмов, прогнозируют их успех.
• Американский сервис Netflix заплатил $1 млн группе ученых, которым удалось лучше других усовершенствовать способность его системы рекомендаций прогнозировать, какие фильмы должны понравиться его пользователям.
• Австралийская энергетическая компания Energex прогнозирует спрос на электроэнергию для принятия решений о том, где строить собственные электросети, а компания Con Edison – возможные сбои системы в случае повышения уровня энергопотребления.
• Уолл-стрит прогнозирует цены акций, наблюдая за их движением под влиянием динамики спроса. Такие фирмы, как AlphaGenius и Derwent Capital, управляют торговыми операциями своих хедж-фондов, отслеживая тренды и настроения широкой общественности через посты на Twitter.
• Компании – от гиганта U. S. Bank до небольших фирм, таких как Harbor Sweets (производитель сладостей) и Vermont Country Store («классические продукты высокого качества, которые трудно найти»), – прогнозируют, какие клиенты будут покупать их продукцию, чтобы нацелить на них свои маркетинговые усилия. Эти прогнозы диктуют распределение драгоценных маркетинговых бюджетов. Некоторые компании в буквальном смысле прогнозируют даже то, как наилучшим образом повлиять на вас, чтобы заставить покупать еще больше (эта тема рассматривается в главе 7).
• Прогнозирование определяет и то, какие купоны вы получаете в кассе супермаркетов. Британский розничный гигант Tesco, третья по величине сеть продуктовых магазинов в мире, прогнозирует эффективность этого целевого маркетинга и ежегодно распределяет более 100 млн персонализированных скидочных купонов в 13 странах мира. Благодаря прогнозированию уровень использования купонов вырос в 3,6 раза по сравнению с предыдущими программами. Аналогичным образом поступают Kmart, Kroger, Ralph’s, Safeway, Stop & Shop, Target и Winn-Dixie.
• Прогнозирование вероятности кликов приносит щедрое вознаграждение. Поскольку веб-сайтам часто платят за каждый клик по размещенным на них рекламным объявлениям, то им важно спрогнозировать, какие объявления скорее всего привлекут ваше внимание, чтобы немедленно показать их вам. Использование прогнозирования для правильного подбора рекламы обеспечивает многомиллионные доходы.
• Ведущая социальная сеть для делового общения LinkedIn прогнозирует ваши профессиональные навыки.
• Популярные сайты знакомств Match.com, OkCupid и eHarmony прогнозируют, какая из красоток на вашем экране подходит вам больше всего.
• Ретейлер Target прогнозирует, кто из покупателей ждет ребенка, чтобы рекламировать соответствующие товары. Ничто не предсказывает будущие потребительские нужды лучше, чем ожидаемое рождение нового потребителя.
• Клинические исследователи прогнозируют вероятность супружеской неверности и развода. Существуют даже сайты, на которых вы можете самостоятельно оценить ваши шансы на долгий и прочный брак (например, www.divorce360.com). По слухам, компании, эмитирующие кредитные карты, делают то же самое.
• В 2012 году Обама был переизбран президентом благодаря прогнозированию поведения избирателей. Его предвыборная кампания строилась на прогнозировании того, какие избиратели положительно отреагируют на контакт (через телефонный звонок, личный визит, листовку или телевизионную рекламу), а каких такого рода контакт непроизвольно подтолкнет проголосовать против. Эта технология была использована для принятия решений о методах предвыборной агитации для миллионов избирателей в колеблющихся штатах и помогла успешно склонить на сторону Обамы намного больше избирателей, чем позволило бы сделать традиционное таргетирование.
• «Что вы имеете в виду?» Системы научились определять намерение, стоящее за письменным словом. Citibank и PayPal выявляют отношение клиентов к их продуктам, а разработанная одним исследователем программа может сказать, какие отзывы о книгах на Amazon.com носят саркастический характер.
• Разработаны компьютерные программы по автоматическому оцениванию школьных сочинений, которые также работают на основе прогнозирования. Они оценивают сочинения так же точно, как и преподаватели.
• Созданный компанией IBM суперкомпьютер Watson принял участие в популярном в США интеллектуальном телешоу Jeopardy! (российский аналог – «Своя игра») и победил двух самых именитых чемпионов за всю его историю. Опираясь на технологию прогнозирования, эта машина умеет понимать заданные в свободной форме вопросы на самые разные темы и находить на них ответы в базе данных.
• Компьютеры буквально умеют читать ваши мысли. Исследователи научили системы декодировать сканы головного мозга и определять, о какого рода вещах вы сейчас думаете – таких как определенные инструменты, здания или еда, – с точностью более 80 %. В 2011 году IBM высказала прогноз, что через пять лет технологии чтения мыслей станут преобладающим направлением исследований.
• Компания Hewlett-Packard оценивает каждого из своих более чем 330 000 сотрудников по всему миру по шкале «Риск ухода», показывающей вероятность того, что этот человек покинет компанию, – чтобы менеджеры могли заранее вмешаться там, где это возможно, и изменить ситуацию.
• Вы когда-нибудь были недовольны услугами сотовой связи? Ваш оператор хочет об этом знать. Все крупные сотовые операторы занимаются прогнозированием вероятности того, что вы решите уйти к конкуренту (возможно, еще до того, как у вас в голове сформируется такая мысль), используя такие показатели, как сброс вызовов, интенсивность использования телефона, информация о счетах и уход к другим операторам абонентов из вашего списка контактов.
• FedEx стабильно сохраняет за собой позиции лидера рынка, прогнозируя с точностью от 65 до 90 %, какие клиенты могут уйти к конкурентам.
• Американская система государственных университетов (APUS) прогнозирует, какие студенты могут бросить учебное заведение, и использует эти прогнозы. Университеты штатов Алабама, Аризона, Айова, Оклахома и нидерландский Технический университет в Эйндховене также прогнозируют выбытие студентов.
• «Википедия» прогнозирует, кто из ее редакторов, работающих бесплатно из любви к своему делу и ради развития этого бесценного онлайн-актива, собирается прекратить оказывать ей добровольную помощь.
• Исследователи из Гарвардской медицинской школы прогнозируют, что, если ваши друзья бросают курить, у вас больше шансов сделать то же самое. Отказ от курения заразителен.
• Страховые компании прогнозируют, кто из страхователей вероятнее всего попадет в аварию или сломает ногу, катаясь на горных лыжах. Allstate прогнозирует ответственность за причинение телесных повреждений при автомобильных авариях на основе характеристик застрахованного транспортного средства, что позволяет компании экономить около $40 млн в год. Другой ведущий страховщик сообщил о том, что экономит почти $50 млн в год благодаря применению передовых предиктивных моделей в своей практике актуарных расчетов.
• Компания Ford также использует прогнозный анализ данных, так что ее автомобили могут определить, когда у водителя снижается концентрация внимания из-за каких-либо отвлекающих факторов, усталости или опьянения, и принять меры, например подать звуковой сигнал.
• Используя данные Национального совета по безопасности на транспорте (США), исследователи установили, какие происшествия на воздушном транспорте имеют в пять раз более высокую, чем в среднем, вероятность привести к фатальному исходу.
• Все крупные банки и эмитенты кредитных карт прогнозируют, какие заемщики вероятнее всего могут нарушить обязательства по возврату кредита. Коллекторские агентства строят работу с каждым проблемным должником на основании прогнозов о том, какая тактика позволит им взыскать с него максимальную сумму.
О проекте
О подписке