В ноябре 2018 года Google запустила BERT с открытым исходным кодом на платформе GitHub.
С этого момента каждый может использовать предварительно обученные коды и шаблоны BERT для быстрого создания собственной системы.
Сам Google использовал BERT в своей поисковой системе. В октябре 2019 года Google объявил о своем самом большом обновлении за последнее время: внедрении BERT в алгоритм поиска на английском языке.
Google уже принял модели для понимания человеческого языка, но это обновление было объявлено одним из самых значительных скачков в истории поисковых систем.
Изначально BERT был запущен только в США и на английском языке. Но к декабрю 2019 года модель уже была расширена до более чем 70 языков. Таким образом, результаты поиска по всему миру стали более качественными.
Если кто-то думает, что здесь речь пойдет о нейро-лингвистическом программировании, то нет. Здесь рассматриваем другое НЛП.
Чтобы объяснить, что такое BERT, мы упомянули, что этот алгоритм является моделью обработки естественного языка (NLP).
НЛП – это область искусственного интеллекта, которая сходится с лингвистикой при изучении взаимодействия человека и вычислительных языков. Намерение состоит в том, чтобы заполнить пробелы между одним языком и другим и заставить их общаться.
Этот тип системы существует уже давно, начиная с работы Алана Тьюринга в 1950-х годах.
Но именно в 1980-х годах модели НЛП оставили свои рукописи и были внедрены в искусственный интеллект. С тех пор компьютеры обрабатывают большие объемы данных, что произвело революцию в отношениях между людьми и машинами.
Мы можем не замечать этого в нашей повседневной жизни, но наше вербальное выражение чрезвычайно сложно и разнообразно.
Существует так много языков, синтаксических правил, семантических отношений, сленгов, поговорок, сокращений и ежедневных ошибок, что порой люди едва понимают друг друга!
Это становится еще сложнее для компьютеров, поскольку мы используем для них неструктурированный язык, которому затем нужны системы, чтобы понять его.
Для этого в НЛП используется ряд техник, таких как абстрагирование того, что не имеет отношения к тексту, исправление орфографических ошибок и приведение слов к их радикальным или инфинитивным формам.
Оттуда можно структурировать, сегментировать и классифицировать контент, чтобы понять, как части имеют смысл вместе. Затем система также вырабатывает ответ на естественном языке для взаимодействия с пользователем.
Такая система позволяет, например, сказать «Алекса, расскажи мне рецепт шоколадного торта», а виртуальный помощник Amazon отвечает ингредиентами и способом приготовления. Заметьте, что ответ не содержит слов Алекса, расскажи мне, а выдаёт ответ, которого ждет пользователь.
Это решение используется сегодня в нескольких ресурсах, таких как взаимодействие с чат-ботами, автоматический перевод текстов, анализ эмоций в мониторинге социальных сетей и, конечно же, поисковая система Google.
Google постоянно изучает способы улучшения взаимодействия с пользователем и достижения наилучших результатов. Это не начинается и не заканчивается с BERT.
В 2015 году поисковая система объявила об обновлении, которое изменило поисковую вселенную: RankBrain.
Алгоритм впервые использовал искусственный интеллект для понимания контента и поиска.
Как и BERT, RankBrain также использует машинное обучение, но не выполняет обработку естественного языка. Метод фокусируется на анализе запросов и группировании слов и фраз, которые семантически похожи, но не могут понимать человеческий язык сами по себе.
Таким образом, когда в Google делается новый запрос, RankBrain анализирует прошлые поисковые запросы и определяет, какие слова и фразы лучше всего соответствуют этому запросу, даже если они не соответствуют точно или никогда не искались.
Получая сигналы взаимодействия с пользователем, боты узнают больше о взаимосвязях между словами и улучшают рейтинг.
Таким образом, это был первый шаг Google в понимании человеческого языка. Даже сегодня это один из методов, используемых алгоритмом для понимания целей поиска и содержимого страницы, чтобы предоставить пользователям лучшие результаты.
Таким образом, BERT не заменил RankBrain – он просто принес еще один метод понимания человеческого языка. В зависимости от запроса алгоритм Google может использовать любой метод (или даже комбинировать оба), чтобы предоставить пользователю наилучший ответ.
Имейте в виду, что алгоритм Google формируется из огромной сложности правил и операций. RankBrain и BERT играют значительную роль, но они являются лишь частью этой надежной поисковой системы.
Одним из отличий Google от других систем обработки языка является его двунаправленный характер. Но что это значит?
Другие системы являются только однонаправленными. То есть они только контекстуализируют слова, используя термины, которые находятся слева или справа от них в тексте.
BERT работает в обоих направлениях: анализирует контекст слева и справа от слова. Это приводит к гораздо более глубокому пониманию отношений между терминами и между предложениями.
Другое отличие заключается в том, что BERT строит языковую модель с небольшим текстовым корпусом.
В то время как другие модели используют большие объемы данных для обучения машинному обучению, двунаправленный подход BERT позволяет обучать систему более точно и с гораздо меньшим объемом данных.
Таким образом, после обучения модели в текстовом корпусе (например, в Википедии) она проходит «тонкую настройку».
На этом этапе BERT подвергается конкретным задачам с входными и выходными данными в соответствии с тем, что вы хотите, чтобы он делал. Именно тогда он начинает адаптироваться к различным требованиям, таким как вопросы и ответы или анализ настроений.
Обратите внимание, что BERT – это алгоритм, который можно использовать во многих приложениях. Поэтому, когда мы говорим о Google BERT, мы говорим о его применении в поисковой системе.
В Google BERT используется для понимания поисковых намерений пользователей и содержимого, индексируемого поисковой системой.
В отличие от RankBrain, ему не нужно анализировать прошлые запросы, чтобы понять, что имеют в виду пользователи. BERT понимает слова, фразы и весь контент так же, как и мы. Ну, почти, как мы.
Но также поймите, что эта модель НЛП – только часть алгоритма. Google BERT понимает, что означают слова и как они связаны друг с другом.
Google по-прежнему нужна вся работа остального алгоритма, чтобы связать поиск со страницами индекса, выбрать лучшие результаты и ранжировать их в порядке значимости для пользователя.
Теперь мы немного оставим в стороне ИТ-термины, чтобы поговорить о том, что BERT означает для поиска Google.
Вы понимаете, что алгоритм помогает Google расшифровывать человеческий язык, но какое это имеет значение для поиска пользователя?
Важно помнить, что миссия Google состоит в том, чтобы систематизировать весь контент в Интернете, чтобы предоставить пользователям наилучшие ответы.
Для этого поисковая система должна понимать, что ищут люди и о чем говорят веб-страницы. Таким образом, он может обеспечить правильное соответствие между ключевыми словами и веб-контентом.
Например, когда вы ищете «густая коса», поисковик понимает, что «коса» в вашем запросе не относится к косе на реке, и не относится к режущему инструменту, или песчаной отмели в море.
Если вы искали «рецепты еды» (с орфографической ошибкой), она также поняла бы, что вы имели в виду.
BERT понимает значение этого слова в ваших поисковых запросах и в содержимом проиндексированных страниц.
Но искатель идет дальше: он также понимает намерение, стоящее за этим поиском.
Выполняя этот поиск, Google понимает, что вы возможно ищете компанию рядом с вами. Таким образом, на странице результатов, вероятно, будут показаны учреждения, которые предоставляют такого рода услуги в вашем регионе, особенно если у них есть хорошая локальная стратегия SEO.
Таким образом, Google становится более интеллектуальным, чтобы предоставлять результаты, которые действительно предоставляют то, что хотят найти пользователи. Это опыт поиска, который Google хочет предложить.
Однако на заре существования Google не все поисковые запросы давали то, что искал пользователь. Поисковик был ограничен точным соответствием ключевому слову.
То есть, когда человек вводил, например, «купить обувь», он мог предоставить результаты только страниц, на которых использовался именно это сочетание слов. Сейчас алгоритмам достаточно понять, что пользователь ищет интернет-магазин, и предоставит ему на выбор туфли, если это летом, а зимой – сапоги. И, как правило, слов из запроса может и не быть на сайте.
С момента выхода RankBrain Google уже начал понимать, что «забота» очень близка к «как заботиться». Таким образом, поисковая система также будет показывать страницы с терминами «как ухаживать за больным».
BERT дает Google понять, что человек хочет знать, как ухаживать за больным, не придерживаясь точных ключевых слов.
Проблема в том, что первоначальная модель точного соответствия ключевых слов Google создала интернет-пороки. Чтобы появиться в поисковой системе, многие сайты начали использовать ключевые слова в тексте именно так, как будет искать пользователь. Тем не менее, это делает чтение в некоторых случаях бессмысленным.
Подумайте, какой текст стали бы вы читать.
Тот, в котором естественно говорится об уходе за больным, или текст, в котором несколько раз повторяется «уход за больным», но этот текст не содержал бы каких-либо рекомендаций, или не имел никакого смысла?
Таким образом, переход Google к пониманию целей поиска также улучшает впечатления пользователя от чтения.
Сайты ориентированы на создание контента на естественном языке с использованием терминов, понятных читателю.
При этом Google также борется с заполнением ключевых слов, практикой черных методов продвижения, которые нарушает политику поисковых систем. Поэтому пользователь только выигрывает!
Когда Google запустил BERT, было сказано, что обновление затронет около 10% поисковых запросов в США.
Как и каждое обновление алгоритма, объявление вызвало движение на рынке SEO, так как многие сайты опасались потерять позиции.
Однако, в отличие от обновлений, направленных на противодействие недобросовестным практикам, BERT не оштрафовал ни один сайт. Что он делает, так это улучшает соответствие между поиском пользователя и содержимым страницы.
Поэтому, если кто-то потерял позиции по тому или иному ключевому слову, значит, оно не принесло хорошего ответа на этот запрос.
С другой стороны, если страница подходит для Google, она, вероятно, была лучше согласована с другим запросом и смогла улучшить качество своего трафика, что повысило вероятность того, что посетителям понравится контент.
Google показал пример (см. ниже), объясняющий изменения, которые BERT вызывает в поисковой выдаче. На изображении ниже вы можете увидеть, как поиск выглядит до и после BERT.
Ключевое слово: «Путешествующему из Бразилии в США в 2019 году нужна виза». BERT понимает намерение пользователя узнать, нужна ли бразильским путешественникам виза для въезда в Соединенные Штаты.
Однако до обновления Google понял, что поиск был для информации о туристических визах США в Бразилию.
О проекте
О подписке