На физическом уровне поисковые системы представляют собой сеть из сотен тысяч и даже миллионов серверов, в буквальном смысле слова хранящих в себе копию всего Интернета. Посмотрим, как это работает.
Поисковый робот. Первым важным компонентом поисковой машины является поисковый или индексирующий робот. На самом деле этот робот и сам состоит из десятка других компонентов, но для простоты мы будем рассматривать его как единое целое. Итак, индексирующий робот:
– скачивает страницы из Интернета, так же, как это делает наш браузер
– после скачивания проводит первоначальный анализ – содержит ли эта страница какую-то осмысленную информацию и нужно ли поместить ее в базу данных поисковика (иначе называемому «индексом»)
– если страница полезная, то следует более подробный анализ. Страница разбирается на составные элементы: текст, html код, ссылки, изображения и т. п. и затем помещается в индекс.