Веб-краулер: что это такое и как оптимизировать под него сайт
Принцип работы веб-пауков
Если объяснять простыми словами, то краулер сайтов — это программа, которая работает за кулисами поисковиков, таких как Google и Yandex, и ищет для них страницы.
Поисковый робот — это как исследователь интернета. Он постоянно обходит сайты, собирает сведения и добавляет их в базу данных поисковика.
Поисковые системы применяют особые алгоритмы, чтобы показывать нам самые важные и наиболее подходящие результаты. Если робот не может просканировать страницу, поисковик решит, что она нерелевантна. Поэтому её поставят ниже в выдаче.
Процесс напоминает то, как библиотекарь добавляет новые книги в каталог. Если библиотекарь не знает о книге, она не появится в каталоге, и людям будет трудно её найти.
Как краулеры обрабатывают ресурс
Робот поисковой системы воспринимает сайт совершенно иначе, чем мы. Вместо картинок и текста, которые видны нам он смотрит на технические детали, такие как заголовок страницы, ответ сервера, IP-адрес и другие.
«Паук» оценивает множество критериев, включая: HTTP-статус-код, тип веб-сервера, временную метку в формате GMT, MIME-тип контента, размер в байтах, присутствие Keep-Alive, адрес, код ответа при перенаправлении, IP-адрес сервера, установленные кукис и структуру ссылочной массы.
Если на ресурсе есть особый файл с картой площадки (sitemap.xml), поисковый робот всегда сначала ознакамливается с ним. Этот документ подсказывает краулеру, что именно на сайте нужно проверить (и что «краулить» нельзя).
Если вы хотите, чтобы поисковый «паук» обязательно проверил конкретный раздел на вашем сайте, добавьте ресурс в базу специального инструмента. Например, в «Yandex.Вебмастер» или Google Search Console есть функция, где можно указать точный адрес страницы, которую хотите проиндексировать.
После того как робот попадает на страницу, он её сканирует. Он считывает весь текст, изучает HTML-код и находит все ссылки.
Когда робот заканчивает исследовать страницу, он передаёт все данные на сервер. Там из собранной информации удаляются все лишние элементы, и она организуется в определённом порядке. Затем сведения отправляются в специальную базу, которую называют индексом. Хотя индексацией занимается другая программа, её тоже зачастую называют поисковым роботом.
Поисковики обрабатывают новые ресурсы с разной скоростью. Yandex добавляет свежие страницы в выдачу через несколько суток, а Google может сделать это всего за пару часов. Если площадка совсем новая, и поисковики ещё ничего о ней не знают, то полная индексация сайта займёт гораздо больше времени — зачастую приходится ждать месяцы.
Поисковые роботы не просто один раз посещают сайт. Они постоянно следят за изменениями на нём. Если какая-то страница была удалена или перемещена, краулер расскажет об этом поисковой системе. Как часто роботы будут проверять сайт, зависит от размера ресурса, количества посетителей и того, как часто на площадке появляется свежая информация.
Распространённые проблемы с веб-пауками
Ниже выясним, какие трудности, связанные с веб-краулерами, могут возникнуть:
- Это долго. Если ресурс большой и сложный, с огромным количеством страниц и разделов, поисковому роботу потребуется много времени, чтобы полностью его проиндексировать. Особенно это касается сайтов с запутанной структурой и недостаточным количеством внутренних ссылок между разделами. Здесь процесс полной индексации затянется на месяцы. Кроме того, ошибки в коде сайта и наличие дубликатов страниц также замедляют индексирование и плохо влияют на его результаты. Это приведёт к тому, что некоторые разделы сайта не появятся в выдаче или займут низкие позиции.
- Это нагружает ресурс. Поисковые краулеры, которые постоянно посещают сайт, создают нагрузку на сервер. Это происходит потому, что роботы имитируют действия живых пользователей. Если «пауков» слишком много, то сервер может не выдержать и сайт станет недоступен. Обычно популярные поисковики стараются не перегружать сайты, но если на ресурс сразу добавляют много новых страниц, то нагрузка сильно увеличится. Здесь стоит либо вручную ограничить количество посещений краулерами, либо настроить сервер так, чтобы он отправлял «паукам» сигнал о перегрузке (код 429). Эти цифры говорят, что частоту запросов нужно снизить.
- Это опасно. Если владелец площадки не закрыл доступ к какой-либо странице, поисковый «паук» найдёт её и проиндексирует. Из-за ошибок в настройках приватности или отсутствия запретов на индексирование, в сети появятся материалы, которые нельзя публиковать. Например, клиентские данные можно будет найти в поисковиках.
- Иногда краулеры не индексируют страницы. Возникнуть эта проблема может по нескольким причинам — о них расскажем далее.
Почему веб-пауки не видят страницы
Ниже рассмотрим несколько самых распространённых причин, почему страница не индексируется, и разберёмся, как решать такие проблемы.
- На неё не ведут никакие другие страницы.
- Вы сами запретили поисковикам индексировать эту часть, используя специальные теги или файл robots.txt.
- Страница не указана в карте сайта.
- Ваша площадка загружается очень медленно.
- Поставьте ссылки на нужный раздел в других местах вашего сайта.
- Добавьте страницу в sitemap.
- Улучшите скорость загрузки. Например, можно сжать изображения (через TinyPNG или ILoveImg) или использовать конвертацию картинок в WebP.
- Исправьте все битые ссылки и уберите лишние перенаправления.
- Уберите дубликаты страниц, чтобы поисковики не путались.
Как улучшить сайт для веб-краулеров
Ниже подробнее разберём, как сделать ресурс удобочитаемым для роботов.
Заключение
Веб-краулер — это программный агент, который исследует ресурсы. Он проверяет содержимое разделов сайта, чтобы определить, какие ключевики присутствуют и как страницы связаны друг с другом. Полученные сведения используется поисковиками для создания индекса, с которым проще находить нужные страницы в ответ на пользовательские запросы.
Чтобы ваш сайт занял высокие позиции в поисковых результатах, необходимо оптимизировать его под требования поисковых алгоритмов.