Всё о robots.txt и его правильном использовании на сайте

Что за зверь такой этот robots.txt?

Robots.txt — обычный текстовый файл, размещаемый как правило в корне сайта. Robots.txt предназначается поисковым роботам и содержит инструкции по индексированию сайта. Что можно брать в поиск, а что нельзя.

Как можно понять из расширения — robots это обычный текстовый файл, который можно создать и редактировать с помощью обычного блокнота, но я все же порекомендовал использовать notepad++.

Основные директивы используемые в роботс:

User-agent

этот параметр определяет для какого робота предназначены наши дальнейшие инструкции.

Что бы задать правила для всех без исключения роботов необходимо оставить такую запись:

User-agent: *

Если мы хотим указать определенного робота то необходимо явно обозначить имя следующим образом:

Яндекс

User-agent: Yandex

Гугль

User-agent: Googlebot

Disallow

Эта директива запрещает индексацию указанной части сайта.

например:

Disallow: /images/

Эта запись запретит индексирование папки images и всех вложенный каталогов и файлов.

Disallow: /

А эта запись запретить вообще весь сайт и можно сказать «выгонит» робота.

Allow

Эта директива напротив, разрешает индексацию по указанному пути.

например, мы запрещаем для индексации весь сайт, но разрешаем папке images попасть в поиск:

Allow: /images/

Disallow: /

ВАЖНО! В файл robots.txt поисковый робот читает по порядку, сверху вниз, т.е. если мы переставим местами строки в предыдущем примере — мы запретим к индексации весь сайт.

Disallow: / Увидев эту запись робот просто не станет читать ничего далее. А значит не узнает что папка с картинками разрешена к индексации.

Allow и Disallow являются основными директивами понятными всем поисковым роботам.

Другие директивы понятны только определенным роботам.

Рассмотрим взаимодействие с наиболее популярными поисковыми машинами — Yandex и Google.

Регулярные выражения в robots для Yandex и Google

Для создания правил в ссылках служат знаки * и $

Значения этих символов одинаково и для yandex и для google

Знак * обозначает любые символы, точнее любую последовательность символов, будь то пробелы, цифры буквы.

Пример использования * :

Disallow: *component Запрет к индексации всех страниц содержащих component

Знак $ обозначает окончание строки.

Рассмотрим действие $ на примере:

Disallow: /category/ Запрещает к индексированию и category/ и category/index.html

Disallow: /category/$ Запрещает к индексу ТОЛЬКО category/

Yandex директивы robots.txt

Sitemap

Эта директива указывает на карту сайта в формате xml (если она конечно же есть)

Пример использования:
Sitemap: http://saiteg.ru/xml_karta.xml

Crawl-delay

Если яндекс-робот у вас «прописался» и стал слишком бурно «читать», тем самым создавая серьезную нагрузку н сервер, его необходимо успокоить.

Для этого и существует эта директива cray-delay. Она устанавливает перерыв в секундах между действиями робота.

Можно использовать дробные значения, разделяя числа точкой.

Пример:
Crawl-delay: 2.5 устанавливаем время перерыва на 2.5 секунды

Либо так:
Crawl-delay: 1 перерыв одна секунда

Host

Если у сайта несколько доменных имен(зеркал) директива указывает какое из них главное, следовательно оно и будет присутствовать в поиске.
Директива Host в файле robots.txt может быть только одна. В случае указания нескольких директив, использоваться будет первая.
Пример:

Host: www.saiteg.ru

Clean-param

На мой взгляд одна из самых важных директив.

Clean-param позволяет отсечь страницы с параметрами. Т.е. к примеру у вас на сайте есть категория например test и она доступна по адресу test.html Так же у вас есть фильтр, позволяющий показывать статьи в этой категории по возрастанию, по убыванию, либо с большой фото, либос маленькой. Во всех случаях информация на странице одна. А вот адресов получается очень даже много. А это не есть хорошо с точки зрения ПС.

Если кто пользуется joomla наверное замечал что создав сайт с 10 заметками можно было увидеть проиндексированных страниц 100, 200, 300… Откуда они беруться? Правильно, это дубли с параметрами.

И так, использование директивы clean-param:

У нас есть страница objavlenija.html?page=show_category&catid=3&order=0&expand=0

И в ней есть 2 совершенно бесполезных параметра — order и expand. А значит нужно запретить их к индексации.
Clean-param: order&expand objavlenija.html?page=show_category*

Ну и на загладочку, список самых популярных роботов для директивы user-agent:

Яндекс роботы

  • Yandex — общее имя всей поисковой машины;
  • YandexBot — основной индексирующий робот;
  • YandexMedia — робот, индексирующий мультимедийные данные;
  • YandexImages — индексатор Яндекс.Картинок;
  • YandexCatalog — «простукивалка» Яндекс.Каталога;
  • YandexDirect — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса;
  • YandexBlogs — робот поиска по блогам, индексирующий комментарии постов;
  • YandexNews — робот Яндекс.Новостей;
  • YandexPagechecker — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки»;

Гуглороботы

  • Googlebot —  общий робот
  • Googlebot-Image — робот гугл картинок

Буду рад если дополните мой список роботов новыми, достоверными данными .

Запись опубликована в рубрике SEO, Для новичков. Добавьте в закладки постоянную ссылку.

Один комментарий на «Всё о robots.txt и его правильном использовании на сайте»

  1. Уведомление: FAQ по robots.txt

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *