Правильный robots txt

Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле веб-мастер может указать параметры индексации части или весего сайта всевозможными роботами.Правильное составление этого файла позволит избежать индексации документов, которые не следует видеть поисковым системам.

Файл robots.txt размещается в корневой директории сайта и описывает исключения для поисковых ботов. Придерживающийся стандартов бот проверяет сначала robots.txt. Если файл существует, то бот анализирует его содержимое на предмет наличия запретов к посещению определенных частей сайта. Имя файла должно быть в нижнем регистре (ROBOTS.TXT, Robots.txt — неправильно). Записи в файле нужно разделять одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки (строки, содержащие только комментарии игнорируются ботами и не являются разделителями записей).

User-agent:

  • Значением этого поля является имя робота, к которому применяются правила доступа;
  • Если строк с User-agent несколько, то для всех роботов применяются одинаковые правила, которые содержаться в текущей записи;
  • Если значение поля равно «*», то правила применяются к любому роботу, для которого нет отдельной записи. В файле robots.txt может быть только одна запись с User-agent: *.

Disallow:

  • В записи должно быть хотя бы одно поле Disallow (или Allow);
  • в поле Disallow нужно указывать частичный или полный путь (URL), который не будет посещен;
  • пустое значение (Disallow: ) понимается как разрешение на посещение любой страницы.

В файл исключений не стоит добавлять пути к файлам, о существовании которых не следует знать посторонним людям. Файл robots.txt доступен всем, поэтому присутствие там строк, вроде Disallow: /admin, только подзадорит некоторых посетителей к совершению вредоносных действий.

Некоторые системы поддерживают дополнительные поля. Яндекс, например, использует поле Host для определения основного адреса сайта.

В файле robots.txt обязательно должна присутствовать директива Allow или Disallow.

Назад