Правильный robots txt
Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле веб-мастер может указать параметры индексации части или весего сайта всевозможными роботами.Правильное составление этого файла позволит избежать индексации документов, которые не следует видеть поисковым системам.
Файл robots.txt размещается в корневой директории сайта и описывает исключения для поисковых ботов. Придерживающийся стандартов бот проверяет сначала robots.txt. Если файл существует, то бот анализирует его содержимое на предмет наличия запретов к посещению определенных частей сайта. Имя файла должно быть в нижнем регистре (ROBOTS.TXT, Robots.txt — неправильно). Записи в файле нужно разделять одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки (строки, содержащие только комментарии игнорируются ботами и не являются разделителями записей).
User-agent:
- Значением этого поля является имя робота, к которому применяются правила доступа;
- Если строк с User-agent несколько, то для всех роботов применяются одинаковые правила, которые содержаться в текущей записи;
- Если значение поля равно «*», то правила применяются к любому роботу, для которого нет отдельной записи. В файле robots.txt может быть только одна запись с User-agent: *.
Disallow:
- В записи должно быть хотя бы одно поле Disallow (или Allow);
- в поле Disallow нужно указывать частичный или полный путь (URL), который не будет посещен;
- пустое значение (Disallow: ) понимается как разрешение на посещение любой страницы.
В файл исключений не стоит добавлять пути к файлам, о существовании которых не следует знать посторонним людям. Файл robots.txt доступен всем, поэтому присутствие там строк, вроде Disallow: /admin, только подзадорит некоторых посетителей к совершению вредоносных действий.
Некоторые системы поддерживают дополнительные поля. Яндекс, например, использует поле Host для определения основного адреса сайта.
В файле robots.txt обязательно должна присутствовать директива Allow или Disallow.