Все о robots.txt
Опубликовано в : 16-07-2008 | Автор : admin | В рубрике : Все для вебмастера, Мысли вслух
0
Файл robots.txt располагается в корневой директории сайта и описывает правила поведения поисковых ботов на вашем сайте. При индексации сайта бот проверяет сначала url «/robots.txt», если файл существует, то бот анализирует его содержимое на предмет наличия запретов к посещению определённых частей сайта. В имени файла не должно быть заглавных букв. Записи в файле разделяются одной или несколькими пустыми строками. Комментарии robots.txt начинаются знаком «#» и заканчиваются окончанием строки (строки, содержащие только комментарии игнорируются ботами).
На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории — все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта.
Содержимое файла robots.txt
В файл robots.txt это нечто вроде:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
В этом примере запрещена индексация трех директорий.
Затметьте, что каждая директория указана на отдельной строке — нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.
Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*" не поддерживаются.
Конкретные конструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:
Запретить сайт для индексации всеми роботами
User-agent: *
Disallow: /
позволить всем роботам индексировать весь сайт
User-agent: *
Disallow:
Закрыть от индексации несколько каталогов
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запретить индексацию сайта только для определенного робота
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта только одному роботу, а всем остальным запретить.
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Запретить к индексации все файлы кроме одного
Это довольно непросто, т.к. не существует инструкции «Allow». Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:
User-agent: *
Disallow: /docs/
Либо вы можете запретить все запрещенные к индексации файлы:
User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html




