Главные новости

  • Prev
  • Next

Все о robots.txt

Опубликовано в : 16-07-2008 | Автор : admin | В рубрике : Все для вебмастера, Мысли вслух

0

Как отменить запрет сайта файлом robots.txt

Файл robots.txt располагается в корневой директории сайта и описывает правила поведения поисковых ботов на вашем сайте. При индексации сайта бот проверяет сначала url «/robots.txt», если файл существует, то бот анализирует его содержимое на предмет наличия запретов к посещению определённых частей сайта. В имени файла не должно быть заглавных букв. Записи в файле разделяются одной или несколькими пустыми строками. Комментарии robots.txt начинаются знаком «#» и заканчиваются окончанием строки (строки, содержащие только комментарии игнорируются ботами).

На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории — все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта.

Содержимое файла robots.txt

В файл robots.txt это нечто вроде:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

В этом примере запрещена индексация трех директорий.

Затметьте, что каждая директория указана на отдельной строке — нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*" не поддерживаются.

Конкретные конструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:

Запретить сайт для индексации всеми роботами

User-agent: *
Disallow: /

позволить всем роботам индексировать весь сайт

User-agent: *
Disallow:

Закрыть от индексации несколько каталогов

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Запретить индексацию сайта только для определенного робота

User-agent: BadBot
Disallow: /

Разрешить индексацию сайта только одному роботу, а всем остальным запретить.

User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

Запретить к индексации все файлы кроме одного

Это довольно непросто, т.к. не существует инструкции «Allow». Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:

User-agent: *
Disallow: /docs/

Либо вы можете запретить все запрещенные к индексации файлы:

User-agent: *
Disallow: /private.html
Disallow: /foo.html

Disallow: /bar.html

Комментирование записи запрещено.