Хотите видеть цены в долларах?
Валюта RUB
  • Доллар США
  • Евро
  • Украинская гривна
  • Белорусский рубль
  • Казахстанский тенге
  • Киргизский сом
  • Узбекский сум
  • Таджикский сомони
  • Туркменский манат
  • Армянский драм
  • Азербайджанский манат
  • Молдавский лей
  • Турецкая лира
Лучшая тройка хостингов 2018 Напишите нам

Формат и синтаксис файла Robots.txt

Не секрет, что индексирование страниц поисковыми серверами порой происходит против желания владельцев этих серверов. В частности, иногда работа роботов затрудняет работу с сервером обычных пользователей (создают излишнюю нагрузку), иногда одни и те же файлы индексируются несколько раз. В других случаях, роботы индексируют не то, что надо, например, приватные файлы, очень "глубокие" виртуальные директории, временную информацию или CGI-скрипты. Использование файла robot.txt призвано решить подобные проблемы.

Поисковые роботы всегда перед индексацией ресурса ищут в корневом каталоге домена файл с именем "robots.txt" (http://ваш_домен/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.

Для того, чтобы регламентировать посещение сервера или его частей роботом необходимо создать на сервере файл, содержащий информацию для управления поведением поискового робота. Этот файл должен быть доступен по протоколу HTTP по локальному URL /robots.txt.

Формат файла robots.txt

Файл Robots.txt должен создаваться в текстовом формате Unix. Несмотря на то, что стандарт безразлично относится к регистру букв в robots.txt, в именах каталогов и файлов регистр все-таки важен.

Файл должен содержать одну или несколько записей, разделенных одной или несколькими пустыми строками (оканчивающимися CR, CR/NL или NL). Каждая запись должна содержать строки в форме:

"<field> : <value>".

Поле <field> является регистронезависимым.

Комментарии могут быть включены в файл: начало комментария обозначьте символом # , конец строки обозначает конец комментария.

Запись должна начинаться с одной или нескольких строк User-Agent, следом должна быть одна или несколько строк Disallow, формат которых приведен ниже. Нераспознанные строки игнорируются.

User-Agent

Данная строка содержит название робота
Значением <value> этого поля должно являться имя поискового робота, которому в этой записи устанавливаются права доступа. Если в записи указано более одного имени робота, то права доступа распространяются на всех указанных поисковых роботов.
Если в качестве значения этого поля указан символ "*", то права доступа, заданные в этой записи, будут применены для любых поисковых роботов, запросивших файл /robots.txt

Названия роботов можно найти в логах веб-сервера. Большинство поисковых серверов присваивают короткие имена своим паукам-индексаторам

Disallow

Эти строки - директивы для данного робота. Они сообщают поисковому роботу какие файлы и/или каталоги ему запрещено индексировать.
Значением <value> этого поля должен являться частичный URL, который не должен индексироваться. Любой URL, полный или частичный путь; начинающийся с такого значения индексирован не будет. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы файл robots.txt считался верным

Например,
Disallow: /help
закрывает и /help.html, и /help/index.html,
тогда как Disallow: /help/
только /help/index.html.

Если значение Disallow не указано, то это означает, что индексируется все дерево каталогов сервера

Следующая директива запрещает паукам индексировать файл mail.htm:

Disallow: mail.htm

Директива может содержать и название каталога:
Следующая директива запрещает роботам индексировать каталог "cgi-bin".

Disallow: /cgi-bin/

Если файл /robots.txt пуст, или не отвечает заданному формату и/или синтаксису, или же его вообще не существует, то любой поисковый робот будет работать по своему алгоритму.

МЕТА-тег robots

МЕТА тег robots служит для того, чтобы разрешать или запрещать роботам, приходящим на сайт, индексировать данную страницу. Кроме того, этот тег предназначен для того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. Кроме того, этим тегом могут воспользоваться те, кто не имеет доступа к корневому каталогу сервера и изменить файл robots.txt, но хочет запретить к индексированию свои файлы и директории.

Формат мета-тега Robots

МЕТА тег robots помещается в тег html-документа (внутри тега <HEAD>). Формат достаточно прост (регистр букв значения не играет)
<META NAME="ROBOTS" CONTENT="value">

Данному мета-тегу можно присвоить варианта четыре значений. Атрибут CONTENT может содержать следующие значения:
Index (индексировать), noindex (не индексировать), follow (следовать по ссылкам), nofollow (не следовать по ссылкам)

Например,
<META NAME="ROBOTS" CONTENT="NOINDEX>

указывает, что данный документ не будет проиндексирован.

А

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

означает, что робот поисковой машины не должен идти по ссылкам с данной страницы.

Для одновременного запрета индексирования страницы и обхода ссылок с нее используйте

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

Если значений несколько, то они разделяются запятыми.

Запретить индексирование можно не только для файлов, но также и для их частей. Для того, чтобы запретить индексирование определенных частей файлов (текстовых), необходимо пометить их специальными тегами <NOINDEX></NOINDEX>.
При этом, тег NOINDEX не должен нарушать вложенность других тегов.

Пример 1 - закрывается от индексации содержимое директорий /help/my/ и /tmp/.

# robots.txt for http://www.mysite.com
User-Agent: *
Disallow: /help/my/
# this is an infinite virtual URL space
Disallow: /tmp/
# these will soon disappear

Пример 2 - от индексации закрывается содержимое директории /help/my/, однако поисковому роботу google все разрешено

# robots.txt for http://www.mysite.com
User-Agent: *
Disallow: /help/my/
# this is an infinite virtual URL space
# Google knows where to go
User-Agent: googlebot
Disallow:

Пример 3 - любому поисковому роботу запрещается индексировать сервер

# robots.txt for http://www.mysite.com
User-Agent: *
Disallow: /


Примечания:
1. Комментарии рекомендуется писать отдельной строкой, чтобы одни однозначно воспринимались поисковыми роботами
2. Пробел в начале строки разрешается, но не рекомендуется.
3. Не указывайте несколько директив в одной строке.
Различные почтовые роботы могут понять эту директиву по-разному. Некоторые проигнорируют пробелы и поймут директиву, как запрет на индексацию каталога, состоящего из всех записей строки, либо возьмут только один каталог и проигнорируют все остальное
4. Не редактируйте файл robots.txt в формате DOS. Всегда редактируйте свой robots.txt в режиме UNIX и закачивайте файл на сайт в режиме ASCII. Многие FTP-клиенты умеют при закачке в текстовом режиме переводить символы строки из DOS-формата в UNIX-формат.
5. Google - первый поисковый сервер, который поддерживает в директивах регулярные выражения. Что позволяет запрещать индексацию файлов по их расширениям.

User-agent: googlebot
Disallow: *.cgi

В поле user-agent вам следует использовать имя "googlebot".

Евгений Хостик ([email protected])
https://hosters.ru

Републикация материала без письменного разрешения автора запрещена.