Файл Robot.txtДанный файл очень важен для индексации вашей страницы, так как поисковые роботы, прежде всего, ищут файл robots.txt в корневом каталоге (http://www.domain.com/robots.txt). Именно здесь находится информации, адресованная паукам-индексаторам касательно того, какие файлы требуется индексировать, а какие нет.

Данный файл имеет свой особый формат и состоит из нескольких записей. Каждая запись в свою очередь имеет два поля: в первом находится строка с названием клиентского приложения, известная как user-agent, а также несколько строк с директивами типа

<Поле> «:» <значение>

Файл имеет текстовый формат Unix. Работу облегчает тот факт, что многие редакторы уже понимают оба текстовых формата и могут легко перевести строки Unix в формат Windows и обратно. Также эту функцию может исполнять ваш FTP-клиент. Не стоит использовать HTML-редактор, в котором код не имеет текстового отображения такого вида:

Поле User-agent

Строка User-agent – здесь находится название робота. К примеру:

User-agent: googlebot

Символ подстановки подходит для обращения ко всем роботам сразу «*»:

User-agent: *

Логи вашего веб-сервера как правило сохраняют названия роботов. Чтобы увидеть их, выберите запросы, идущие исключительно к файлу robots.txt. Также помните, что большинство пауков-индексаторов имеет короткие имена.

Поле Disallow

Строки Disallow находятся во второй части представленной записи. Директивы для определенного робота содержатся именно здесь. С их помощью робот может узнать, какие файлы и/или каталоги ему запрещается индексировать. Например, указанная ниже директива не разрешает паукам вести индексацию файла email.htm:

Disallow: email.htm

В директиве может быть также название каталога

Disallow: /cgi-bin/

Директива такого типа не разрешает паукам вести индексацию директории «cgi-bin«.

В Disallow вполне могут быть также символы подстановки, согласно стандартам директива /bob закроет от пауков /bob.html и так же /bob/index.html.

В случае пустой директивы Disallow робот спокойно проиндексирует все файлы.  В каждом поле User-agent должно содержаться не менее одной директивы Disallow. Это делается для того, чтобы файл robots.txt был распознан корректно. Полностью пустой robots.txt является, по сути, тем же самым, что и отсутствие файла.

Пробелы и комментарии

Комментарии пишутся в строку с # в robots.txt. В принципе можно ставить комментарии в конце строк директив, но так делать непринято:

Disallow: bob #comment

В данном случае команда может быть распознана пауками неправильно, и в итоге те просто не проиндексируют ресурсы bob#comment, решив, что это запрещено. Для этого каждому комментарию должна быть отведена своя строка.

Пробел в начале строки в принципе разрешается, но лучше от него воздержаться

Disallow: bob #comment

Примеры

Следующая директива призвана разрешить индексацию всех разделов, так как здесь используется уже известный символ подстановки «*».

User-agent: *
Disallow:

А такая директива полностью запрещает индексацию:

User-agent: *
Disallow: /

Директории «cgi-bin» и «images» закрыты для индексации:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Робот Roverdog не должен заходить ни на один из каталогов сервера:

User-agent: Roverdog
Disallow: /

Google робот googlebot не должен индексировать файл cheese.htm:

User-agent: googlebot
Disallow: cheese.htm

Более сложные примеры управления индексацией, или пример действующего файла robots.txt можно увидеть на многих крупных сайтах следующим образом:

http://sitename.com/robots.txt

Как найти определенный  robots.txt?

Согласно статистике, около 5% всех robots.txt сделаны некорректно или с ошибками, а 2% файлов роботы вообще не могут понять, так как количество ошибок превышает допустимое.

Вот список наиболее часто встречающихся ошибок при создании robots.txt
:

Перевернутый синтаксис
Эта ошибка встречается очень часто:

User-agent: *
Disallow: scooter

Вот правильный вариант:

User-agent: scooter
Disallow: *

Более одной директивы Disallow в строке

Disallow: /css/ /cgi-bin/ /images/

Каждый паук может понять такую директиву по-своему. Кто-то из пауков проигнорирует пробелы, и не будет проводить индексацию директории /css//cgi-bin//images/. Пауки также могут провести индексацию только одного каталога (/images/ или /css/), оставив остальные без внимания.

Вот пример правильного синтаксиса:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Написание строки в формате DOS

Иногда файл robots.txt редактируют в формате DOS. Хотя многие пауки уже научились «понимать» эту распространенную ошибку, все же стоит следить за ее отсутствием. Лучше всего проводить любые коррективы robots.txt в UNIX, закачку же проводить в режиме ASCII. Большинство FTP-клиентов для закачки файлов на сервер уже имеют соответствующие опции для корректного перевода символов строки из DOS-формата в UNIX-формат. Но, к сожалению, делать это умеют не все.

Комментарии в конце строки

По новым стандартам можно писать и так:

Disallow: /cgi-bin/ #this bans robots from our cgi-bin

Но совсем недавно некоторые роботы понимали всю строку как одну директиву. Сейчас, скорее всего, их уже нет, но нельзя с уверенностью сказать, что вы не столкнетесь с подобной ошибкой. Комментарии лучше делать на своей строке.

Пробелы в начале строки

Disallow: /cgi-bin/

Пробелы никак не отмечаются в стандартах, но это считается плохим стилем. Также никто не даст гарантию, что система воспримет все правильно

Редирект на другую страницу при ошибке 404

Часто при возникновении ошибки 404 (файл не найден) вам может быть выдана особая страница, как например 404.html. При этом переход на главную страницу сайта не осуществляется. При таком варианте робот может не понять, что файла robots.txt просто нет, вместо этого для него существует html-страница с определённым содержимым. В принципе, это не должно вызвать сбои, но, тем не менее, все возможно. Сложно сказать, как поймет робот подобный html файл. Может случиться так, что вся страница будет распознана как за robots.txt. Во избежание этого, поместите robots.txt в корневой каталог даже в том случае, если файл пустой.

Как бы вы поступили, будучи роботом
slurp и столкнувшись в данными директивами?

User-agent: *
Disallow: /
#
User-agent: slurp
Disallow:

В то время как первая директива несет запрет для всех роботов индексировать сайт, однако следующая за ней директива разрешает именно для slurp. Какое действие требуется в итоге от slurp? Возможен вариант, что роботы поймут эти директивы неверно. В этой ситуации slurp должен проиндексировать весь сайт, другие же роботы должны его полностью проигнорировать.

Верхний регистр всех букв – некорректное заполнение файла:

USER-AGENT: EXCITE
DISALLOW:

Хотя регистр букв в robots.txt не имеет кардинального значения, но в именах каталогов, как впрочем и файлов, регистр важен. Лучше всего писать в верхнем регистре только первые буквы в словах User и Disallow.

Список всех файлов каталога

Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html


Вместо этого можно записать то за самое иным образом:

Disallow: /AL
Disallow: /Az

Не забывайте, начальная наклонная черта обозначает каталог. По сути, вам не запрещают перечислить два или три файла, но ведь мы говорим о стиле. Такой пример видели в файле robots.txt весом более 400 килобайт с упоминанием более 4000 файлов! Можно предположить, что многие роботы-пауки решили больше не приходить на этот сайт, только лишь увидев такой файл.

Есть директива Disallow, и только она!

Директивы Allow как таковой вообще нет. Этот пример неверный:

User-agent: Spot
Disallow: /john/
allow: /jane/

Вот пример правильного заполнения:

User-agent: Spot
Disallow: /john/
Disallow:

Открывающая наклонная черта недопустима

Как может робот-паук распознать данную директиву:

User-agent: Spot
Disallow: john

Стандарты говорят, что robot.txt запрещает индексацию файла «john» и каталога john». Но при использовании наклонной черты робот сможет отличить файл от каталога.

Некоторые люди пытаются записывать в файл robots.txt ключевые слова для своего сайта, что, в общем-то, не имеет никакого смысла.

Иногда находились файлы robots.txt, сделанные как html-документы. Не забывайте, что во FrontPage создавать robots.txt не стоит.

Некорректно настроенный сервер

Каким образом на запрос robots.txt веб-сервер может неожиданно выдать бинарный файл? Обычно это бывает в случае, когда ваш веб-сервер имеет неправильные настройки, или вы сами неправильно закачали ваш файл на сервер.

После закачки файла robots.txt на сервер его требуется проверить. Достаточно сделать запрос в вашем браузере:

http://www.mydomain.com/robots.txt

Этого хватит для проверки.

Особенности Google

Особенность сервера Google  в том, что он способен поддерживать в директивах регулярные выражения. Это дает возможность запрещать индексацию файлов, ориентируясь на их расширения.

User-agent: googlebot
Disallow: *.cgi

Поле user-agent используйте для указания имени «googlebot». При этом, другие пауки, скорее всего, не поймут вашу директиву.

МЕТА-тег robots

МЕТА тег robots дает возможность разрешить или запретить поисковикам индексировать (либо нет) фиксированные страницы сайта. Также данный тег может предлагать роботам-паукам просмотреть все страницы сайта и каждую из них проиндексировать. В настоящее время этот тег становится очень актуальным и популярным.

Данный тег будет полезен также тем, кто не имеет доступа к корневому каталогу сервера robots.txt и соответственно не может внести изменения.

Такие поисковики как Inktomi в полной мере понимают мета-тег robots. Inktomi пройдет по всем страницам вашего сайта в том случае, если значение указанного тега будет «index,follow».

Формат мета-тега Robots
Мета тег robots должен быть размещен в теге html-документа. Это несложный формат (регистр букв не важен):

<HTML>
<HEAD>
<META NAME=ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»>
<META NAME=»DESCRIPTION» CONTENT=»Эта страница ….»>
<TITLE>…</TITLE>
</HEAD>
<BODY>

Значения мета-тега robots

Данный мета-тег может иметь максимум четыре значения content:

index, noindex, follow, nofollow

Значения в количестве больше одного разделяются запятыми.

На сегодняшний день имеют вес следующие значения:

Директива INDEX отдает роботу команду индексировать страницу.

Директива FOLLOW дает знать роботу-пауку, что ему можно вести индексацию ссылок на этой странице. Можно прочесть в ряде источников, что при отсутствии таких значений поисковые роботы действуют так, как в случае директивы INDEX и FOLLOW. К сожалению, поисковый сервер Inktomi поймет это как «index, nofollow».

Глобальные директивы имеют следующий вид:

Индексировать всё = INDEX, FOLLOW

Не индексировать ничего = NOINDEX, NOFOLLOW

Примеры мета-тега robots

<META NAME=ROBOTS» CONTENT=»NOINDEX, FOLLOW»>
<META NAME=ROBOTS» CONTENT=»INDEX, NOFOLLOW»>
<META NAME=ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»>

Только наиболее выгодная раскрутка сайтов и рекламный копирайтинг в СНГ.

Похожие записи:

  1. Как правильно оптимизировать изображения для поисковиков
  2. Грамотная оптимизации блога на WordPress
  3. Наиболее распространенные ошибки при создании сайтов
  4. Сделать сайт и найти, где его разместить, или выбираем хостинг
  5. Как разобраться в оптимизации сайта
  6. Как создать собственный каталог ресурсов?
  7. Как поднять Page Rank
  8. Как эффективно продвинуться в Facebook
  9. Как перелинковать ресурс под низкочастотные запросы
  10. Как привлечь пользователей на сайт