Есть два пути влияния на роботов поисковых машин, это файл robots.txt и META тег ROBOTS.
Есть два пути влияния на роботов поисковых машин, это файл robots.txt и META тег ROBOTS. Оба инструмента не являются средством защиты информации от несанкционированного доступа, это всего лишь предписания роботам поисковых машин.
Файл robots.txt
Единственное, что может делать файл robots.txt - это закрывать от индексации файлы и каталоги. Но делать он это может выборочно, ориентируясь на имена роботов поисковых машин.
Если проект предназначен для индексации поисковыми машинами, присутствие файла robots.txt в каталоге WWW сервера обязательно. Некоторые поисковые машины производит индексацию, только при наличии этого файла. Закрывать от индексации, имеет смысл скрипты, архивы, графические файлы.
Робот поисковой машины будет искать файл robots.txt по всем HTTP портам сервера, например:
http://www.my.com/robots.txt http://www.my.com:80/robots.txt
http://www.my.com:1234/robots.txt
http://my.com/robots.txt
Имя файла robots.txt должно состоять из строчных букв (нижний регистр). Файл должен находится в каталоге WWW сервера. Файл с именем robots.txt находящийся в других каталогах или содержащий буквы верхнего регистра, будет проигнорирован.
Если проект не предназначен для индексации поисковыми машинами, файл robots.txt можно использовать для полного запрета индексации сервера, хотя это только рекомендация. В этом случае надежней закрыть сервер паролем, если конечно это возможно по техническим и идеологическим причинам.
Файл robots.txt формируется из записей, по две строки в каждой. Первая строка содержит имя робота, вторая перечень закрываемых каталогов, регистр (большие, маленькие буквы) имеет значения только для URL описываемых в строке Disallow. Имена каталогов и файлов на сервере рекомендуется всегда писать на нижнем регистре, в последствие не нужно будет угадывать, как набирать адрес.
Так же в возможно использование строк комментариев, они должны начинаться с символа #.
Пример, записи, которая нечего не запрещает:
# Пример, который разрешает все
User-agent: * # относится ко всем роботам
Disallow: # ни каких запретов
Звездочка в строке User-agent говорит, что эта запись относится ко всем роботам. Строка Disallow не содержит записей, что означает отсутствие запретов.
Запрещается использовать символы множественного выделения (*.gif) в строке Disallow. Единственный символ, который можно использовать в строке Disallow, это косая черта /, она означает, что доступ ко всем каталогам и файлам на этом сервере закрыт.
Пример, записи, запрещающей, все и всем:
User-agent: *
Disallow: /
Первая строка говорит, что данная рекомендация относится ко всем роботам. Вторая строка блокирует (рекомендательно) доступ ко всем файлам и каталогам сервера.
В строке User-agent вместо звездочки могут быть указаны имена конкретных роботов, через пробел. Тогда запрещающий тег будет выглядеть так:
User-agent: Scooter Spidey T-Rex
Disallow: /
Для роботов Scooter, Spidey и T-Rex доступ на сервер закрыт, для всех остальных роботов ограничений нет.
Пример, запрета индексации файлов в служебных каталогах:
User-Agent: *
Disallow: /cgi-bin/ /img/ /news/img/ # новый стандарт
Каталоги перечисляются через пробел, но возможно и построчное перечисление (старый стандарт).
User-Agent: *
Disallow: /cgi-bin/ # старый стандарт
Disallow: /img/
Disallow: /news/img/
Файл robots.txt может содержать несколько записей как для одного, так и для нескольких роботов.
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
Для робота WebCrawler ограничений нет, всем остальным роботам доступ закрыт. Записи должны бать разделены пустой строкой. Можно накладывать ограничения и на отдельные файлы:
User-agent: *
Disallow: /my/my.html
Disallow: /docs/mydoc.html
META тег ROBOTS
META тег ROBOТS может управлять индексацией, но только страницы, в которой он описан. Значение свойства Robоts может состоять из следующих директив, разделенных запятыми:
Index - эта страница должна быть индексирована.
Noindex - эта страница не должна индексироваться.
Follow - прослеживать гиперссылки на странице.
Nofollow - не прослеживать гиперссылки на странице.
All - = index, follow (принято по умолчанию).
None - = noindex, nofollow.
Тег <META name=Robоts content="all"> ничего не меняет в работе робота поисковой машины, так как значение "all" принято по умолчанию. Но если эта страница создается динамически или очень часто обновляется, то нет смысла ее индексировать, так как информация о странице в поисковой машине и ее истинное содержание будут разными. В этом случае можно рекомендовать поисковой машине не индексировать эту страницу, а только отслеживать на ней гиперссылки, что бы проиндексировать остальную часть сайта <META name=Robоts content="noindex,follow">. При использовании тега, запрещающего отслеживание гиперссылок <META name=Robоts content="index,nofollow"> часть сайта может остаться не проиндексированной, так как внутри сайта роботы перемещаются по гиперсылкам. И те страницы, переход на которые заблокирован, роботы найти не смогут. META-тег Robots имеет приоритет над директивами управления, заданными в файле robots.txt. То есть, если в директивы управления в файле robots.txt разрешают индексировать все файлы в каталоге, то блокирующей META тег может запретить индексирование страницы, находящейся в этом каталоге. Обратное не возможно, так как робот просто не узнает, что рекомендует META тег странички в заблокированном каталоге. Не все роботы воспринимают директивы, META тега ROBOTS, в полном объеме. В основном возникают проблемы с директивами Follow и Nofollow.
По теме:
|