Robots.txt – это текстовый файл, который предоставляет поисковым роботам параметры индексации сайта. Прежде чем выполнить проверку контента на вашем ресурсе, поисковые роботы проверяют наличие файла robots.txt. Если выполнить грамотную настройку этого файла, эффективность сканирования возрастет в разы и принесет свои плоды для продвижения ресурса.

Robots.txt и его директивы

Robots.txt создан для быстрой и корректной индексации важных файлов на сайте, но его наличие не дает гарантии, что все страницы сайта будут успешно проиндексированы. С помощью роботс мы показываем роботам поисковых систем, что нужно занести в свою базу, а что — нет.

Для чего необходим файл robots.txt

Оптимизацию под поисковые системы невозможно представить без robots.txt. Его главная функция заключается в том, чтобы отдельные страницы не подвергались индексации поисковыми системами. На таких страницах находится контент, который не нужно индексировать: разделы с техническими параметрами, папки внутренние и т.д.

Для небольших одностраничных сайтов лучшим вариантом будет использование некоторых директив robots.txt (к примеру – Sitemap, Host), так как использование самого файла в таком случае нецелесообразно.

Процесс создания robots.txt

Robots.txt является текстовым файлом, поэтому для его создания вам понадобится текстовый редактор. Воспользоваться можно любым, который установлен на вашем компьютере, к примеру – Блокнотом. Содержание текстового файла напрямую зависит от ваших целей. Готовый файл необходимо сохранить в формате .txt и дать ему название «robots». Создание файла – достаточно простая процедура, а вот над содержанием robots.txt необходимо более тщательно поработать.

Онлайн-вариант создания robots.txt

Существуют онлайн-программы, которые могут автоматически сгенерировать файл robots.txt. Такие сервисы позволяют скачать файл в готовом виде, но не всегда он будет гарантировать, что в открытом доступе будут только нужные страницы ресурса. Дело в том, что онлайн-вариант robots.txt необходимо проверять перед установкой, так как он может содержать неправильные параметры ограничений. Чтобы в поиске не оказалось ненужного материала, файл роботс подлежит корректировке для определения более точных опций доступа к страницам сайта. Это поможет избежать ошибок, которые необходимо устранять до размещения файла.

Как правильно редактировать файл robots.txt

После создания файла robots.txt любым из способов его нужно отредактировать. У данного файла есть особый синтаксис, который необходимо соблюдать во время настройки.

Со временем сайт может видоизменяться, следовательно, и robots.txt будет менять свое содержание. Для правильной работы каждую новую версию робост необходимо выгружать на ресурс, чтобы он работал в соответствии с актуальным наполнением сайта.      

Процесс настройки файла

Настройка robots.txt необходимо для того, чтобы в свободный доступ не попадали файлы, которые должны быть доступны только администраторам сайта. Несмотря на то, что роботс задает параметры доступа поисковой системы к сайту, она не может обеспечить полную защиту частных страниц. Если ведущие поисковики (такие как Яндекс и Google) будут соблюдать параметры, установленные файлом, то непроверенные системы могут просто игнорировать их.

Понимание основного синтаксиса, директив и прочих параметров файла robots.txt помогут правильно сформулировать содержание файла, который будет эффективно работать на благо ресурса.

Составление роботс начинается с директивы «User-agent». Она указывает на робота, к которому обращена конкретная директива.

Например:

  • директива, указывающая на всех роботов будет выглядеть вот так: User-agent: * ;
  • директива, указывающая на роботов Яндекс: User-agent: Yandex;
  • директива, указывающая на роботов Google: User-agent: Googlebot.

В этих примерах показано, что робот будет применять только те параметры, которые заданы в User-agent.

Запрещающая директива «Disallow» с параметром «/*utm_» не должна обрамляться пустыми переводами строки, в том числе запрещено пропускать строки внутри одного «User-agent».

Как выглядит корректное оформление robots.txt:

User-agent: Yandex

Disallow: /*utm_

Allow: /*id=

____

User-agent: *

Disallow: /*utm_

Allow: /*id=

В примере можно заметить, что указания для роботов имеет форму блоков. В каждом блоке должно быть общее указание для роботов всех поисковиков, или же для какого-то определенного.

Разрешающая директива «Allow» и запрещающая «Disallow» должны быть расположены в определенном порядке, если они используются вместе. Это касается и других противоположных по значению директив.

Использование парных директив:

User-agent: *

Allow: /blog/page

Disallow: /blog

В примере указаны параметры, которые будут запрещать индексацию страниц, начинающихся с «/blog/page», и запрещать страницы с «/blog».

Правильная последовательность будет выглядеть таким образом:

User-agent: *

Disallow: /blog

Allow: /blog/page

Целесообразно закрыть доступ ко всему разделу сайта и открыть – к единичным его подразделам, если таковых меньшинство.

Еще один способ корректной формулировки директив «Allow» и «Disallow» – это отсутствие параметров. В таком случае роботами это будет считываться как параметр «/».

Ниже можно увидеть пример директивы «Disallow/Allow», не имеющей параметров:

User-agent: *

Disallow: # равнозначно Allow: /

Disallow: /blog

Allow: /blog/page

Оба способа формулировки равноценны и оба правильные. Важно не спутать один способ с другим и не смешать все в одной директиве. При составлении файла robots.txt самое важное – это четко установить запрещенные и доступные сегменты сайта.

Синтаксис robots.txt

Файл robots.txt создается согласно определенным структуре, то есть синтаксису. Правила написания робост достаточно просты, но им необходимо следовать в обязательном порядке. Эти правила созданы для поисковых роботов, которые следуют заданным командам. Стоит отметить, что не все поисковые системы воспринимают синтаксис robots.txt однообразно.

Самые частотные оплошность при создании файла robots.txt вы сможете обойти стороной, следуя таким правилам:

  1. для каждой директивы отводится отдельная строка;
  2. в начале строки не разрешено ставить пробел;
  3. не только директива, но и все ее параметры должны умещаться в одной строке;
  4. не разрешено брать параметры директивы в кавычки;
  5. в конце строки (после параметра директивы) нельзя ставить точку с запятой;
  6. формат команды в роботс имеет такой вид: [Имя директивы]:[необязательный пробел][значение][необязательный пробел];
  7. после знака # разрешено писать комментарии;
  8. если была пропущена пустая строка, то она будет означать закрытие директивы User-agent;
  9. противоположные директивы «Disallow» и «Allow» могут быть равнозначны в том случае, если в «Disallow: » будет пустое значение. Тогда его можно приравнять к «Allow: /»;
  10. в вышеупомянутых директивах «Disallow» и «Allow» можно указывать лишь один параметр;
  11. наименование файла robots.txt не должно содержать заглавных букв. Правильное написание именно маленькими буквами;
  12. директивы и их параметры также указываются маленькими буквами. В этом случае использование заглавных будет трактоваться как неверное написание;
  13. когда директория является параметром директивы, то перед ее названием используется слеш «/»;
  14. если файл robots.txt будет достаточно объемным (свыше 32 Кб), то он будет трактоваться как директива «Disallow: », то есть полностью разрешающая директива;
  15. если файл роботс окажется недоступным, то он также будет приравниваться к полностью разрешающему «Disallow: »;
  16. пустой robots.txt не может иметь иного значения, как полностью разрешающий, по причине того, что в нем не будет указано не единой директивы;
  17. если между несколькими директивами «User-agent» не будет пустой строки, то все последующие директивы будут опущены и информация в них проигнорирована;
  18. в файле можно использовать только латиницу, символы из прочих национальных алфавитов не допускаются.

Некоторые правила могут быть исключены в силу того, что каждая поисковая система считывает файл роботс особым способом. Robots.txt должен содержать только ту информацию, которая действительно необходима. Чем короче и понятнее будет составлен файл, тем четче его будет трактовать поисковые роботы.

Проверка корректности файла

Существует множество онлайн-сервисов, которые помогают с проверкой файла robots.txt. Крупнейшие корпорации, в том числе Google и Яндекс, имеют собственные службы для работы с сайтами. С помощью таких сервисов можно проанализировать правильность написания роботс.

Чтобы проверить работоспособность robots.txt в онлайн-режиме, файл загружается в корневую директорию сайта. Без такого этапа система может вовсе не найти положение файла. Кроме этого, нужно проверить, доступен ли роботс по адресу на ресурсе.

 

После составления роботс стоит убедиться, что в нем нет ошибок, которые могут навредить индексации.

После составления роботс стоит убедиться, что в нем нет ошибок, которые могут навредить индексации.

Для проверки файла на соответствие требованиям Google нужно зайти в аккаунт Google.Webmaster. Там, где идет отслеживание сайта, необходимо зайти в пункт «Сканирование» и далее нажать «Инструменты проверки файла robots.txt».

Сервис от Гугл поможет:

  • выявить элементы, где вы допустили ошибки;
  • проверить, корректно ли выполнен запрет индексации для определенных страниц ресурса;
  • непосредственно в программе скорректировать нужные элементы файла, где были выявлены ошибки.

Проверку файла robots.txt также можно провести в сервисе Яндекс.Вебмастер (http://webmaster.yandex.ru/robots.xml).

Работает данный инструмент от Яндекс аналогично гугловскому. Проверку файла можно проводить даже без авторизации и проверки прав на ресурс. Для Яндекс.Вебмастер необходимо правильно задать параметры проверки, внести все страницы, которые подлежат мониторингу, тогда вы сможете правильно скорректировать robots.txt.

Помимо валидаторов от Гугл и Яндекс можно найти множество других систем для проверки robots.txt.

Взаимодействие поисковых систем и robots.txt

Многие считают, что отдельная директива для Яндекс считывается намного лучше, чем при написании общим блоком. Подобная ситуация наблюдается и в Google. Чтобы регулировать процесс индексации сайта посредством файла роботс, лучше прописывать отдельные директивы для каждой поисковой системы. Таким образом вы как-бы персонально обращаетесь к роботу той или иной поисковой системы. Если для Яндекс можно прописать запрет на индексацию, то для Гугл такая возможность отсутствует. Еще одна особенность Яндекс заключается в том, что этот поисковик учитывает директиву «Host». Она необходима, чтобы указывать главное зеркало сайта. Детальнее об этой директиве вы узнаете далее в статье.

Варианты запрета индексации сайта

Существует запрещающая директива Disallow, которая создана для использования в файле роботс. Данная директива имеет особые функции, которые позволяют запретить индексацию либо полного сайта, либо его отдельных страниц.

Пример полного запрета индексации для роботов всех поисковых систем:

User-agent: *

Disallow: /

У директивы Disallow есть несколько параметров, благодаря которым можно правильно сформулировать запрет индексации определенных сегментов сайта. К примеру, * и $:

* — означает, что какой-либо один параметр удовлетворяет другие подобные, при этом каждая последующая директива будет интерпретироваться идентично без указания *.

User-agent: Yandex

Disallow: /page

User-agent: Yandex

Disallow: /page*

$ — говорит о том, что значение параметра соответсвует исключению:

User-agent: Googlebot

Disallow: /page$

В последнем примере показано, что директива Disallow запрещает индексацию /page, но дает доступ к другим страницам. Для запрета индексации можно использовать не только robots.txt, но и тегами HTML, которые будут работать аналогично.

<meta name=»robots» content=»none»/> — запрет индексации страницы и перехода по ссылкам;

<meta name=»robots» content=»noindex»/> — значение такого кода запрещает проводить индексацию целой страницы;

<meta name=»robots» content=»nofollow»/> — запрет перехода по ссылкам, которые расположены на странице.

Обзор разрешающей директивы

В противовес директиве Disallow создана разрешающая директива Allow. Синтаксис этих элементов файла роботс имеет одинаковую форму, но различное содержание.

В примере можно рассмотреть случай, когда нужно запретить индексацию сайта полностью, но оставить доступ поисковым роботам к некоторым страницам:

User-agent: *

Disallow: /

Allow: /page

Таким сочетанием предоставляется доступ только к страницам ресурса, которые начинаются с /page, остальной сайт будет под запретом для индексации.

Директива Allow с пустым значением будет означать, что разрешено «ничего», то есть весь сайт закрыт для поисковых роботов. В случае с пустой директивой Disallow все действует наоборот – весь сайт доступен для индексации.

Зеркало сайта

Существует отдельная директива под названием Host, которая создана исключительно для поисковых роботов Яндекс. Такую директиву используют, если ресурс имеет несколько доменов (к примеру, международный .com и национальный .ru). Host указывает роботу поисковика Яндекс главное зеркало сайта.

Одна из функций Host — это выявление приоритетного варианта среди site.ru и www.site.ru. В параметрах директивы указывается предпочтительный вариант адреса сайта, то есть главное зеркало ресурса.

Доменное имя должно указываться в параметрах директивы без использования «www» и «http//»:

User-agent: Yandex

Disallow: /page

Host: site.ru

Host можно использовать единожды, так как прочие варианты просто не будут использованы. Для того, чтобы главное зеркало сайта обнаруживалось и прочими поисковиками, стоит воспользоваться дополнительными инструментами. К примеру, для указания главного зеркала для поискового робота Google, нужно воспользоваться сервисом корпорации «Инструменты для вебмастеров».

Robots.txt и директива Sitemap

Чтобы поисковой робот быстро обнаружил на ресурсе местонахождение файла карты сайта, используется директива Sitemap.

Выглядит директива таким образом:

User-agent: *

Disallow: /page

Sitemap: http://www.site.ru/sitemap.xml

Если вы указываете адрес карты сайта посредством размещения директивы Sitemap в файле robots.txt, это способствует ее более быстрой индексации.

Использование директивы Clean-param

Страницы, имеющие динамические параметры, можно убрать от поисковых роботов с помощью директивы Clean-param. Такие страницы имеют разный URL, но идентичное наполнение, то есть к одной страницы есть доступ по разным адресам. Такие динамические адреса скрываются с помощью данной директивы.

Директива Crawl-delay

На сайтах с огромным количеством страниц, например, интернет-магазинах или крупных форумах, используют данную директиву для снижения уровня нагрузки на сервер. Такое случается из-за большого числа посетителей, которые заходят на ресурс.

Директива Crawl-delay дает команду поисковым роботам, чтобы она не так часто скачивали страницы сайта.

Выглядит директива таким образом:

User-agent: Yandex

Disallow: /page

Crawl-delay: 3

Здесь команда поступает к роботу Яндекс, который будет скачивать страницу не чаще чем один раз в три секунды. Некоторые поисковики считывают дробные числа в параметрах директивы.

Как писать комментарии в robots.txt?

Если вначале троки написать символ решетку (#), то эта строка будет игнорироваться роботами. Таким образом, для написания комментария в роботс нужно ставить решетку в начале строки, или же в качестве продолжения директивы – в середине.

Отличия robots.txt и noindex

Альтернативный вариант, который помогает полностью закрыть страницы от индексации, — это использовать noindex в метатеге роботс.

Для этого в <head> добавляется:

<meta name=”robots” content=”noindex, follow”>.

Такая манипуляция позволит оградить страницу от индексации не один раз, а каждый последующий. Это не придется делать вручную, что также является плюсом. Мета-тег Noindex передает ссылочный вес страницы.

Закрывать страницы с помощью такого мета-тега очень удобно, так как при внесении малейших изменений на сайте, вам не придется заново закрывать админку от индексации, также скрывать страницы для регистрации на ресурсе, восстановления пароля и авторизации.

Выводы

Файл robots.txt можно по праву считать одним из важнейших компонентов в процессе SEO-продвижения. Этот инструмент помогает слаженно взаимодействовать поисковым роботам и ресурсу во время индексации, значительно ускоряет этот процесс и позволяет провести его корректно.

Внутренняя оптимизация ресурса невозможна без правильной настройки robots.txt, так как именно этот файл закладывает фундамент успешного продвижения ресурса в поисковых системах.